Fuzzy-Based Algorithm For Fongbe Continuous Speech Segmentation - FR

Vous aimerez peut-être aussi

Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 15

Accelerating the world's research

Algorithme flou pour la


segmentation continue de la parole
Fongbe
Traduit de: Fuzzy-based algorithm for Fongbe continuous speech segmentation

Eugene Ezin

Pattern Analysis and Applications

Besoin de citer ce Tu veux plus de papiers comme ça ?


document ?
Télécharger un pack PDF de documents
Obtenez la citation dans les connexes
styles MLA, APA ou Chicago
Recherchez dans le catalogue Academia de 47
millions d'articles gratuits

translated with Academia.edu 


TRADUCTION 1

Algorithme flou pour la


segmentation continue de la
parole Fongbe
Eugene Ezin

Pattern Analysis and Applications

Original Paper 

Résumé
La segmentation vocale indépendante du texte est un sujet difficile dans les systèmes de
reconnaissance vocale informatisés. Cet article propose un nouvel algorithme dans le
domaine temporel basé sur des connaissances floues pour une tâche de segmentation
continue de la parole via une analyse non linéaire de la parole. L'énergie à court terme, le taux
de passage par zéro et les exposants de singularité sont les caractéristiques du domaine
temporel que nous avons calculées dans chaque signal de point de parole afin d'exploiter les
informations pertinentes pour générer les segments significatifs. C'est en baisse pour
l'identification du phonème ou de la syllabe et les fronts de transition. La technique de
logique floue nous a aidé à fuzzifier les caractéristiques calculées en trois ensembles
complémentaires à savoir : faible, moyen, élevé et à effectuer une phase d'appariement en
utilisant un ensemble de règles floues. Les sorties de notre algorithme proposé sont des
silences, des phonèmes ou des syllabes. Une fois évalué, notre algorithme a produit les
meilleures performances avec des résultats efficaces sur la langue Fongbe (une langue
tonale africaine parlée notamment au Bénin, au Togo et au Nigeria).

Introduction
La segmentation de la parole est un processus de décomposition du signal vocal en
unités plus petites. Cela implique l'identification de segments dans la parole continue et les
traite pour générer des caractéristiques distinctives. Il est utilisé pour détecter les points de
début et de fin appropriés des limites des segments. Il est important de divers algorithmes de
TRADUCTION 2

traitement automatisé de la parole (voir Fig. 1). Il existe deux types de segmentation vocale :
la segmentation manuelle et la segmentation automatique. La segmentation manuelle de la
parole nécessite beaucoup de temps et d’argent pour segmenter de très grands corpus et
n’est donc pas toujours disponible pour les corpus vocaux. C'est extrêmement laborieux et
fastidieux mais plus précis que la segmentation automatique.

De nombreuses méthodes existent pour la segmentation de la parole et sont basées sur


des caractéristiques du domaine temporel et du domaine fréquentiel telles que la
transformée en ondelettes [1][2][3], l'énergie de courte durée ou l'énergie spectrale [4][5][6],
zéro -taux de passage [7,8] et fréquence fondamentale [9,10]. De plus, plusieurs auteurs ont
adopté les approches basées sur les modèles de Markov cachés (HMM) et les réseaux de
neurones artificiels (ANN) qui sont largement utilisés en reconnaissance automatique de la
parole pour la segmentation de la parole [11][12][13][14]. D'autres méthodes basées sur des
techniques standards, telles que la machine à vecteurs de support (SVM) et le HMM, ont
récemment été utilisées pour aborder la segmentation automatique de la parole. Dans cet
article, nous avons cité deux méthodes intéressantes que nous avons implémentées pour
une comparaison des performances sur Fongbe, selon la description des auteurs. Le premier
[15] a exploité la technique SVM pour affiner les limites de transition téléphonique
hypothétiques données par l'alignement forcé de Viterbi basé sur HMM. Le dernier [16]
utilisait une analyse de régression pour la fusion prédictive de moteurs de segmentation
indépendants. Sa fonction principale est basée sur une fusion de régression de prédiction des
limites (RFBP) pour la segmentation de la parole.

Chaque méthode présente certaines limites et complexités liées à la composition des


syllabes dans un discours continu, à l'accentuation de l'articulation des syllabes dans une
langue donnée et aux spécificités syllabiques de la langue. Compte tenu du nombre de
langues existantes, il y avait de bonnes raisons d'approcher la segmentation continue de la
parole Fongbe afin de fournir une méthode adaptée à la structure syllabique de ses mots.
Ainsi, ce travail fait partie d’une pluralité d’efforts visant à développer un système de
reconnaissance vocale pour le Fongbe qui est un langage sans ressources. Des travaux
antérieurs [17,18] se sont concentrés sur la classification automatique de phonèmes Fongbe
isolés. Dans [17], nous avons étudié un nouveau classificateur basé sur la combinaison de
Naive Bayes et de Learning Vector Quantization (LVQ) utilisant le vote pondéré pour
reconnaître les consonnes et les voyelles de la langue Fongbe. L'objectif était de résoudre un
problème de manque de données de formation qui avait provoqué une incertitude dans les
décisions fournies par les deux classificateurs. Ainsi, pour améliorer les décisions, nous
avons combiné une approche de classification basée sur la théorie des probabilités et une
autre approche basée sur la recherche du voisin le plus proche. Le résultat est que la fusion
proposée a augmenté de 1,42 pour cent la classe des voyelles et de 1,02% la classe des
consonnes. Dans [18], nous avons placé les problèmes de reconnaissance de phonèmes
dans un contexte de classification à partir de plusieurs classificateurs. Nous avons d’abord
TRADUCTION 3

étudié deux méthodes de fusion décisionnelle, à savoir la méthode non paramétrique utilisant
une combinaison pondérée et la méthode paramétrique utilisant des réseaux de neurones
profonds. Ensuite, nous avons proposé une approche adaptative basée sur la logique floue
pour construire un système discriminatoire robuste de consonnes et de voyelles. Les
principales conclusions de ce travail sont une comparaison des performances de trois
méthodes de fusion de décision dans un problème de classification de phonèmes Fongbe
avec plusieurs classificateurs et la proposition d'un système de classification de phonèmes
Fongbe robuste qui intègre une fusion de classificateurs Naive Bayes et LVQ en utilisant une
approche de logique floue. Dans le présent article, nous proposons pour la segmentation de
la parole Fongbe, une méthode fortement basée sur un système de logique floue avec une
phase d'apprentissage utilisant les réseaux de croyances profondes (DBN). En plus de fournir
un support pour le traitement automatique du langage Fongbe (un langage sans ressources),
les travaux actuels mettent en évidence les contributions significatives qui incluent :

• une méthode efficace pour la segmentation continue de la parole Fongbe indépendante


du texte en petites unités vocales ;

• une procédure automatique de génération des ensembles flous et des règles floues.

Les travaux présentés dans cet article utilisent les caractéristiques du domaine temporel
pour détecter les unités de segment et les connaissances floues pour la phase d'appariement
réalisée grâce à l'apprentissage supervisé. Par rapport à d'autres approches de segmentation,
notre méthode proposée ne dépend pas des régions de fréquence du signal et de l'enveloppe
en bandes de fréquences comme dans les travaux [9,10] et n'a pas besoin des paramètres
d'apprentissage comme les approches basées sur des modèles de Markov cachés et
artificiels. les réseaux de neurones. Contrairement aux approches dans le domaine temporel,
nous avons étudié les informations pertinentes fournies en examinant la distribution locale
des exposants de singularité pour segmenter les phonèmes ou les syllabes. Les règles floues
appliquées aux caractéristiques calculées (énergie à court terme, exposants de singularité et
taux de passage par zéro) ont permis d'identifier avec plus de précision les frontières entre
phonèmes ou syllabes adjacents. La figure 2 présente un aperçu de notre algorithme proposé
avec des caractéristiques tracées telles que SE (pour les exposants de singularité), STE (pour
l'énergie à court terme) et ZCR (pour le taux de passage à zéro). L'algorithme comprend trois
étapes. Premièrement, nous avons séparé les segments vocaux et non vocaux.
Deuxièmement, nous avons d’abord calculé les exposants de singularité pour identifier les
frontières brutes afin de former les premiers segments candidats. Ensuite, nous avons
calculé sur chacun de ces segments l'énergie à court terme et le taux de passage par zéro
pour exploiter une large connaissance acoustique à partir des signaux de segment obtenus.
Troisièmement, nous avons utilisé une architecture de réseaux de croyances profondes
(DBN) pour générer automatiquement les ensembles flous et les règles floues utilisées dans
la phase d'appariement afin d'obtenir de bonnes performances dans la détection des limites.
TRADUCTION 4

Les DBN nous ont aidé à trouver efficacement les règles floues et à gagner du temps dans la
détermination des ensembles flous.

Nous avons évalué les performances de notre algorithme sur la parole continue Fongbe
1. Les sections restantes de l'article sont organisées comme suit. Insecte. 2, nous décrivons
la langue Fongbe. Insecte. 3, nous détaillons notre algorithme de segmentation vocale
Fongbe. Les résultats expérimentaux et l'analyse des performances sont rapportés dans la
section. 4. Nous concluons dans la Sect. 4.

Description de la langue Fongbe


La langue fongbe est la langue majoritaire du Bénin, parlée par plus de 50 % de la
population béninoise, dont 8 millions de locuteurs et également parlée au Nigeria et au Togo.
Le peuple Fongbe constitue le groupe ethnique le plus important au Bénin. Le fongbe fait
partie du groupe dialectal Gbe et est parlé principalement au Bénin [19]. Il est assez répandu
dans les médias et est utilisé dans les écoles, notamment pour l'alphabétisation des adultes.
Le groupe Fongbe est l'un des cinq dialectes Gbe. J. Greenberg classe le Fongbe dans le
groupe des langues Kwa dans la branche Niger-Congo de la grande famille Niger-Kordofan
[20]. Il est écrit officiellement au Bénin avec un alphabet dérivé de l'écriture latine depuis
1975. Il possède un système tonal complexe, avec deux tons lexicaux, aigu et grave, qui
peuvent être modifiés au moyen de procédés tonals pour donner naissance à trois autres
tons phonétiques : ascendant. bas-haut, descendant haut-bas et moyen [19]. L'utilisation de
signes diacritiques pour retranscrire les différents tons de la langue est indispensable même
s'ils ne sont pas toujours marqués puisque le Fongbe est à l'origine une langue parlée. Le
système vocalique du Fongbe est bien adapté au timbre vocalique tel qu'il a été conçu par les
premiers phonéticiens. Il comprend douze timbres : 7 voyelles orales à 4 degrés d'ouverture
et 5 voyelles nasales à 3 degrés d'ouverture. Son système de consonnes comprend 22
phonèmes. Les tableaux 1 et 2 présentent la classification des différentes voyelles et
consonnes du Fongbe selon leur mode d'articulation et leur lieu d'articulation.

On peut facilement constater que le Fongbe partage les mêmes sons avec la langue
française contrairement aux voyelles /ĩ/ et /ũ/ et aux consonnes /kp/, /c/ et /x/ qui sont
propres à la langue Fongbe. Par rapport à l'anglais, on note également des différences
comme la consonne /j/ qui est considérée en anglais comme une approximation (comme
dans John) et en Fongbe comme un stop (comme dans jĩ). Le Fongbe et l'anglais sont les
mêmes consonnes nasales. Les Fongbe, en plus des arrêts anglais, présentent des
particularités telles que /kp/ et /ɡp/. Fongbe est traité avec toutes ces voyelles, consonnes et
tonalités. Ses écrits s’appuient sur un ensemble de politiques qui se traduisent par les règles
pratiques suivantes :

-toute voyelle utilisée après une consonne nasale est systématiquement nasalisée ;
TRADUCTION 5

Exemple : [n ] (« thing » en anglais) s'écrit |nǔ| ; -une voyelle nasale s'écrit en remplaçant le
tilde ( $ ) par la consonne /n/ ; Exemple : [tа ] (« ruisseau » en anglais) s'écrit |tán| ; -la seule
syllabique nasale du système phonologique Fongbe /n/ s'écrit en combinant la voyelle /u/
avec la consonne /n/ ; Exemple : [ n̄wá] (« Je suis venu » en anglais) s'écrit |un wá| ;

Pattern Anal Applic - toute voyelle qui n'a pas de ton est prononcée avec un ton moyen ; -
la voyelle /a/ en position de départ dans un mot est toujours prononcée avec un ton grave
/à/.

Il faut savoir que lorsque les tons sont utilisés dans les phrases, ils modifient
l’orthographe des mots. Ainsi, pour connaître l'écriture de Fongbe, il faut observer les mots du
point de vue de la structure interne des mots. L'ensemble des mots peut être regroupé en
trois structures syllabiques différentes : monosyllabique, dissyllabique et trisyllabique. Les
études scientifiques sur le Fongbe ont débuté en 1963 avec la publication du dictionnaire
Fongbe-Français [21]. Depuis 1976, plusieurs linguistes ont travaillé sur la langue et de
nombreux articles ont été publiés sur les aspects linguistiques du Fongbe. Contrairement à la
plupart des langues occidentales (anglais, français, espagnol, etc.) et à certaines langues
asiatiques (chinois, japonais, etc.) et africaines (wolof, swahili, haussé les épaules, etc.), la
langue fongbe souffre d'un manque très important de maîtrise linguistique. ressources sous
forme numérique (corpus textuel et parole) malgré les nombreux ouvrages linguistiques
(phonologie, lexique et syntaxe).

Description de l'algorithme
Dans cette section, nous présentons étape par étape l'algorithme proposé pour notre
segmentation continue de la parole Fongbe. Les étapes de l'algorithme proposé sont les
suivantes :

1. Suppression du silence du signal vocal. L'énergie du signal et le centre de gravité


spectral sont utilisés pour supprimer les zones de silence dans le signal vocal. 2. Calcul des
exposants de singularité. Nous avons exploité leur distribution locale pour analyser la
dynamique temporelle des segments de parole précédemment obtenus. Cela conduit aux
candidats du segment. 3. Calcul de l’énergie à court terme et du taux de passage à zéro.

Nous avons calculé les caractéristiques de chaque segment candidat générées par
l'analyse locale des exposants de singularité. 4. Application de règles floues. Nous avons
généré des ensembles flous et des règles floues pour la phase de correspondance afin
d'améliorer la précision de la détection des segments de phonème ou de syllabe et les limites
du début et de la fin.
TRADUCTION 6

Les fonctionnalités du domaine temporel utilisées


Nous avons décrit le calcul des caractéristiques du domaine temporel utilisées pour la
segmentation de la parole Fongbe dans cette sous-section. Premièrement, les exposants de
singularité sont calculés sur chaque segment de parole pour obtenir de petits segments
appelés segments candidats qui contenaient un phonème (par exemple, C-V) ou un ensemble
de phonèmes (par exemple, CV). Deuxièmement, nous avons calculé l'énergie à court terme
et le taux de passage par zéro sur chaque segment candidat obtenu avant d'appliquer les
règles floues pour la phase d'appariement.

Les exposants de singularité


Les exposants de singularité permettent une prévisibilité et une analyse précise du signal
vocal et sont estimés avec des méthodes dérivées des principes de la physique statistique.
Nous présentons l'approche computationnelle des exposants de singularité utilisant le
formalisme microcanonique multi-échelle (MMF) proposé dans [22]. Étant donné un signal
s(t) , Eq. 1 est une relation qui doit être valable pour chaque instance de temps t et pour les
petites échelles r.

où h(t) est l'exposant de singularité du signal s(t) pour l'instance temporelle t et C r est
une fonctionnelle dépendant de l'échelle. Le terme Oðr hðtÞ Þ signifie que pour les petites
échelles, les termes additifs sont négligeables, et donc h(t) quantifie de manière dominante le
comportement multi-échelles du signal au temps t. aðtÞ est une quantité indépendante de
l'échelle et peut être séparée de h(t).

La diminution de h(t) conduit à un système moins prévisible pour t. Avec l'équation 2, la


fonctionnelle C r est définie à partir du gradient s 0 du signal à l'échelle r.

C r peut être projeté en ondelettes pour obtenir des interpolations continues à partir de
données échantillonnées discrètes. Avec une ondelette W, la projection de la fonctionnelle
pour l'instance temporelle t est donnée par l'équation

Si s satisfait l’équation. 1, alors la mesure s 0 calculée avec l'Eq. 3 satisfait une équation
similaire avec le même exposant de singularité h(t) [23]. Cette condition conduit à une
estimation simple des exposants de singularité par régression log-log sur une projection en
ondelettes en chaque point t [24]. La figure 3 montre la transcription de référence d'une
phrase prise comme exemple et la segmentation obtenue avec la variation temporelle des
exposants de singularité. Cette phrase est « A xa a kwe а ? » (« Avez-vous compté l'argent ? »
en anglais). La figure 3 montre que la transcription manuelle de référence a généré 10
frontières (tracées en lignes verticales pointillées) entre les phonèmes ou syllabes isolés
contenus dans le mot « a kwe ». En analysant les minima et maxima obtenus avec les
TRADUCTION 7

exposants de singularité, on identifie les premières frontières constituant les segments


candidats. Les résultats donnent 7 frontières (5 corrections, 2 insertions et 5 suppressions).
Pour améliorer la segmentation brute obtenue à partir des minima et maxima, nous avons
calculé sur chaque segment candidat l'énergie à court terme et le taux de passage par zéro.
Ces 3 fonctionnalités seront les variables d'entrée du système de logique floue conçu pour la
phase d'appariement.

Énergie à court terme


L'énergie à court terme est la caractéristique principale et la plus naturelle qui a été
utilisée. Physiquement, l'énergie est une mesure de la quantité de signal reçue à un moment
donné [4]. Il reflète la variation d'amplitude. Il permet d'observer une variation significative de
l'amplitude du pic du signal et une variation considérable de la fréquence fondamentale au
sein des régions voisées d'un signal vocal. L'énergie à court terme est définie comme le
montre l'équation. (4).

où s(n) est un signal audio à temps discret et w H est la fonction de fenêtre de Hamming.

Taux de passage à zéro


Le taux de passage à zéro est une mesure numérique du temps dans un intervalle de
temps/une trame de temps donné pendant lequel l'amplitude du signal vocal passe par une
valeur de zéro [25]. Le taux de passage à zéro est lié à la fréquence moyenne pour un
segment donné. Il est nul pour un segment silencieux et s’est avéré utile pour caractériser
différents signaux audio. Des variations du taux de passage à zéro ont également été
utilisées dans certains systèmes de segmentation de la parole. Dans notre travail, nous
avons utilisé le taux de passage à zéro moyen à court terme dont l’expression est présentée
dans l’équation 5.

où la fonction signe est :

xðmÞ\0 ð6Þ

et x(n) est le signal dans le domaine temporel pour la trame m.

Phase de correspondance basée sur la logique floue


Système de logique floue L'étape de phase d'appariement de notre segmentation vocale
Fongbe est réalisée en utilisant le modèle de logique floue qui consiste en un certain nombre
TRADUCTION 8

de règles conditionnelles « si-alors ». Nous avons appliqué les règles floues obtenues avec le
système d'inférence floue à travers les quatre parties qui constituent un système de logique
floue.

Fuzzification
Les caractéristiques calculées sont converties en ensembles flous avec un degré
d'appartenance correspondant. La fonction d'appartenance est le composant le plus
important de la fuzzification qui est utilisée pour. Les entrées de la phase d'appariement sont
les exposants de singularité (SE), l'énergie à court terme (STE) et le taux de passage par zéro
(ZRC), et la sortie est le degré d'appartenance. du silence, du phonème et de la syllabe. Les
variables d'entrée sont fuzzifiées en trois ensembles complémentaires : faible, moyen, élevé,
et la variable de sortie est fuzzifiée en trois ensembles : silencieux, phonème et syllabe. Ainsi,
nous avons obtenu pour les différents coefficients considérant les valeurs des
caractéristiques :

• STE : faible-moyen-élevé

• ZCR : faible-moyen-élevé

• SE : faible-moyen-élevé Ensembles flous automatiques et génération de règles floues


Les systèmes flous sont considérés comme des systèmes basés sur la connaissance. Grâce
à un système d'inférence floue et à des fonctions d'appartenance floues, les connaissances
humaines sont incorporées à leurs connaissances. Ces systèmes d'inférence floue et ces
fonctions d'appartenance floues sont généralement construits par des décisions subjectives,
ayant une grande influence sur les performances du système. Dans la plupart des
applications existantes, les règles floues sont générées par des experts dans le domaine,
notamment pour les problèmes de contrôle avec seulement quelques entrées.

La procédure développée pour ajuster les ensembles flous et la génération automatique


de règles floues est la suivante :

1. Chaque variable d'entrée est divisée en petits ensembles de variables linguistiques. On


a obtenu pour un signal X(t), les entrées X i ; je 2 1 ; 2 ; 3 correspondant aux caractéristiques
calculées STE, ZCR et SE. Les petits ensembles sont :

avec k\l\m. Ces ensembles correspondent aux variables linguistiques faible, moyenne et
élevée énumérées ci-dessus.

La base de formation est initialement construite comme le montre la matrice suivante : • l


k j indique la fonction d'appartenance de K j À la ème valeur linguistique de X j ;
TRADUCTION 9

• tuile ðk 1 ; . . .; k p ; k y ) avec max. le degré d'appartenance génère une règle R ðk 1 ;...;k


p Þ : si x 1 est lk 1 ; 1 et ... et x p est lk p ; p alors y est l k y ;

• le degré d'adhésion sera attribué à chaque règle sous la forme d'un poids b ðk 1 ;...;k p Þ
.

A la fin de cette étape, nous calculons le taux de détections correctes.

8. Répétez le processus de l'étape 3 à l'étape 7 pour une nouvelle configuration


d'ensembles flous jusqu'à obtenir M im ¼ M kþlþ2 . 9. Sélectionnez la variable linguistique
suivante avec son ensemble flou correspondant et répétez les étapes de 3 à 7. 10. Nous nous
sommes arrêtés lorsque tous les ensembles de toutes les variables linguistiques ont été
ajustés. Ensuite, nous déterminons les ensembles flous qui optimisent le taux de détection
correct en minimisant les erreurs de sortie.

Au final, nous obtenons les meilleurs ensembles flous avec des règles floues qui
fournissent de bonnes limites de segments de parole. A partir d'une base de formation
contenant 27 règles, la phase d'apprentissage a généré 8 règles floues formelles répertoriées
dans le tableau 3. Dans ce tableau,

x est une variable qui peut prendre la valeur faible, moyenne ou élevée. La figure 4
montre les résultats de la phase d'appariement. Les caractéristiques ZCR sont tracées en
abscisse et STE sur l'axe y pour chaque meilleure plage de valeurs SE. Les constats sont :

1. lorsque SE est faible, les résultats sont les segments silencieux (en haut de la Fig. 4) ;
2. lorsque SE est moyen, les résultats sont les segments qui ne comprennent que des
phonèmes (au milieu sur la figure 4) ; 3. lorsque SE est élevé, on obtient les segments qui
contiennent un phonème ou une syllabe.

Faible, moyen et élevé sont les meilleurs ensembles flous qui ont fourni de bonnes
détections correctes. Notez qu'un segment de syllabe est obtenu si et seulement si SE est
élevé.

Résultats expérimentaux et analyse des performances


Cette section présente les différents résultats et une analyse des performances.

Données vocales
Le fongbe est une langue peu dotée qui se caractérise par une série de voyelles (orales et
TRADUCTION 10

nasales) et de consonnes (sourdes, fricatives). En excluant les mots composés et les mots
dérivés, les mots de la langue Fongbe peuvent être regroupés en monosyllabiques (V et CV),
en bisyllabiques (VCV ; CVV ; CVCV et VV) et trisyllabiques (VCVCV et CVCVCV). Il possède
un système tonal complexe, avec deux tons lexicaux, aigu et grave, qui peuvent être modifiés
au moyen de processus tonals pour générer trois autres tons phonétiques : montant bas-aigu,
descendant haut-bas et moyen. Le corpus vocal Fongbe comprend des données étiquetées à
la main et segmentées de phrases quasi-phonétiquement équilibrées lues par des locuteurs
natifs de la langue Fongbe. La base de données vocales Fongbe contient 3 200 énoncés pour
la rame et 890 énoncés pour l'ensemble test prononcés par 56 locuteurs dont l'âge est
compris entre 9 et 45 ans. Il contient également pour la base de données complète environ
12 000 mots et 48 000 syllabes.

Architecture DBN
Les DBN sont des modèles génératifs probabilistes multicouches qui sont construits
sous forme de hiérarchies de modèles graphiques probabilistes plus simples et connectés de
manière récurrente, appelés machines Boltzmann restreintes (RBM) [26,27]. Chaque RBM se
compose de deux couches de neurones, une couche cachée et une couche visible. Grâce à un
apprentissage non supervisé, chaque RBM est entraîné à coder dans sa matrice de poids une
distribution de probabilité qui prédit l'activité de la couche visible à partir de l'activité de la
couche cachée [28]. Les paramètres DBN utilisés pour générer les ensembles flous et les
règles floues sont présentés dans le tableau 4.

Résultats et évaluation des performances


Des expériences ont été réalisées avec un pas de trame de 30 ms, considéré comme la
durée moyenne d'un phonème prononcé en Fongbe. L'algorithme proposé a été implémenté
avec MATLAB dans un environnement qui est un processeur Intel Core i7 CPU L 640 à 2,13
GHz Â4 avec 4 Go de mémoire. Elle a été comparée aux cinq méthodes de segmentation
mentionnées en introduction, en utilisant les données du Fongbe Speech Corpus. Une
comparaison est faite avec les méthodes utilisées dans [15,16], avec une méthode simple
utilisant des exposants de singularité (SE) proposée dans [22] et une méthode basée sur le
calcul des caractéristiques MFCC pour la segmentation de la parole. Avec ce dernier, le signal
original est découpé en courtes images qui se chevauchent, et pour chaque image, nous
avons calculé un vecteur de caractéristiques constitué de coefficients Mel Frequency
Cepstrum. La dernière méthode de comparaison mise en œuvre ne dépend pas de modèles
acoustiques ou d'un alignement forcé, mais fonctionne en utilisant un réseau neuronal
profond (DNN) pour la détection des limites des syllabes. Pour ce faire, nous avons adopté le
même processus que celui décrit dans [29]. Les limites de segment détectées par chaque
méthode ont été comparées aux limites de phonème ou de syllabe de référence étiquetées à
TRADUCTION 11

la main pour compter le nombre de détections correctes, d'erreurs d'insertion et d'erreurs de


suppression en utilisant les équations suivantes :

-détection correcte ¼ nombre de détections correctes nombre de segments obtenus


automatiquement -erreur d'insertion ¼ nombre d'insertions nombre de segments obtenus
automatiquement -erreur de suppression ¼ nombre de suppressions nombre de segments de
référence Nous précisons que ces paramètres ont été calculés en considérant l'ensemble du
jeu de données. Le tableau 5 affiche les taux de score de chaque méthode. Il montre
clairement que la performance globale selon trois critères est obtenue avec notre algorithme
proposé (voir valeurs en gras) même si la méthode DNN Pattern Anal Applic présente
quasiment les mêmes performances avec un bon score pour les erreurs d'insertion. Par la
suite, nous avons procédé à une évaluation des performances des méthodes en calculant
pour chacune une mesure de performance. La mesure de performances est basée sur
d'autres mesures de base requises pour l'évaluation des performances de segmentation
vocale dont les définitions sont les suivantes. Afin de décrire la qualité globale de notre
algorithme et d'autres méthodes appliquées au langage Fongbe, nous avons calculé la valeur
F à partir du taux de précision et du taux de réussite dont l'expression est F 1 ¼ ð2 Â PCR Â H
R Þ=ðPCR þ H R Þ. Une autre mesure globale, appelée valeur R, diminue à mesure que la
distance à la cible augmente, c'est-à-dire de la même manière que la valeur F, mais elle est
essentielle à la sur-segmentation [30]. Il est calculé par le tableau 6 qui affiche les résultats
obtenus pour l'évaluation des performances des méthodes. La valeur F et la valeur R
présentent les bonnes performances en détection de phonèmes ou de syllabes en utilisant la
logique floue appliquée pour la phase d'appariement (voir valeurs en gras). Ce sont les deux
métriques choisies pour l’évaluation des performances de différentes méthodes. Il est clair
que notre algorithme, qui utilise des connaissances d’experts externes et une procédure de
génération automatique d’ensembles flous et de règles floues, offre de bonnes performances
par rapport aux autres méthodes. Nous soulignons que ces performances sont valables sur
Fongbe avec sa complexité. La méthode utilisant DNN montre des performances similaires et
convient également à la segmentation automatique de la parole continue Fongbe. Les
meilleures performances obtenues avec la logique floue confirment que l'ajout de
connaissances expertes supplémentaires en utilisant des règles floues améliore la
segmentation de la parole par rapport à SE et MFCC. Mais cela prend beaucoup de temps
pour la génération des règles floues et des ensembles flous. Par rapport aux autres
approches non floues de l’état de l’art que nous avons mises en œuvre, ce constat reste
valable.

Conclusion
Dans ce travail, une approche non linéaire pour l'analyse de la parole a été utilisée pour la
segmentation continue de la parole. Nous avons développé un algorithme en utilisant les
propriétés géométriques des exposants de singularité, l'énergie à court terme et le taux de
TRADUCTION 12

passage par zéro comme caractéristiques du domaine temporel auxquelles nous avons
appliqué la logique floue. L'algorithme fournit en sortie les segments silencieux, phonèmes
ou syllabes et peut être intégré dans un processus de reconnaissance vocale. Des
expériences ont été réalisées sur l'ensemble de données vocales Fongbe et les résultats ont
montré que l'algorithme proposé a été comparé aux méthodes non floues. Notre algorithme
proposé a obtenu les meilleures performances mais est limité au coût temporel élevé des
ensembles flous et de la génération de règles floues. Nous pouvons également confirmer que
notre algorithme est simple à implémenter pour les tâches de reconnaissance vocale
automatique même s'il est effectué avec plus d'expressions informatiques que les approches
SE et MFCC.

Références
Tan BT, Lang R, Schroder H, Spray A, Dermody P (1994) Applying wavelet analysis to speech
segmentation and classifi- cation. In: Szu HH (ed) Wavelet applications, volume Proceedings
of SPIE 2242, pp 750–761

Hioka Y, Hamada N (2003) Voice activity detection with array signal processing in the wavelet
domain. IEICE Trans Fundam Electron Commun Comput Sci 86(11):2802–2811

Bartosz Z, Suresh M, Richard W, Mariusz Z (2011) Phoneme segmentation based on wavelet


spectra analysis. Arch Acoust 36 (1):29–47

Rahman M, Bhuiyan AA (2012) Continuous bangla speech seg- mentation using short-term
speech features extraction approaches. Int J Adv Comput Sci Appl 3(11):131–138

Nagarajan T, Murthy AH, Rajesh MH (2003) Segmentation of speech into syllable-like units. In:
EUROSPEECH, Geneve, pp 2893–2896

Sheikhi G, Almasganj F (2011) Segmentation of speech into syllable units using fuzzy
smoothed short term energy contour. In: 18th Iranian conference of biomedical engineering
(ICBME), IEEE, pp 195–198

Bachu R, Kopparthi S, Adapa B, Barkana BD (2009) Voiced/ unvoiced decision for speech
signals based on zero-crossing rate and energy. In: Advanced techniques in computing
sciences and software engineering. Springer, Netherlands, pp 279–282

Saunders J (1996) Real-time discrimination of broadcast speech/music. In: Proceedings of


the acoustics, speech, and signal processing, pp 993–996

Pan F, Ding N (2010) Speech denoising and syllable segmenta- tion based on fractal
TRADUCTION 13

dimension. In: International conference on measuring technology and mechatronics


automation, pp 433–436

Obin N, Lamare F, Roebel A (2013) Syll-o-matic: An adaptive time-frequency representation for


the automatic segmentation of speech into syllables. In: International conference on
acoustics, speech and signal processing, pp 6699–6703

Reichl W, Ruske G (1997) Syllable segmentation of continuous speech with artificial neural
networks. In: Proceedings of Euro- speech, 3rd European conference on speech
communication and technology, Berlin, pp 987–990

Shastri L, Chang S, Greenberg S (1999) Syllable detection and segmentation using temporal
flow neural networks. In: Proceed- ings of the Fourteenth International Congress of Phonetic
Sciences, San Francisco, pp 1721–1724

Ching-Tang H, Mu-Chun S, Eugene L, Chin H (1999) A seg- mentation method for continuous
speech utilizing hybrid neuro- fuzzy network. J Inf Sci Eng 15:615–628

Makashay M, Colin W, Ann S, Alistair C (2000) Perceptual evaluation of automatic


segmentation in text-to-speech synthesis. J Inf Sci Eng 15:431–434

Lo HY, Wang HM (2007) Phonetic boundary refinement using support vector machine. In:
IEEE international conference on acoustics, speech and signal processing—ICASSP ’07,
Honolulu, HI, pp 933–936

Mporas I, Ganchev T, Fakotakis N (2010) Speech segmentation using regression fusion of


boundary predictions. Comput Speech Lang 24(2):273–288

Fréjus AA, Laleye EC, Ezin CM (2014) Weighted Combination of Naive Bayes and LVQ
Classifier for Fongbe Phoneme Clas- sification. In: IEEE 10th international conference on
signal image technology & internet based systems, pp 7–13

Laleye FAA, Ezin EC, Motamed C (2015) Adaptive decision- level fusion for Fongbe phoneme
classification using fuzzy logic and deep belief networks. In: 12th international conference on
informatics in control, automation and robotics (ICINCO), vol 1, Colmar, Alsace, France, pp
15–24

Lefebvre C, Brousseau A-M (2001) A grammar of Fonge. De Gruyter Mouton, Berlin

Greenberg J (1966) Languages of Africa. Mouton, La Haye 21. Akoha AB (2010) Syntaxe et
lexicologie du Fon-gbe: Bénin. Ed. L’harmattan, p 368
TRADUCTION 14

Khanagha V, Pont O, Yahia H (2011) Improving text-indepen- dent phonetic segmentation


based on the microcanonical multiscale formalism. In: IEEE international conference on
acoustics, speech and signal processing. IEEE, pp 4484–4487

Turiel A, Parga N (2000) The multi-fractal structure of contrast changes in natural images:
from sharp edges to textures. In: Neural computation. IEEE, vol 12, pp 763–793

Turiel A, Perez-Vicente C, Grazzini J (2006) Numerical methods for the estimation of


multifractal singularity spectra on sampled data: a comparative study. J Comput Phys
216:362–390

Shete DS, Patil SB, Patil SB (2014) Zero crossing rate and Energy of the Speech Signal of
Devanagari Script. J VLSI Signal Process IOSR-JVSP 4(1):01–05

Yoshua B, Pascal L, Dan P, Hugo L (2007) Greedy layerwise training of deep networks. In:
Proceedings of advances in neural information processing systems 19 (NIPS’06), pp 153–
160

Geoffrey EH, Simon O, Yee-Whye T (2006) A fast learning algorithm for deep belief nets.
Neural Comput 18(7):1527–1554

O’Connor P, Neil D, Liu SC, Delbruck T, Pfeiffer M (2013) Real- time classification and sensor
fusion with a spiking deep belief network. Front Neurosci 7:178

Vuuren VZ, Bosch L, Niesler T (2015) Unconstrained speech segmentation using deep neural
networks. In: ICPRAM 2015— proceedings of the international conference on pattern recogni-
tion applications and methods, vol 1. Lisbon, Portugal, pp 248– 254

Rasanen OJ, Laine UK, Altosaar T (2009) An improved speech segmentation quality measure:
the r-value. In: Proceedings of INTERSPEECH, pp 1851–1854

Pattern Anal Applic

Vous aimerez peut-être aussi