Académique Documents
Professionnel Documents
Culture Documents
Fuzzy-Based Algorithm For Fongbe Continuous Speech Segmentation - FR
Fuzzy-Based Algorithm For Fongbe Continuous Speech Segmentation - FR
Fuzzy-Based Algorithm For Fongbe Continuous Speech Segmentation - FR
Eugene Ezin
Original Paper
Résumé
La segmentation vocale indépendante du texte est un sujet difficile dans les systèmes de
reconnaissance vocale informatisés. Cet article propose un nouvel algorithme dans le
domaine temporel basé sur des connaissances floues pour une tâche de segmentation
continue de la parole via une analyse non linéaire de la parole. L'énergie à court terme, le taux
de passage par zéro et les exposants de singularité sont les caractéristiques du domaine
temporel que nous avons calculées dans chaque signal de point de parole afin d'exploiter les
informations pertinentes pour générer les segments significatifs. C'est en baisse pour
l'identification du phonème ou de la syllabe et les fronts de transition. La technique de
logique floue nous a aidé à fuzzifier les caractéristiques calculées en trois ensembles
complémentaires à savoir : faible, moyen, élevé et à effectuer une phase d'appariement en
utilisant un ensemble de règles floues. Les sorties de notre algorithme proposé sont des
silences, des phonèmes ou des syllabes. Une fois évalué, notre algorithme a produit les
meilleures performances avec des résultats efficaces sur la langue Fongbe (une langue
tonale africaine parlée notamment au Bénin, au Togo et au Nigeria).
Introduction
La segmentation de la parole est un processus de décomposition du signal vocal en
unités plus petites. Cela implique l'identification de segments dans la parole continue et les
traite pour générer des caractéristiques distinctives. Il est utilisé pour détecter les points de
début et de fin appropriés des limites des segments. Il est important de divers algorithmes de
TRADUCTION 2
traitement automatisé de la parole (voir Fig. 1). Il existe deux types de segmentation vocale :
la segmentation manuelle et la segmentation automatique. La segmentation manuelle de la
parole nécessite beaucoup de temps et d’argent pour segmenter de très grands corpus et
n’est donc pas toujours disponible pour les corpus vocaux. C'est extrêmement laborieux et
fastidieux mais plus précis que la segmentation automatique.
étudié deux méthodes de fusion décisionnelle, à savoir la méthode non paramétrique utilisant
une combinaison pondérée et la méthode paramétrique utilisant des réseaux de neurones
profonds. Ensuite, nous avons proposé une approche adaptative basée sur la logique floue
pour construire un système discriminatoire robuste de consonnes et de voyelles. Les
principales conclusions de ce travail sont une comparaison des performances de trois
méthodes de fusion de décision dans un problème de classification de phonèmes Fongbe
avec plusieurs classificateurs et la proposition d'un système de classification de phonèmes
Fongbe robuste qui intègre une fusion de classificateurs Naive Bayes et LVQ en utilisant une
approche de logique floue. Dans le présent article, nous proposons pour la segmentation de
la parole Fongbe, une méthode fortement basée sur un système de logique floue avec une
phase d'apprentissage utilisant les réseaux de croyances profondes (DBN). En plus de fournir
un support pour le traitement automatique du langage Fongbe (un langage sans ressources),
les travaux actuels mettent en évidence les contributions significatives qui incluent :
• une procédure automatique de génération des ensembles flous et des règles floues.
Les travaux présentés dans cet article utilisent les caractéristiques du domaine temporel
pour détecter les unités de segment et les connaissances floues pour la phase d'appariement
réalisée grâce à l'apprentissage supervisé. Par rapport à d'autres approches de segmentation,
notre méthode proposée ne dépend pas des régions de fréquence du signal et de l'enveloppe
en bandes de fréquences comme dans les travaux [9,10] et n'a pas besoin des paramètres
d'apprentissage comme les approches basées sur des modèles de Markov cachés et
artificiels. les réseaux de neurones. Contrairement aux approches dans le domaine temporel,
nous avons étudié les informations pertinentes fournies en examinant la distribution locale
des exposants de singularité pour segmenter les phonèmes ou les syllabes. Les règles floues
appliquées aux caractéristiques calculées (énergie à court terme, exposants de singularité et
taux de passage par zéro) ont permis d'identifier avec plus de précision les frontières entre
phonèmes ou syllabes adjacents. La figure 2 présente un aperçu de notre algorithme proposé
avec des caractéristiques tracées telles que SE (pour les exposants de singularité), STE (pour
l'énergie à court terme) et ZCR (pour le taux de passage à zéro). L'algorithme comprend trois
étapes. Premièrement, nous avons séparé les segments vocaux et non vocaux.
Deuxièmement, nous avons d’abord calculé les exposants de singularité pour identifier les
frontières brutes afin de former les premiers segments candidats. Ensuite, nous avons
calculé sur chacun de ces segments l'énergie à court terme et le taux de passage par zéro
pour exploiter une large connaissance acoustique à partir des signaux de segment obtenus.
Troisièmement, nous avons utilisé une architecture de réseaux de croyances profondes
(DBN) pour générer automatiquement les ensembles flous et les règles floues utilisées dans
la phase d'appariement afin d'obtenir de bonnes performances dans la détection des limites.
TRADUCTION 4
Les DBN nous ont aidé à trouver efficacement les règles floues et à gagner du temps dans la
détermination des ensembles flous.
Nous avons évalué les performances de notre algorithme sur la parole continue Fongbe
1. Les sections restantes de l'article sont organisées comme suit. Insecte. 2, nous décrivons
la langue Fongbe. Insecte. 3, nous détaillons notre algorithme de segmentation vocale
Fongbe. Les résultats expérimentaux et l'analyse des performances sont rapportés dans la
section. 4. Nous concluons dans la Sect. 4.
On peut facilement constater que le Fongbe partage les mêmes sons avec la langue
française contrairement aux voyelles /ĩ/ et /ũ/ et aux consonnes /kp/, /c/ et /x/ qui sont
propres à la langue Fongbe. Par rapport à l'anglais, on note également des différences
comme la consonne /j/ qui est considérée en anglais comme une approximation (comme
dans John) et en Fongbe comme un stop (comme dans jĩ). Le Fongbe et l'anglais sont les
mêmes consonnes nasales. Les Fongbe, en plus des arrêts anglais, présentent des
particularités telles que /kp/ et /ɡp/. Fongbe est traité avec toutes ces voyelles, consonnes et
tonalités. Ses écrits s’appuient sur un ensemble de politiques qui se traduisent par les règles
pratiques suivantes :
-toute voyelle utilisée après une consonne nasale est systématiquement nasalisée ;
TRADUCTION 5
Exemple : [n ] (« thing » en anglais) s'écrit |nǔ| ; -une voyelle nasale s'écrit en remplaçant le
tilde ( $ ) par la consonne /n/ ; Exemple : [tа ] (« ruisseau » en anglais) s'écrit |tán| ; -la seule
syllabique nasale du système phonologique Fongbe /n/ s'écrit en combinant la voyelle /u/
avec la consonne /n/ ; Exemple : [ n̄wá] (« Je suis venu » en anglais) s'écrit |un wá| ;
Pattern Anal Applic - toute voyelle qui n'a pas de ton est prononcée avec un ton moyen ; -
la voyelle /a/ en position de départ dans un mot est toujours prononcée avec un ton grave
/à/.
Il faut savoir que lorsque les tons sont utilisés dans les phrases, ils modifient
l’orthographe des mots. Ainsi, pour connaître l'écriture de Fongbe, il faut observer les mots du
point de vue de la structure interne des mots. L'ensemble des mots peut être regroupé en
trois structures syllabiques différentes : monosyllabique, dissyllabique et trisyllabique. Les
études scientifiques sur le Fongbe ont débuté en 1963 avec la publication du dictionnaire
Fongbe-Français [21]. Depuis 1976, plusieurs linguistes ont travaillé sur la langue et de
nombreux articles ont été publiés sur les aspects linguistiques du Fongbe. Contrairement à la
plupart des langues occidentales (anglais, français, espagnol, etc.) et à certaines langues
asiatiques (chinois, japonais, etc.) et africaines (wolof, swahili, haussé les épaules, etc.), la
langue fongbe souffre d'un manque très important de maîtrise linguistique. ressources sous
forme numérique (corpus textuel et parole) malgré les nombreux ouvrages linguistiques
(phonologie, lexique et syntaxe).
Description de l'algorithme
Dans cette section, nous présentons étape par étape l'algorithme proposé pour notre
segmentation continue de la parole Fongbe. Les étapes de l'algorithme proposé sont les
suivantes :
Nous avons calculé les caractéristiques de chaque segment candidat générées par
l'analyse locale des exposants de singularité. 4. Application de règles floues. Nous avons
généré des ensembles flous et des règles floues pour la phase de correspondance afin
d'améliorer la précision de la détection des segments de phonème ou de syllabe et les limites
du début et de la fin.
TRADUCTION 6
où h(t) est l'exposant de singularité du signal s(t) pour l'instance temporelle t et C r est
une fonctionnelle dépendant de l'échelle. Le terme Oðr hðtÞ Þ signifie que pour les petites
échelles, les termes additifs sont négligeables, et donc h(t) quantifie de manière dominante le
comportement multi-échelles du signal au temps t. aðtÞ est une quantité indépendante de
l'échelle et peut être séparée de h(t).
C r peut être projeté en ondelettes pour obtenir des interpolations continues à partir de
données échantillonnées discrètes. Avec une ondelette W, la projection de la fonctionnelle
pour l'instance temporelle t est donnée par l'équation
Si s satisfait l’équation. 1, alors la mesure s 0 calculée avec l'Eq. 3 satisfait une équation
similaire avec le même exposant de singularité h(t) [23]. Cette condition conduit à une
estimation simple des exposants de singularité par régression log-log sur une projection en
ondelettes en chaque point t [24]. La figure 3 montre la transcription de référence d'une
phrase prise comme exemple et la segmentation obtenue avec la variation temporelle des
exposants de singularité. Cette phrase est « A xa a kwe а ? » (« Avez-vous compté l'argent ? »
en anglais). La figure 3 montre que la transcription manuelle de référence a généré 10
frontières (tracées en lignes verticales pointillées) entre les phonèmes ou syllabes isolés
contenus dans le mot « a kwe ». En analysant les minima et maxima obtenus avec les
TRADUCTION 7
où s(n) est un signal audio à temps discret et w H est la fonction de fenêtre de Hamming.
xðmÞ\0 ð6Þ
de règles conditionnelles « si-alors ». Nous avons appliqué les règles floues obtenues avec le
système d'inférence floue à travers les quatre parties qui constituent un système de logique
floue.
Fuzzification
Les caractéristiques calculées sont converties en ensembles flous avec un degré
d'appartenance correspondant. La fonction d'appartenance est le composant le plus
important de la fuzzification qui est utilisée pour. Les entrées de la phase d'appariement sont
les exposants de singularité (SE), l'énergie à court terme (STE) et le taux de passage par zéro
(ZRC), et la sortie est le degré d'appartenance. du silence, du phonème et de la syllabe. Les
variables d'entrée sont fuzzifiées en trois ensembles complémentaires : faible, moyen, élevé,
et la variable de sortie est fuzzifiée en trois ensembles : silencieux, phonème et syllabe. Ainsi,
nous avons obtenu pour les différents coefficients considérant les valeurs des
caractéristiques :
• STE : faible-moyen-élevé
• ZCR : faible-moyen-élevé
avec k\l\m. Ces ensembles correspondent aux variables linguistiques faible, moyenne et
élevée énumérées ci-dessus.
• le degré d'adhésion sera attribué à chaque règle sous la forme d'un poids b ðk 1 ;...;k p Þ
.
Au final, nous obtenons les meilleurs ensembles flous avec des règles floues qui
fournissent de bonnes limites de segments de parole. A partir d'une base de formation
contenant 27 règles, la phase d'apprentissage a généré 8 règles floues formelles répertoriées
dans le tableau 3. Dans ce tableau,
x est une variable qui peut prendre la valeur faible, moyenne ou élevée. La figure 4
montre les résultats de la phase d'appariement. Les caractéristiques ZCR sont tracées en
abscisse et STE sur l'axe y pour chaque meilleure plage de valeurs SE. Les constats sont :
1. lorsque SE est faible, les résultats sont les segments silencieux (en haut de la Fig. 4) ;
2. lorsque SE est moyen, les résultats sont les segments qui ne comprennent que des
phonèmes (au milieu sur la figure 4) ; 3. lorsque SE est élevé, on obtient les segments qui
contiennent un phonème ou une syllabe.
Faible, moyen et élevé sont les meilleurs ensembles flous qui ont fourni de bonnes
détections correctes. Notez qu'un segment de syllabe est obtenu si et seulement si SE est
élevé.
Données vocales
Le fongbe est une langue peu dotée qui se caractérise par une série de voyelles (orales et
TRADUCTION 10
nasales) et de consonnes (sourdes, fricatives). En excluant les mots composés et les mots
dérivés, les mots de la langue Fongbe peuvent être regroupés en monosyllabiques (V et CV),
en bisyllabiques (VCV ; CVV ; CVCV et VV) et trisyllabiques (VCVCV et CVCVCV). Il possède
un système tonal complexe, avec deux tons lexicaux, aigu et grave, qui peuvent être modifiés
au moyen de processus tonals pour générer trois autres tons phonétiques : montant bas-aigu,
descendant haut-bas et moyen. Le corpus vocal Fongbe comprend des données étiquetées à
la main et segmentées de phrases quasi-phonétiquement équilibrées lues par des locuteurs
natifs de la langue Fongbe. La base de données vocales Fongbe contient 3 200 énoncés pour
la rame et 890 énoncés pour l'ensemble test prononcés par 56 locuteurs dont l'âge est
compris entre 9 et 45 ans. Il contient également pour la base de données complète environ
12 000 mots et 48 000 syllabes.
Architecture DBN
Les DBN sont des modèles génératifs probabilistes multicouches qui sont construits
sous forme de hiérarchies de modèles graphiques probabilistes plus simples et connectés de
manière récurrente, appelés machines Boltzmann restreintes (RBM) [26,27]. Chaque RBM se
compose de deux couches de neurones, une couche cachée et une couche visible. Grâce à un
apprentissage non supervisé, chaque RBM est entraîné à coder dans sa matrice de poids une
distribution de probabilité qui prédit l'activité de la couche visible à partir de l'activité de la
couche cachée [28]. Les paramètres DBN utilisés pour générer les ensembles flous et les
règles floues sont présentés dans le tableau 4.
Conclusion
Dans ce travail, une approche non linéaire pour l'analyse de la parole a été utilisée pour la
segmentation continue de la parole. Nous avons développé un algorithme en utilisant les
propriétés géométriques des exposants de singularité, l'énergie à court terme et le taux de
TRADUCTION 12
passage par zéro comme caractéristiques du domaine temporel auxquelles nous avons
appliqué la logique floue. L'algorithme fournit en sortie les segments silencieux, phonèmes
ou syllabes et peut être intégré dans un processus de reconnaissance vocale. Des
expériences ont été réalisées sur l'ensemble de données vocales Fongbe et les résultats ont
montré que l'algorithme proposé a été comparé aux méthodes non floues. Notre algorithme
proposé a obtenu les meilleures performances mais est limité au coût temporel élevé des
ensembles flous et de la génération de règles floues. Nous pouvons également confirmer que
notre algorithme est simple à implémenter pour les tâches de reconnaissance vocale
automatique même s'il est effectué avec plus d'expressions informatiques que les approches
SE et MFCC.
Références
Tan BT, Lang R, Schroder H, Spray A, Dermody P (1994) Applying wavelet analysis to speech
segmentation and classifi- cation. In: Szu HH (ed) Wavelet applications, volume Proceedings
of SPIE 2242, pp 750–761
Hioka Y, Hamada N (2003) Voice activity detection with array signal processing in the wavelet
domain. IEICE Trans Fundam Electron Commun Comput Sci 86(11):2802–2811
Rahman M, Bhuiyan AA (2012) Continuous bangla speech seg- mentation using short-term
speech features extraction approaches. Int J Adv Comput Sci Appl 3(11):131–138
Nagarajan T, Murthy AH, Rajesh MH (2003) Segmentation of speech into syllable-like units. In:
EUROSPEECH, Geneve, pp 2893–2896
Sheikhi G, Almasganj F (2011) Segmentation of speech into syllable units using fuzzy
smoothed short term energy contour. In: 18th Iranian conference of biomedical engineering
(ICBME), IEEE, pp 195–198
Bachu R, Kopparthi S, Adapa B, Barkana BD (2009) Voiced/ unvoiced decision for speech
signals based on zero-crossing rate and energy. In: Advanced techniques in computing
sciences and software engineering. Springer, Netherlands, pp 279–282
Pan F, Ding N (2010) Speech denoising and syllable segmenta- tion based on fractal
TRADUCTION 13
Reichl W, Ruske G (1997) Syllable segmentation of continuous speech with artificial neural
networks. In: Proceedings of Euro- speech, 3rd European conference on speech
communication and technology, Berlin, pp 987–990
Shastri L, Chang S, Greenberg S (1999) Syllable detection and segmentation using temporal
flow neural networks. In: Proceed- ings of the Fourteenth International Congress of Phonetic
Sciences, San Francisco, pp 1721–1724
Ching-Tang H, Mu-Chun S, Eugene L, Chin H (1999) A seg- mentation method for continuous
speech utilizing hybrid neuro- fuzzy network. J Inf Sci Eng 15:615–628
Lo HY, Wang HM (2007) Phonetic boundary refinement using support vector machine. In:
IEEE international conference on acoustics, speech and signal processing—ICASSP ’07,
Honolulu, HI, pp 933–936
Fréjus AA, Laleye EC, Ezin CM (2014) Weighted Combination of Naive Bayes and LVQ
Classifier for Fongbe Phoneme Clas- sification. In: IEEE 10th international conference on
signal image technology & internet based systems, pp 7–13
Laleye FAA, Ezin EC, Motamed C (2015) Adaptive decision- level fusion for Fongbe phoneme
classification using fuzzy logic and deep belief networks. In: 12th international conference on
informatics in control, automation and robotics (ICINCO), vol 1, Colmar, Alsace, France, pp
15–24
Greenberg J (1966) Languages of Africa. Mouton, La Haye 21. Akoha AB (2010) Syntaxe et
lexicologie du Fon-gbe: Bénin. Ed. L’harmattan, p 368
TRADUCTION 14
Turiel A, Parga N (2000) The multi-fractal structure of contrast changes in natural images:
from sharp edges to textures. In: Neural computation. IEEE, vol 12, pp 763–793
Shete DS, Patil SB, Patil SB (2014) Zero crossing rate and Energy of the Speech Signal of
Devanagari Script. J VLSI Signal Process IOSR-JVSP 4(1):01–05
Yoshua B, Pascal L, Dan P, Hugo L (2007) Greedy layerwise training of deep networks. In:
Proceedings of advances in neural information processing systems 19 (NIPS’06), pp 153–
160
Geoffrey EH, Simon O, Yee-Whye T (2006) A fast learning algorithm for deep belief nets.
Neural Comput 18(7):1527–1554
O’Connor P, Neil D, Liu SC, Delbruck T, Pfeiffer M (2013) Real- time classification and sensor
fusion with a spiking deep belief network. Front Neurosci 7:178
Vuuren VZ, Bosch L, Niesler T (2015) Unconstrained speech segmentation using deep neural
networks. In: ICPRAM 2015— proceedings of the international conference on pattern recogni-
tion applications and methods, vol 1. Lisbon, Portugal, pp 248– 254
Rasanen OJ, Laine UK, Altosaar T (2009) An improved speech segmentation quality measure:
the r-value. In: Proceedings of INTERSPEECH, pp 1851–1854