Vous êtes sur la page 1sur 4

Paramtrisation de la qualit de voix : EGG vs.

filtrage inverse
Nicolas Audibert, Solange Rossato & Vronique Auberg
Institut de la Communication Parle Universit Stendhal/INPG/CNRS, Grenoble, France Ml: {audibert, rossato, auberge}@icp.inpg.fr - http://www.icp.inpg.fr/EMOTION

ABSTRACT
This paper aims at testing on an authentic expressive speech corpus the consistency for characterizing emotional expressions in voice of the Normalized Amplitude Quotient (NAQ) parameter, proposed as the 4th prosodic dimension vs. the Open Quotient (OQ) estimated from inverse filtering vs. the direct electroglottographic (EGG) measurement of glottal parameters. The phonemic influence of the NAQ parameter was first evaluated by matching measure locations with an expert phonetic labeling. Results show a speakerdependent phoneme effect on NAQ, and seem moreover to indicate a systematic overestimation of NAQ on [n] segments. Moreover F0 measurements used for the calculation of amplitude-based parameters reveal underestimated when compared to EGG-estimated F0 values. No correlation could be found between OQ values extracted from EGG signals and amplitude-based parameters.

apport la voix, dcrit par le logarithme du Quotient dAmplitude Normalise (NAQ) propos par Alku [1]. Lobjectif de ce papier est de tester la pertinence du paramtre NAQ pour la caractrisation des expressions motionnelles : un algorithme de calcul de NAQ, dvelopp par Mokhtari [13], a t appliqu un corpus phontiquement quilibr, exprimant diverses expressions motionnelles authentiques de deux locuteurs, afin de vrifier la robustesse phonmique de ce paramtre de qualit de voix. Lestimation de F0 partir du signal acoustique, utilise dans le calcul des paramtres bass sur lamplitude tels que NAQ, a t compare la valeur de rfrence extraite du signal EGG. Nous nous sommes galement intresss au quotient ouvert (OQ, [12]), qui est calcul de deux faons: (1) par filtrage inverse du signal acoustique, dans le mme paradigme dinversion que pour lestimation de NAQ, pour extraire une valeur OQA [9] ; (2) partir du signal enregistr par llectroglottographe (EGG) pour extraire OQEGG. Cela nous permet de comparer OQA et OQEGG afin dvaluer les artefacts du paradigme dinversion.

1. INTRODUCTION
Selon des critres aussi bien objectifs que subjectifs, la qualit de voix a t rattache lexpression vocale des affects, au del dinformations extralinguistiques telles que lge ou le sexe du locuteur. Des tudes en psychologie, essentiellement bases sur de la parole motionnelle acte, ont en outre intgr les expressions vocales, notamment la qualit de voix, dans un modle global de la production des motions. Scherer et al. [14] affirment ainsi que ltat gnral de tension des muscles du larynx dpend directement de la rponse motionnelle, et donc que la qualit de voix participe lexpression de lmotion ; de plus, ce modle prdit lvolution de paramtres spectraux relatifs la qualit de voix tels que la pente spectrale. Une augmentation de la pente spectrale est ainsi prdite pour la tristesse, ainsi quune diminution pour la colre. Des tests ne faisant varier que la qualit de voix de stimuli synthtiss ont de plus montr leffet perceptif de la modification des paramtres de la source glottique sur la parole attitudinale et motionnelle [8]. Laver [12] propose une description globale associant les mouvements des muscles du larynx aux qualits de voix rsultantes, dcrites en termes subjectifs, et suggre quen anglais la breathy voice est lie lintimit, la whispery voice avec la confidentialit et la harsh voice avec la colre. Campbell [5] met laccent sur la corrlation entre le continuum pressed-breathy et le degr d attention

2. CHOIX DU CORPUS
Plusieurs raisons ont motiv le choix dun corpus de parole expressive authentique enregistr en laboratoire plutt que dun corpus act. Tout dabord, la neurophysiologie a montr que les motions actes vs. non actes sont rgies par des mcanismes neuraux distincts [6], les motions actes ntant pas lies des changements physiologiques. De plus comme lont montr Auberg et Cathiard [2], lamusement act vs. non act peut tre discrimin avec un effet inter-juge important. Il est donc impossible de mettre au point une mthode objective dvaluation de la capacit dun acteur simuler fidlement des expressions motionnelles authentiques. Dautre part, certaines analyses acoustiques ncessitent un enregistrement de haute-fidlit qui ne peut tre ralis quen conditions de laboratoire [4], ce qui impose de dvelopper des protocoles pour linduction dtats motionnels. De plus, le choix dune telle mthode permet de contrler le contenu linguistique et phontique des noncs grce lusage dun langage de commandes qui contraint lexpression vocale des sujets. Enfin, cela permet de recueillir sur des noncs identiques des tats motionnels varis, impliquant ainsi des qualits de voix varies. Les stimuli utiliss pour cette tude ont donc t extraits dun corpus de parole expressive authentique mais

contrle, compos entre autres dnoncs monosyllabiques. Les tats motionnels ont t induits chez les sujets grce un scnario de Magicien dOz, Sound Teacher, implment sur une plate-forme ddie la mise en place de scnarios dinduction motionnelle (E-Wiz) [3]. Sound Teacher imite un logiciel commandes vocales qui propose lutilisateur dapprendre implicitement les voyelles de langues trangres. Le but est en ralit dinduire des tats motionnels positifs puis ngatifs chez les sujets en manipulant leurs performances. Le corpus recueilli consiste en des noncs monosyllabiques correspondant des couleurs ([u], [on], [sabl], [v], [bik]), choisis pour la rpartition de leurs voyelles dans lespace phonologique, ainsi quen des occurrences de [pa sivat].

dvelopp aux ATR, Japon, dans le cadre du projet du JST/CREST Expressive Speech Project. Cet algorithme procde au calcul de NAQ partir du signal acoustique, sur des segments identifis automatiquement comme centres de confiance [13]. Ceci permet dextraire de faon entirement automatique une mesure de la qualit de voix partir de parole spontane non tiquete. Gobl et N Chasaide [9] ont propos dtendre les paramtres bass sur lamplitude lestimation dautres paramtres temporels. La phase ouverte de la pulsation glottique peut ainsi tre estime par T1 = UP +UP , o EI 2 EI EE est la valeur du pic positif maximum de la drive. OQ est alors estim par T1A.F0. Le calcul de ce quotient ouvert issu de lamplitude, not OQA, a galement t effectu en mme temps que celui de NAQ. De plus les estimations de F0 par sommation subharmonique [11] ralises par cet algorithme chaque centre de confiance dtect ont t extraites afin de pouvoir tre compares aux mesures de F0 effectues partir du signal EGG et par dtection de cycles sur le signal acoustique.

3. MESURES
Deux locuteurs ont t slectionns sur la base de productions motionnelles claires et comparables, pour un corpus de 373 stimuli et dune dure utile totale de 204 secondes, enregistr en chambre sourde sur DAT Sony laide dun micro C1000S AKG. Aprs extraction du corpus brut des stimuli pertinents, un tiquetage phontique expert a t effectu. Nombre des productions traites ont rvl la prsence dun chwa non attendu en fin dnoncs supposs monosyllabiques (par exemple [on] au lieu de [on]), les rendant ainsi bisyllabiques. Les chwas ont donc t inclus dans les analyses, au mme titre que les autres voyelles. Le signal EGG utilis a t enregistr laide du laryngographe portable Laryngograph Processor dvelopp par Laryngograph Ltd., reli la plate-forme dexprimentation EVA2. La synchronisation des signaux acoustique et EGG a t ralise laide de bips enregistrs simultanment sur les deux canaux.

4. RESULTATS 4.1. Influence du phonme sur NAQ


Lorsquil est calcul partir de parole continue non tiquete, NAQ ne peut tre obtenu quau niveau des centres de confiance, i.e. des vocodes comme dfinies par Mokhtari [13]. La localisation de ces centres de confiance a donc galement t extraite, et mise en correspondance avec ltiquetage phontique du corpus, afin de sassurer de leur statut de vocodes. 68% des centres de confiance sont trouvs dans des voyelles, contre 15% dans des consonnes sonorantes qui satisfont aux critres dnergie des vocodes et 17 % dans dautres consonnes. La consonne nasale [n], frquemment dtecte comme centre de confiance, a galement t prise en compte dans la suite des analyses. Il ressort de la table 1, qui prsente la rpartition des centres de confiance en fonction des tiquettes phontiques, que les distributions des phonmes tudis sont comparables, lexception du chwa non systmatiquement ralis. Table 1: Rpartition (%) des centres de confiance en fonction des tiquettes phontiques.
i 9.4 11.6 a 14.7 o 7.3 u 8.8 3.0 13.2 n 8.3 Autres 23.7

3.1. Electroglottographie
Llectroglottographie est une mesure dimpdance qui fournit des informations sur la rgion de contact des cordes vocales. F0EGG peut tre estime fidlement partir du signal EGG. Cette valeur a t calcule sur des trames denviron 4 priodes par la mthode dautocorrlation. De plus la dure de la phase ouverte de la pulsation glottique T1EGG est estime par la mthode dintercorrlation [10] entre le signal EGG et sa drive. Lestimation de cette valeur permet ainsi de calculer le quotient ouvert OQEGG=T1EGG.OQEGG.

3.2. Analyse acoustique


Les paramtres bass sur lamplitude de londe de dbit glottique ont t proposs comme une mthode de caractrisation de la qualit de voix plus robuste qu partir de paramtres temporels. En particulier, le Quotient dAmplitude Normalis (NAQ) propos par Alku [1], peut tre considr comme une normalisation du temps de dclinaison dfini par Fant [7] et sexprime comme le rapport de lamplitude crte crte de londe de dbit glottique (UP) et du pic ngatif maximal de sa drive (EE), normalis par la priode fondamentale. Le calcul automatique de NAQ seffectue grce un algorithme

La figure 1 prsente les valeurs moyennes et lintervalle de confiance de NAQ par phonme. Les valeurs de NAQ sont comprises entre 0,07 et 0,32 ce qui, en comparant aux valeurs obtenues par Alku et al. [1] pour cinq locuteurs masculins, signifie que les stimuli analyss se rpartissent sur lensemble du continuum pressed-breathy. Les valeurs moyennes de NAQ semblent plus leves pour les voyelles orales hautes, bien que cette tendance ne soit pas significative. Le phonme [] prsente en outre un NAQ moyen plus lev, mais prsente une rpartition clairement bimodale des valeurs de NAQ. Le locuteur 1 ajoute [] sur

les fins de mots avec des valeurs de NAQ (0,28) leves, correspondant une voix breathy. Le locuteur 2 ajoute [] avec une voix modale (valeurs de NAQ autour de 0,12 de mme que pour []). Le choix de lajout ou non dun chwa final semble relever de stratgies relatives aux valeurs expressives des actes de langage. A noter que les deux locuteurs prsentent des frquences dajout de [] voisines: 36,8% des stimuli de locuteur 1, contre 42,9% chez le locuteur 2. Tandis que la voyelle nasale [] prsente des valeurs de NAQ similaires celles des voyelles hautes, la consonne nasale [n] a des valeurs de NAQ correspondant une voix breathy (0,19). Toutes les diffrences sont significatives lexception de celle entre [n] et []. Il parat irraliste que le phonme [n] de [on] soit systmatiquement breathy alors que [o] ne lest pas. On pourrait arguer que cela est d sa position finale, mais ceci reste observable lorsque [] est ajout. Une explication possible est que la nasalit produit essentiellement des basses frquences, qui augmentent la pente spectrale en attnuant les hautes frquences. En effet les mouvements supra-laryngs dans le cas de la nasalit, et laryngs pour le caractre breathy produisent le mme effet acoustique, savoir une augmentation de la pente spectrale. On a donc dans le cas du [n] une mauvaise interprtation : un effet supra-laryng est attribu une voix breathy.
0,24 0,22 0,20 0,18 0,16 0,14 0,12 0,10 0,08 0,06

Lutilisation de deux mthodes distinctes pour lestimation de F0, ainsi que le prfiltrage ralis par lEGG, peuvent participer cette sous-estimation. Dans notre corpus, pour les deux locuteurs masculins slectionns, F0 prsente des valeurs significativement suprieures pour [] ralis par le locuteur 1, accompagn de valeurs leves de NAQ.

4.3.OQA vs. OQEGG


OQ reprsente la dure la phase ouverte, i.e. la somme de la phase douverture et de la phase de fermeture. Son estimation base sur lamplitude OQA devrait donc tre partiellement corrle NAQ, li la phase de fermeture [1]. Dans notre corpus, cette corrlation est leve (r=0,93) ce qui tend prouver que la phase de fermeture explique lessentiel de la variance du quotient ouvert, lasymtrie entre les phases douverture et de fermeture de la glotte tant moins importante. La corrlation entre OQA et F0EGG est de r=0,28. La frquence fondamentale ne peut donc expliquer la variation de dure de la phase ouverte, qui semble clairement indpendante des autres paramtres prosodiques. Les valeurs de quotient ouvert extraites du signal EGG, OQEGG, ne prsentent pas de corrlation avec F0. Ces rsultats doivent tre compars ceux obtenus par Henrich [10] en voix chante, qui a trouv une corrlation entre F0 et OQ chez les chanteurs utilisant le mcanisme laryng II, mais pas pour le mcanisme I qui est le plus frquemment utilis par les sujets masculins en voix parle.
1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,1 0,2 0,3 0,4 0,5 OQ
EGG

S1 S2

Figure 1 : Valeur moyenne et intervalle de confiance p<0,01 de NAQ pour chaque phonme.

OQ

0,6

0,7

0,8

0,9

4.2. Estimations de F0
La plupart des paramtres bass sur lamplitude tant normaliss par la frquence fondamentale, cela implique que les erreurs dans son estimation sont rpercutes sur lestimation de tous les autres paramtres. F0A, estime par lalgorithme de calcul des paramtres bass sur lamplitude, a donc t compare F0EGG, extraite par autocorrlation du signal EGG. Ces deux valeurs ont t calcules sur les mmes portions de signal, centres sur les centres de confiance dtects. La corrlation entre ces deux mesures est de r=0,64. Ceci doit tre compar aux valeurs de F0 obtenues laide de lditeur EdiProso dvelopp lICP (bas sur la dtection par seuil des points dannulation du signal) pour lesquelles la corrlation avec F0EGG atteint une valeur de 0,79. Il ressort en outre de cette comparaison que les valeurs de frquence fondamentale utilises pour normaliser les paramtres bass sur lamplitude tendent tre sous-estimes, ce qui implique que les valeurs de ces paramtres devraient galement tre sous-estimes. Figure 2 : Rpartitions relatives de OQA et OQEGG. La figure 2 montre la rpartition des valeurs de OQA par rapport celles de OQEGG. Les valeurs de OQA sont moins leves, ce qui sexplique en partie par la sous-estimation de F0A. Toutefois on observe une rpartition similaire entre T1A et T1EGG, bien que F0 nintervienne pas dans leur calcul. En effet, les valeurs de T1A sont toujours plus faibles et on nobserve pas plus de corrlation entre T1A et T1EGG quentre OQA et OQEGG, quand bien mme on considre chaque phonme sparment.

5. DISCUSSION
Bien quils soient fortement corrls dans notre corpus, il convient de souligner que les quotients NAQ et OQA dcrivent des phnomnes bien distincts, respectivement la part dans la dure totale du cycle glottique de la phase de fermeture et de la phase ouverte de la glotte. Lnergie de la

source glottique est produite lorsque les cordes vocales sont en contact (phase de fermeture), plus que lorsque la glotte est ouverte. Les estimations de NAQ sont donc vraisemblablement plus fiables que celles de OQA. De plus le calcul de OQA require lestimation dun paramtre de plus que celui de NAQ, savoir EI, ce qui introduit une source derreur supplmentaire. A la lumire des rsultats de Gobl et N Chasaide [9], il est toutefois surprenant que OQA et OQEGG soient si faiblement corrls. Une explication pourrait tre une inadquation du filtre inverse utilis pour lestimation de londe de dbit glottique. En effet nous avons calcul automatiquement les paramtres bass sur lamplitude, sans adaptation au locuteur particulire, tandis que les rsultats de Gobl et N Chasaide ont t obtenus aprs une dtection de formants ralise par un expert. Etant donn quaucune mthode ne donne de mesure directe du dbit glottique, la meilleure solution pour assurer un filtrage inverse adquat semble tre la supervision par un expert. En dpit de nos tentatives, nous sommes dans lincapacit de lier les mesures articulatoires issues du signal EGG aux estimations bases sur lamplitude du dbit obtenu par filtrage inverse du signal acoustique. Il est cependant indubitable que les caractristiques de londe de dbit glottique influencent le jugement perceptif motionnel [9], et que lon peut lier NAQ au degr dattention port la voix, comme la montr Campbell [5]. Ainsi NAQ apparat clairement comme un paramtre extrait du signal acoustique qui est porteur dinformations sur la qualit de voix.

montr une sous-estimation de F0A, automatiquement rpercute sur les paramtres normaliss NAQ et OQA. Enfin la comparaison des valeurs de OQA et OQEGG na montr aucune corrlation entre ces paramtres supposs estimer la mme quantit. Ceci laisse supposer une plus grande sensibilit du quotient ouvert au filtrage inverse utilis pour estimer de londe de dbit glottique. Une perspective intressante serait donc deffectuer une adaptation experte au locuteur avant lestimation de londe de dbit.

7. REMERCIEMENTS
Ce travail sinscrit dans le projet Expressive Speech Project du JST/CREST, dirig par N . Campbell. Nous remercions chaleureusement N. Campbell et P. Mokhtari pour leurs solutions techniques et leurs conseils judicieux.

BIBLIOGRAPHIE
[1] P. Alku, T. Bckstrm & E. Vilkman. Normalized amplitude quotient for parameterization of the glottal flow. Journal of the Acoustic Society of America, 112 (2), 701-710, 2002. [2] V. Auberg & M. Cathiard. Can we hear the prosody of smile ? Special issue Emotional Speech, Speech Communication Review 40, 2003. [3] V. Auberg, N. Audibert & A. Rilliard. Why and how to control emotional speech corpora. 8th European Conference on Speech Communication and Technology, 185-188, 2003. [4] N. Campbell. Databases of Emotional Speech. ISCA Workshop on Speech and Emotions, Newcastle, Northern Ireland, 34-38, 2000. [5] N. Campbell & P. Mokhtari. Voice Quality: the 4th Prosodic Dimension. 15th International Congress of Phonetic Sciences, Barcelona, Spain, 2417-2420, 2003. [6] A. R. Damasio. Descartes error. Emotion, reason, and the human brain. A. Grosset/ Putnam Books, 1994. [7] G. Fant. The voice source in connected speech. Speech Communication Review 22, 125-139, 1997. [8] C. Gobl & A. N Chasaide. Testing affective correlates of voice quality through analysis and resynthesis. ISCA Workshop on Speech and Emotions, Newcastle, Northern Ireland, 178-183, 2000. [9] C. Gobl & A. N Chasaide. Amplitude-based source parameters for measuring voice quality. ISCA Workshop on Voice Quality VOQUAL03, 151-156, 2003. [10] N. Henrich, C. d'Alessandro, M. Castellengo & B. Doval. Mesures lectroglottographiques de quotient d'ouverture en voix parle et chante. XXIIImes Journes d'Etude sur la Parole, Aussois, France, 2000. [11] D. Hermes. Measurement of pitch by subharmonic summation. Journal of the Acoustic Soc. of America, 83 (1), 257-264, 1988. [12] J. Laver. The phonetic description of voice quality. Cambridge University Press, Cambridge, 1980. [13] P. Mokhtari & N. Campbell. Automatic Detection of Acoustic Centres of Reliability for Tagging Paralinguistic Information in Expressive Speech. 3rd International Conference on Language Evaluation and Resources, Las Palmas, Spain, 2015-2018, 2002. [14] K. R. Scherer, T. Johnstone & G. Klasmeyer. Vocal Expression of Emotion. In R.J. Davidson, K.R. Scherer, H.H. Goldsmith (Eds). Handbook of Affective Sciences, 433-456, 2003.

6. CONCLUSION
A partir dun corpus de parole motionnelle authentique enregistr en laboratoire [3], nous avons compar des paramtres obtenus par filtrage inverse du signal acoustique ceux extraits directement du signal EGG. Les paramtres issus de lamplitude du signal obtenu par filtrage inverse ont t calculs grce un algorithme de calcul automatique de NAQ sur les vocodes dun signal de parole non tiquet [12], appliqu galement au calcul dune estimation du quotient ouvert, OQA [9]. Les rsultats ont montr un effet du phonme sur NAQ avec une distribution diffrente pour les deux locuteurs. Cet effet implique la ncessit de normaliser NAQ par des facteurs phonmiques pralablement son utilisation comme paramtre prosodique. De plus, les valeurs de NAQ sur le segment nasal [n], frquemment dtect comme vocode, se sont avrs surestims. Ceci peut tre interprt comme un problme dinversion, savoir la similitude des effets acoustiques induits par la nasalit vs. le contrle de la voix breathy. Si ces rsultats peuvent mettre en cause la validit de la mesure dynamique directe de NAQ, cela naffecte pas la pertinence des estimations globales et statiques de NAQ calcul sur des corpus quilibrs et de grande taille (par exemple [5]). La comparaison de F0 estim par lalgorithme de calcul de NAQ, F0A, et extrait directement du signal EGG, F0EGG, a

Vous aimerez peut-être aussi