Vous êtes sur la page 1sur 4

Dtection des motions partir d'indices lexicaux, dialogiques et prosodiques dans le dialogue oral

L. Devillers (1), I. Vasilescu(2)


(1)

LIMSI-CNRS, BP133, 91 403 Orsay Cedex, France, (2) LTCI-ENST, 46, rue Barrault, 75013 devil@limsi.fr, vasilesc@tsi.enst.fr

ABSTRACT
This paper deals with emotion detection in spoken dialogs. Detecting emotions in the context of automated call center services can be helpful for the management of the human-computer dialogs, enabling dynamic modification of the dialog strategy according to the user behaviour and influencing the final outcome. In the present study, we make use of an Agent/Client dialog corpus recorded in a Stock Exchange Center in the framework of the Amities project. In our corpus recorded in real-life conditions the manifestation of emotion is complex, i.e. shaded emotions occur since the interlocutors attempt to control the expression of their internal attitude. Firstly, we aim at validating appropriate emotion labels for automated call center services and at validating them via perceptual tests. Secondly, we focus on multi-level detection cues, i.e. lexical and prosodic, as speaker employs complex strategies to manifest their emotions. In this paper we describe four studies. The first study describes the annotation methodology and the strategy adopted to validate the emotion labels. The second study focuses on emotion detection with lexical cues, whereas the third one concerns the role of prosodic cues in emotion detection. In the fourth, we discuss the correlation between the emotion labels and the dialogic acts. The final aim of the study is to provide a complex detection model including several levels of information.

manifestation des motions est dpendante de la personnalit, des attitudes, de l'tat d'esprit etc. des individus. Dans les interactions verbales spontanes, les motions sont rarement manifestes l'tat pur et sous une forme primaire. En revanche, on retrouve dans ce type d'interactions des motions plus mesures, souvent combines entre elles, qui sont difficiles extraire, dcrire et dtecter. Afin de contrler cette variabilit inhrente au domaine, la plupart des tudes consacres l'analyse des motions dans la parole fait rfrence un nombre minimal d'motions dites fondamentales (colre, peur, tristesse, joie), voire une opposition entre motions ngatives vs positives [2, 9] ou encore une parole produite dans des conditions de stress ou non [8]. De plus, les comportements motionnels sont fortement dpendants des corpus utiliss. La majorit des travaux ont pour l'instant port sur des corpus artificiels (acteurs, Magiciens d'Oz) ou le niveau smantique et lexical est contrl et les marqueurs d'motions se retrouvent essentiellement au niveau prosodique. Par consquent, il est souvent difficile de transposer les rsultats obtenus sur des corpus artificiels des corpus rels. En effet, la ralit langagire est beaucoup plus complexe et l'analyse des manifestations motionnelles dans la parole spontane se doit de considrer le but final de la dmarche qui est d'intgrer ses rsultats dans une application dialogique relle. Les travaux que nous menons ont comme objectif final de raliser un modle de dtection automatique des motions multi-niveaux en intgrant des indices dialogiques, lexicaux et prosodiques. Ces recherches sont menes dans le cadre du projet IST AMITIES (Automated Multilingual Interaction with Information and Services) [1] et font appel un corpus de dialogues rels entre clients et agents enregistrs dans un centre de transactions boursires.

1. INTRODUCTION
Modliser et dtecter les motions indiquant des troubles dans la communication peut tre un moyen d'amliorer les systmes de dialogue homme-machine. En effet, dtecter des motions peut permettre de suivre l'volution des interactions, de modifier dynamiquement les stratgies dialogiques et donc de contribuer au succs d e la communication. Notre objectif est de trouver des indices robustes diffrents niveaux linguistiques: prosodique, lexical et dialogique, pour identifier les motions dans des changes verbaux. Selon Scherer [10], le premier problme dans l'analyse des motions est li la difficult d'isoler les facteurs qui en sont responsables, dans la mesure o la

Dans les paragraphes suivants, le corpus, la stratgie d'annotation ainsi que les tests perceptifs adopts sont dcrits. Le troisime paragraphe est consacr la dtection lexicale des motions. Les indices prosodiques sont prsents dans le quatrime paragraphe. Les annotations d'motions sont galement corrles avec les annotations dialogiques (section 5).

Enfin, le dernier paragraphe de cet article prsente des conclusions et perspectives.

Ltiquette Peur figure, pour ce corpus, un tat dinquitude voir danxit. Enfin, l'tat Neutre de rfrence correspond l'volution normale du dialogue. Deux annotateurs ont indpendamment cout les dialogues et tiquet chaque tour de parole. 2,7% du corpus a t annot de faon ambigu dans le choix des tiquettes. Le coefficient Kappa mesure la fiabilit des annotations entre annotateurs, il est de 0,8 pour ce corpus. L'ambigut concerne notamment l'tiquette Neutre versus une autre motion. Ces cas ont t dsambiguss par un troisime annotateur. Afin de valider les annotations, deux tests perceptifs (l'un avec coute du signal, l'autre sans) ont t mens auprs de quarante sujets (vingt par test) sur un sousensemble de quarante tours de parole prsents hors contexte dialogique, huit phrases tant tires alatoirement pour chacune des cinq motions. 55% des tours de parole sont majoritairement perus avec la mme tiquette motion dans les deux conditions de test montrant l'importance des indices lexicaux. Dans la condition avec coute du signal, les tours de parole portant des motions ngatives ont t correctement perues 75% par les sujets validant ainsi les tiquettes initiales. L'Excuse n'a pas pos de problme de reconnaissance, tandis que la Satisfaction a t globalement perue comme Neutre c'est--dire un tat normal de progression du dialogue. 13,2% du corpus a t annot avec des tiquettes non neutres. Parmi ces tours de parole les motions ngatives sont 8 fois plus reprsentes chez les clients que chez les agents (2,10% pour les agents vs 16,7% pour les clients). Plus prcisment, parmi les tours de parole tiquets Colre, 7,5% appartiennent aux agents et 92,5% aux clients, alors que la proportion pour Peur est de 20% vs 80%. Finalement, l'Excuse caractrise surtout les tours de parole des agents. De manire gnrale, les agents produisent deux fois plus de tours de parole tiquetes Satisfaction ce qui confirme son caractre non marqu et proche du Neutre.

2. DESCRIPTION DU CORPUS ET PROTOCOLE D'ANNOTATIONS


Le corpus utilis comporte environ en 5000 tours de parole (100 clients dont 8 femmes, 4 agents dont 1 femme) extraits dappels un centre de transactions boursires. Ces enregistrements ont t effectus dans le cadre du projet Amities pour une tude de dveloppement dun centre de routage dappels. Le service de transactions peut tre atteint via une connexion Internet ou directement en appelant un agent. Les appels couvrent une large palette de manifestations conversationnelles possibles en terme de sujet, longueur et mode de phrases, et enfin caractristiques des locuteurs. En majorit, les appels sont dus des problmes de connexion au service Internet, cependant certains clients prfrent une interaction avec un agent humain. Les sujets des dialogues portent sur des demandes dinformations gnrales (cotations, taux des commissions,), passages dordres (achat, vente, statut), demandes de conseils, confirmations de transaction, problmes de connexion Internet, etc. Le nombre de tours de parole par dialogue est en moyenne de 50, le nombre moyen de mots dun tour de parole tant de lordre de 9 mots. L'annotation avec des tiquettes motionnelles est sujette subjectivit et ncessite un protocole d'annotation rigoureux afin d'assurer la cohrence des annotations. Cette variabilit est encore plus marque dans les corpus de donnes enregistres dans des conditions relles. Pour cette tude, les tiquettes motions sont portes par les tours de parole. Le protocole d'annotation [6] ncessite plusieurs tapes de traitement : la slection d'une liste d'tiquettes d'motions appropries, une premire phase d'annotation par au moins deux annotateurs avec une mesure d'accord inter-annotation, une validation perceptive des choix des classes et de l'annotation elle-mme partir d'un sousensemble de tours de parole tirs alatoirement dans le corpus, enfin, au vue des rsultats des tests et de l'interannotation, une rvision des tiquettes choisies peut s'avrer ncessaire ainsi qu'une r-annotation pour les cas ambigus.

3. DTECTION LEXICALE DES MOTIONS


Un systme de dtection des motions bas sur un modle markovien unigram a t dvelopp [3]. L'motion porte par une phrase inconnue u est dtermine par le modle E qui obtient la meilleure probabilit a posteriori P(u/E) :

log P(u / E)= 1

Dans notre tude, nous avons considr la fois des motions et des comportements/attitudes dpendants de la tche. Ainsi, deux motions ngatives parmi les quatre primaires ont t retenues, la Colre et la Peur ainsi que des comportements comme la Satisfaction et l'Excuse (gne) qui taient frquents dans ce corpus.

u wu

tf(w,u)log

P(w/ E) +(1)P(w) P(w)

o P(w/E) est la probabilit d'un mot w sachant le modle d'motion E, P(w) est la frquence d'un mot dans le modle gnral obtenu sur l'ensemble du corpus d'entranement, tf(w,u) reprsente la frquence d'un mot dans la phrase, et Lu est la longueur de la phrase en nombre de mots. Les procdures de normalisation

utilises sont la lemmatisation et la composition de structures ngatives, par exemple, marche_pas . Ce systme de dtection des motions fournit un taux de dtection d'environ 70% pour les cinq motions. Les rsultats montrent que certaines motions sont plus facilement dtectables que d'autres, le meilleur score tant obtenu pour la Satisfaction et l'tat Neutre et le moins bon pour la peur. La bonne dtection de la Satisfaction peut tre attribue aux marques lexicales spcifiques comme, par exemple, merci, d'accord . Au contraire, l'expression de la Peur est plus syntaxique que lexicale travers des rptitions et des reformulations. Les performances du modle augmentent de manire significative lorsqu'on considre deux classes principales d'motions, Positives (Neutre/Excuse/Satisfaction) vs Ngatives (Colre/Peur). Dans cette configuration les scores de dtection atteignent 83% (Ngatives) vs 87% (Positives) et un total de 85% de bonne dtection.

Table 1 : Valeurs moyennes des paramtres F0 pour les 5 motions sur le corpus global (5000 tours de parole). Symboles: Satif=satisfaction

Variations F0 (niveau de la phrase)


Etiquettes
Nb phrases PlageF0 (Hz) MaxDF0 (Hz)

Col 253 220 129

Peu 192 228 127

Exc 51 201 97

Sat 167 174 91

Neu 4295 171 81

Table 2 : Valeurs moyennes des paramtres F0 pour les 5 motions sur le corpus global (5000 tours de parole). Symboles : Ind = Indices

4. INDICES PROSODIQUES CARACTRISANT


LES MOTIONS Les paramtres prosodiques classiques tels que le dbit, le contour mlodique et l'nergie ont t tudis [4]. Dans cet article, nous allons prsenter les paramtres relatifs aux variations du contour mlodique de la phrase (variation de F0). Les mesures de F0 sont estimes sur les segments voiss l'aide du logiciel PRAAT. Pour chaque tour de parole, le minimum, le maximum, la moyenne et la diffrence entre minimum et maximum (plageF0) sont calculs au niveau global de la phrase. Le maximum de variation de F0 entre deux segments conscutifs voiss (maxDF0) a galement t calcul (niveau segmental). Nous avons finalement considr les paramtres les plus distinctifs des motions positives et ngatives. Il sagit des deux paramtres de variation de F0 savoir la diffrence entre minF0 et maxF0 (i.e. plageF0) et le maxDF0. Paramtres F0 au niveau local (tour de parole) et global (dialogue) Les deux paramtres (plageF0 et maxDF0) ont t analyss selon deux points de vues : au niveau du tour de parole (indpendamment du locuteur) et au niveau du dialogue (dpendant du locuteur). Les analyses menes dans les deux conditions montrent une forte corrlation entre, les deux paramtres retenus et, les motions ngatives (Peur, Colre), compares l'tat Neutre (Table 1, 2).

Variation F0 (au niveau du dialogue)


Rgles R1 : ind(Peur) & ind(Colre)>ind(Neutre) R2 : inds(Colre)>ind(Neutre) R3 : ind(Peur)>ind(Neutre) %dial 61% 75% 68%

Pour la Table 2, les 3 rgles considres sont : R1: locuteurs o les 2 paramtres pour les 2 motions ngatives prsentent des valeurs suprieures au Neutre ; R2 : % locuteurs o les deux paramtres pour Colre prsentent des valeurs suprieures au Neutre ; R3 : % locuteurs o les deux paramtres pour Peur prsentent des valeurs suprieures au Neutre. Les interactions dans des conditions relles prsentent des manifestations motionnelles trs complexes qui font appel des marqueurs relevant de niveaux linguistiques diffrents. Paramtres F0 & discrimination entre Peur et Colre Une analyse plus fine a t mene afin de distinguer les deux motions ngatives rvles par le corpus, Colre et Peur [5]. A cette fin, deux variables ont t prises en compte, le locuteur (agent/client) et le genre (homme/femme). Les deux paramtres plageF0 et maxDF0 ont t considrs dans cette perspective et nouveau aux deux niveaux, du tour de parole et du dialogue. La corrlation des motions ngatives avec la variable locuteur montre des manifestations diffrentes selon le statut du locuteur dans le dialogue. Ainsi, la Peur a des manifestations plus importantes travers la magnitude des deux paramtres F0 chez les clients que chez les agents. Parmi les clients, cette observation concerne notamment les locuteurs masculins. Plus gnralement, la prise en compte de la variable genre permet de mettre en vidence des valeurs plus hautes des paramtres F0 pour Colre et Peur par rapport au

Neutre chez les locuteurs clients masculins. Les clients fminins prsentent des valeurs plus mo dres globalement et une plus haute variation F0 pour les tours de parole tiquets Peur. Cependant, il n'est pas possible de gnraliser ces comportements, tant donn que les classes de locuteurs hommes/femmes ne sont pas quilibres. Table 3 : Valeurs moyennes pour les paramtres prosodiques corrls avec trois motions et en fonction du genre (5000 tours de parole).

standard dialogs acts annotation) [7]. La corrlation montre que les motions ngatives Colre et Peur sont susceptibles de gnrer plus frquemment certains actes de dialogue comme les R-assertions, et Rptitions etc., tandis que les motions positives comme la Satisfaction et le Neutre sont corrles avec des actes dialogiques comme l'Acceptation.

6. CONCLUSIONS ET PERSPECTIVES
Les rsultats montrent que les motions ont des manifestations plusieurs niveaux linguistiques et prosodiques. Le but de ce travail est de proposer un modle de dtection qui prendra en compte tous ces niveaux. Les diffrents indices trouvs sont actuellement tests sur d'autres corpus de donnes relles afin de juger de leur robustesse.

Variation F0 inter-agent
Etiquettes Agent1(homme)-plageF0 (Hz) Agent1(homme)-maxDF0 (Hz) Agent2(homme)-plageF0 (Hz) Agent2(homme)-maxDF0 (Hz) Agent3(homme)-plageF0 (Hz) Agent3(homme)-maxDF0 (Hz) Agent4(homme)-plageF0 (Hz) Agent4(homme)-maxDF0 (Hz) Col 207 111 122 76 141 96 132 95 Peu 87 43 65 22 166 104 193 105 Neu 117 60 102 50 121 56 125 56

BIBLIOGRAPHIE
[1] [2]

AMITIES : http://www.dcs.shef.ac.uk/nlp/amities A. Batliner, et al., (2003), How to find trouble in communication, Speech Communication 2003. L. Devillers,, I. Vasilescu, L. Lamel, (2003), Emotion Detection in a task-oriented Dialog Corpus, IEEE ICME 2003, Baltimore. L. Devillers, I., Vasilescu, (2003), Prosodic cues for emotion characterization in real-life spoken dialogs, Eurospeech,, Genve. L. Devillers, I. Vasilescu, (2004), Anger and Fear in recorded conversations, Speech prosody, Nara. L. Devillers, I. Vasilescu, C. Mathon, (2003), Prosodic cues for perceptual emotion detection in task-oriented Human-Human corpus, ICPhs 2003, Barcelone.. L. Devillers, S. Rosset, H. Maynard, L. Lamel, (2002), Annotations for Dynamic Diagnosis of the Dialog State, LREC 2002, Las Palmas. R. Fernandez, R. Picard, (2003), Modeling, Drivers' Speech Under Stress, Speech Communication 2003. C. Lee, N. Narayanan, R. Pieraccini, (2001), Recognition of Negative Emotions from the Speech Signal, ASRU 2001. A review of research Communication 2003. paradigms, Speech

[3]

Des diffrences dans l'amplitude des deux paramtres F0 sont noter galement chez les agents. Ces diffrences ne suivent pas systmatiquement la variable genre mais rvlent plutt des spcificits de comportement motionnel dpendant des types de locuteur. Ainsi, l'agent masculin (agent 3) prsente le plus de variation pour les deux paramtres et les deux motions, tandis que le seul agent fminin (agent 4) manifeste plutt une variation des paramtres lorsqu'il s'agit de la Peur, ce qui s'avre un comportement inverse par rapport aux agents 1+2 lesquels prsentent plus d'amplitude des paramtres lorsqu'il s'agit de la Colre. Plus intressant, le comportement des agents semble influencer celui des clients. Ces derniers montrent donc des variations contraires des deux paramtres F0 pour les deux motions par rapport leurs interlocuteurs agents (i.e. agents 1+2, 4). En revanche, lorsque les manifestations motionnelles sont globalement hautes chez l'agent (agent 3), les clients ragissent similairement. Cette analyse nous permet d'observer que les motions ont des manifestations complexes qui dpendent la fois du thme dialogique et des comportements motionnels respectifs des interlocuteurs. Ainsi, on peut noter une interdpendance des comportements des agents et des clients.

[4]

[5]

[6]

[7]

[8]

[9]

[10] K. Scherer, (2003), Vocal communication of emotion:

5. CORRLATION AVEC LES ACTES DE


DIALOGUES Les annotations motionnelles ont t corrles avec les actes dialogiques (adapts d'aprs DAMSL