Vous êtes sur la page 1sur 203

Universit Paris-Sud 11

Facult des Sciences d'Orsay 91405 ORSAY CEDEX

LIMSI-CNRS
BP 133 F-91403 ORSAY CEDEX

Thse pour obtenir le grade de Docteur de lUniversit Paris 11 Discipline : Informatique

tel-00624085, version 1 - 15 Sep 2011

Prsente et soutenue publiquement par

Laurence Vidrascu

Analyse et dtection des motions verbales dans les interactions orales

Soutenu publiquement le 20 dcembre 2007 devant le jury compos de Laurence Devillers Jean-Paul Haton Anton Batliner Nick Campbell Lori Lamel Joseph Mariani Directeur Rapporteur Rapporteur Examinateur Examinateur Examinateur

Remerciements
Je tiens tout dabord remercier mon directeur de thse, Laurence Devillers, pour son encadrement et ses nombreux conseils ainsi que Lori Lamel qui a encadr ma thse pendant 2 ans pour ses encouragements et son aide pour lutilisation des outils du groupe. Mes remerciements vont galement aux membres de mon jury : Jean Paul Haton, Anton Batliner, Nick Campbell et Joseph Mariani. Merci toute le groupe TLP et aux autres doctorants, en particulier Bianca (et Emma) pour son aide incommensurable et son amiti, Ccile pour ses relectures et son soutien, Daniel pour avoir reli ma thse et Anne-Laure pour tous ses conseils. Merci enfin tous ceux, famille et amis, qui m'ont soutenue et supporte, mention spciale ma tel-00624085, version 1 - 15 Sep 2011 soeur et son cachougu.

- ii -

Table des matires


INTRODUCTION GENERALE ......................................................................................................................... 1 1. ETAT DE L'ART ........................................................................................................................................ 7 1.1. 1.1.1. 1.1.2. 1.1.3. 1.2. 1.2.1. 1.2.2. 1.2.3. 1.3. 2. THEORIE DES EMOTIONS ....................................................................................................................... 7 Dfinitions et fonction ..................................................................................................................... 7 Les motions dans les interactions sociales : le modle de Brunswik, encodage et dcodage des La reprsentation des motions..................................................................................................... 14 LA DETECTION DES EMOTIONS DANS LA VOIX ..................................................................................... 25 Mthodologie pour construire un systme de dtection des motions........................................... 25 Perception des motions : Les performances humaines................................................................ 26 Etat de lart des systmes de dtection sur les motions dans la voix........................................... 26 CONCLUSION DE LETAT DE LART .........................................................................29_Toc191895342

motions....................................................................................................................................................... 10

tel-00624085, version 1 - 15 Sep 2011

LES CORPUS EMOTIONNELS ............................................................................................................. 33 2.1. 2.2. 2.2.1. 2.2.2. 2.3. 2.3.1. 2.3.2. 2.3.3. 2.4. 2.5. QUEL MATERIEL ? LES DIFFERENTS TYPES DE CORPUS : AVANTAGES ET INCONVENIENTS .................. 33 DONNEES LIMSI : DES CENTRES DAPPELS ......................................................................................... 38 Corpus de transactions boursires................................................................................................ 39 CEMO ........................................................................................................................................... 39 TRANSCRIPTION DU CORPUS CEMO ................................................................................................... 41 Protocoles ..................................................................................................................................... 41 Outils et vitesse de transcription ................................................................................................... 41 Caractristiques du Corpus .......................................................................................................... 41 METADONNEES ................................................................................................................................... 42 CONCLUSION ...................................................................................................................................... 43

3.

ANNOTATION DES EMOTIONS .......................................................................................................... 46 3.1. 3.1.1. 3.1.2. 3.1.3. 3.1.4. 3.2. 3.2.1. 3.2.2. 3.2.3. 3.2.4. 3.2.5. PROBLEMATIQUES LIEES A LANNOTATION ......................................................................................... 46 Choix d'une unit de dialogue ....................................................................................................... 46 Choix des axes/tiquettes .............................................................................................................. 47 Combien dannotateurs ? .............................................................................................................. 49 Validation des annotations............................................................................................................ 49 ANNOTATION DU CORPUS CEMO ....................................................................................................... 52 Exprience tire des travaux sur le Corpus de transactions boursires ....................................... 52 Annotation du corpus CEMO ........................................................................................................ 56 Validation...................................................................................................................................... 64 Cohrence inter-annotateur : le coefficient kappa........................................................................ 67 Cohrence intra-annotateur : r-annotation................................................................................. 68

- iii -

3.2.6. 3.3. 3.4. 3.5. 4.

Test perceptif................................................................................................................................. 68 COMBINER LES ANNOTATIONS : UN VECTEUR EMOTION ...................................................................... 69 CLUSTERING SUR LES ANNOTATIONS UTILISANT UN ALGORITHME DIVISIF.......................................... 70 CONCLUSION ...................................................................................................................................... 71

ANALYSE DES MELANGES DEMOTIONS DANS LE CORPUS CEMO...................................... 74 4.1. 4.2. 4.2.1. 4.2.2. 4.2.3. 4.3. DISTRIBUTION DES EMOTIONS............................................................................................................. 74 LES MELANGES DEMOTIONS .............................................................................................................. 75 Diffrents cas dans le corpus CEMO ............................................................................................ 75 Diffrents indices : Une tude sur les motions conflictuelles ................................................ 77 Test perceptif sur les motions complexes..................................................................................... 80 CONCLUSIONS..................................................................................................................................... 88

5.

LES PARAMETRES................................................................................................................................. 92 5.1. ETAT DE L'ART DES PARAMETRES UTILISES ......................................................................................... 92 Le modle de Fnagy .................................................................................................................... 92 La production de la parole............................................................................................................ 93 Les indices extraits pour la dtection des motions ...................................................................... 95 Les variations des paramtres suivant les tats motionnels dans la littrature ........................ 101 PARAMETRES EXTRAITS SUR NOS CORPUS......................................................................................... 103 Paramtres extraits de manire automatique.............................................................................. 105 Paramtres dduits de la transcription manuelle et de lalignement phonmique...................... 109 Normalisation des paramtres prosodiques................................................................................ 112 Tendances des paramtres compares celles de Scherer ......................................................... 114 Triangles vocaliques ................................................................................................................... 115 CONCLUSION .................................................................................................................................... 118

tel-00624085, version 1 - 15 Sep 2011

5.1.1. 5.1.2. 5.1.3. 5.1.4. 5.2. 5.2.1. 5.2.2. 5.2.3. 5.2.4. 5.2.5. 5.3. 6.

APPRENTISSAGE POUR LA DETECTION DES EMOTIONS....................................................... 123 6.1. 6.1.1. 6.1.2. 6.1.3. 6.2. 6.2.1. 6.2.2. 6.2.3. 6.2.4. 6.3. 6.3.1. 6.3.2. LAPPRENTISSAGE AUTOMATIQUE : CADRE GENERAL POUR NOS TRAVAUX ...................................... 123 Algorithmes ................................................................................................................................. 124 Mthodologie : Prparer et valuer les donnes......................................................................... 127 La slection des attributs............................................................................................................. 131 QUEL ALGORITHME UTILISER ? PREMIERS RESULTATS : TRANSACTION BOURSIERES / CEMO ......... 133 Comparaison de diffrents algorithmes sur les donnes boursires et CEMO pour la Intrt de ne pas utiliser les mlanges : exemple Peur/Colre sur CEMO et donnes boursires. ..... 135 Combien de donnes pour lapprentissage ? .............................................................................. 135 Quelle normalisation ?................................................................................................................ 136 SUR LES DONNEES CEMO ................................................................................................................ 137 Informations contextuelles : Diffrences Agents/Appelants, Hommes/Femmes.......................... 137 Variation du nombre de classes .................................................................................................. 140

classification de 2 classes.......................................................................................................................... 133

-1-

6.3.3. 6.3.4. 6.4. 6.4.1. 6.4.2. 6.4.3. 6.4.4. 6.4.5. 6.4.6. 6.4.7. 6.5. 6.5.1. 6.5.2. 6.6. 6.7. 7.

Le poids des diffrents types dattributs paralinguistiques : le cas de la dtection dans le cas des 5 Combinaison indices lexicaux et prosodiques............................................................................. 147 UTILISATION DE NOS METHODES SUR DES DONNEES DIFFERENTES : CEICES (COMBINING EFFORTS 150 Coopration dans le cadre du rseau dexcellence humaine ...................................................... 150 Le corpus AIBO........................................................................................................................... 150 Schma dencodage des paramtres. .......................................................................................... 151 Comparaison des performances par site..................................................................................... 152 Impact des erreurs dextraction du pitch .................................................................................... 152 Impact de diffrents types de paramtres.................................................................................... 153 Conclusions gnrales sur les donnes AIBO ............................................................................. 154 PORTABILITE SUR DES DONNEES DIFFERENTES ................................................................................. 155 Sur les donnes boursires .......................................................................................................... 156 GEMEP (GEneva Multimodal Emotion Portrayals)................................................................... 159 VERS UNE MODELISATION PLUS FINE ET TEMPORELLE ...................................................................... 167 CONCLUSION .................................................................................................................................... 170

classes Peur/Colre/Tristesse/Soulagement/Neutre .................................................................................. 141

FOR IMPROVING CLASSIFICATION OF EMOTIONAL USER STATE) .....................................................................

tel-00624085, version 1 - 15 Sep 2011

CONCLUSION ET PERSPECTIVES................................................................................................... 173 7.1. 7.2. CONCLUSIONS................................................................................................................................... 173 PERSPECTIVES................................................................................................................................... 174

ANNEXE1: QUELQUES DEFINITIONS DE LEMOTION ....................................................................... 178 TABLE DES FIGURES.................................................................................................................................... 181 LISTE DES TABLEAUX ................................................................................................................................. 185 BIBLIOGRAPHIE............................................................................................................................................ 189 PUBLICATIONS .............................................................................................................................................. 197

-2-

tel-00624085, version 1 - 15 Sep 2011

I Introduction

-3-

Introduction gnrale

INTRODUCTION GENERALE
La prsente thse a pour sujet la dtection automatique des motions dans la voix. Longtemps ddaign par la communaut scientifique, le domaine des motions est aujourdhui en plein essor. Les avatars pouvant exprimer une motion, comme ceux disponibles sur Yahoo Messenger par exemple, se multiplient. De mme on voit de plus en plus de gadgets du type lapin nabaztag 1 qui exprime des motions 2 et qui on peut envoyer des messages en utilisant une voix plus ou moins en forme ou stresse. De faon moins ludique, on commence aussi sintresser aux motions dans le domaine de lducation avec par exemple pour objectif des tuteurs virtuels dont la stratgie voluerait suivant que la personne qui interagit avec eux est intresse, ennuye ou frustre. La prise en compte des motions peut galement servir pour les centres dappels, o la satisfaction du client est primordiale. Concernant ce dernier point, la dtection des motions peut tel-00624085, version 1 - 15 Sep 2011 avoir plusieurs intrts. Tout dabord une grande quantit de donnes est actuellement enregistre et il peut tre intressant de dtecter automatiquement les portions de dialogue correspondant de la satisfaction ou de lnervement afin de les analyser a posteriori et de modifier les stratgies (pour des agents humains comme pour des agents virtuels), le but final tant de ne pas perdre de client. Ensuite, la dtection des motions a galement tait envisage afin de superviser les interactions et dintervenir en cas de problme 3 (l aussi avec des agents humains ou des systmes de dialogue). Les premiers outils de quality monitoring utilisent la fois la reconnaissance de la parole et des indices acoustiques (voix superposes, silences, hsitations, temps dinteraction, etc.) pour infrer de la non-satisfaction dun appelant. Un premier systme de ce type a dailleurs t commercialis en 2006 par les laboratoires NICE 4 avec un module emotion detection visant dtecter un vnement motionnel mais aucune valuation de ce module na t effectue. Indpendamment de ces applications mergentes, le domaine des motions est particulirement intressant par son aspect pluridisciplinaire (psychologie, physiologie, neurologie, traitement de la parole, traitement du signal, ralit virtuelle). Il a motiv la cration dun rseau dexcellence, HUMAINE (Human-Machine Interaction Network on Emotion), dans lequel le LIMSI est

www.nabaztag.com En activant une fonction humeur , le lapin prend la parole des moments alatoires et ses intonations sont souvent assez marques. 3 Bar Veinstein, de NICE Systems : Des recherches montrent que si vous rpondez un consommateur dans les 24 heures aprs quil ait eu une mauvaise exprience avec lun de vos produits, vous avez de grande chance de regagner ce consommateur et de le fidliser 4 http://nicesystem.ru/news/newsletter/6_07/analyze.php
1 2

-1-

Introduction gnrale impliqu, et qui runissait des experts issus de plusieurs disciplines dans le but de partager les diffrentes expertises afin de progresser vers des systmes orients motions. Jai dailleurs particip CEICES (Combining Efforts for Improving Automatic Classificationof Emotional User States), une collaboration de plusieurs sites de HUMAINE, dont lobjectif tait de se pencher sur la classification des tats motionnels exprims vocalement. Dans ce manuscrit, nous nous concentrons sur la communication vocale des motions. Nous avons choisi de travailler sur des donnes tlphoniques provenant de centres dappel car elles sont particulirement adaptes ce type de travaux, lmotion sexprimant uniquement par la voix. En contrepartie, la qualit du signal nest pas toujours optimale par rapport des donnes non tlphoniques et la bande passante est rduite.

Les motions dans la voix


tel-00624085, version 1 - 15 Sep 2011 Depuis une quinzaine dannes, de plus en plus de chercheurs se sont intresss ltude des motions dans la voix avec souvent la mme manire de procder : partir de donnes tiquetes en motion, un ensemble dindices est extrait et des mthodes de fouille de donne sont utilises pour reconnatre les motions. Dans la plupart des tudes, la notre y compris, le terme motion sera utilis au sens large pour signifier tat affectif. En 2003, deux tats de lart [Scherer 2003], [Juslin et Laukka 2003] ont t fait sur plus dune centaine dtudes avec de nombreuses critiques : "most of the studies in this area lack theoretical and analytical rigor, and some of the most serious shortcomings are the following: using actor portrayed emotion utterances, as opposed to naturally occurring emotional vocalizations; not systematically controlling important variables such as the number of speakers, the type of emotions studied, the instructions for portrayal, and the verbal material used. [Kappas et al. 1991 p213] En effet la plupart des tudes, bien que visant des applications relles, sappuyaient sur des donnes joues par des acteurs (dont le nombre tait dailleurs souvent restreint). Elles ne prcisaient pas systmatiquement si une validation du jeu des acteurs avait t effectue. (Est-ce que la colre produite par lacteur est vraiment perue comme de la colre ?). De plus le nombre dmotions tudi tait souvent limit, avec une majorit dtudes essayant de discriminer entre 2 ou 3 classes dmotions assez larges (positif, neutre, ngatif). Le peu dtudes ralises avec des donnes spontanes semblait indiquer que les performances avec des donnes actes ne refltaient pas du tout ce qui serait obtenu avec des donnes relles. En effet, les donnes relles, compares aux donnes actes, sont souvent moins intenses et beaucoup plus complexes avec en plus des mlanges qui ne sont pas toujours qualifiables avec une tiquette motionnelle simple. Il tait galement difficile davoir une ide du nombre -2-

Introduction gnrale maximum dmotions pouvant tre discrimines. Le domaine tant assez rcent, un flou existait galement sur la manire dvaluer les performances et les performances maximales que lon pouvait imaginer obtenir avec des indices et des algorithmes idaux. Nous avons essay de rpondre aux diffrentes critiques en travaillant sur des donnes spontanes particulirement riches avec une grande diversit de locuteurs (ge, sexe, contexte, accent) et un large ventail dtats motionnels. Ds lors que lon travaille avec des donnes relles, plusieurs questions se posent : comment annoter les donnes pour rendre compte de leur richesse et de leur complexit ? o tout dabord quest ce qui est annot ? En gnral on choisit une unit statique comme le tour de parole, mais pourrait-on envisager un traitement plus dynamique ? tel-00624085, version 1 - 15 Sep 2011 o comment former des annotateurs experts combien dannotateurs faut-il et comment valider les annotations ? de nombreuses thories existent sur les mlanges dmotions, mais peu dtudes empiriques ont t effectues. Comment les tudier dans la pratique ? Est-ce que tout le monde les peroit ? Peut-on typer les diffrents mlanges ? quels sont les indices les plus pertinents pour discriminer les motions ? Existe-il un profil vocal pour les motions de base comme par exemple la colre ? Est-il possible de tous les obtenir de manire automatique ? comment les combiner ? y a-t-il des types indices mergents pour reconnatre les motions ? comment grer la grande variabilit dmotions/voix ? combien de classes dmotions peut-on discriminer ? les modles obtenus sont-ils gnralisables sur des donnes comparables ? Sur dautres types de donnes ? Et dans des langues diffrentes ? Travaillant dans le groupe traitement de la parole du LIMSI, dautres questions se posaient en arrire plan et des perspectives souvrent. Les donnes motionnelles affectent-t-elles les performances de reconnaissance de la parole. Pourrait-on envisager dans le long terme dajouter un module motion au systme de reconnaissance de la parole ?

-3-

Introduction gnrale

Plan de thse
Le manuscrit sera divis en 3 parties. La premire partie dressera un tat de lart la fois thorique et technique (chapitre 1) sur les motions. La deuxime partie rendra compte des difficults travailler sur des donnes spontanes : leur collection (chapitre 2), leur annotation (chapitre 3) et leur analyse (chapitre 4). Enfin, la dernire partie traitera de la modlisation des motions. Pour dtecter des motions dans des donnes spontanes, il faut combiner de nombreux indices de diffrentes natures, ce qui sera dtaill dans le chapitre 5. Les systmes de dtection, leur portabilit et leur universalit seront dcrits dans le chapitre 6. Nos conclusions et perspectives sont labores dans le chapitre 7.

tel-00624085, version 1 - 15 Sep 2011

-4-

Chapitre 1 Etat de lart


Rsum
Quappelle-t-on motion dans nos travaux ? Quelles sont les diffrentes thories sur les motions ? Existe-t-il un nombre fini dmotions discrtes ou est ce que ce que nous appelons motions discrtes sont en fait des zones dans des espaces plusieurs dimensions sans vritable frontire ? Dans ce chapitre, nous voquons dabord brivement le problme de la dfinition des motions et des diffrents tats affectifs, ainsi que lintrt de les tudier. Nous prsentons ensuite le modle de Brunswik adapt par Scherer qui modlise la communication verbale des motions. La question se pose alors de savoir si un humain peut juger efficacement de lmotion dun autre humain, ce qui est une hypothse des travaux sur la dtection dmotions. Nous dcrivons ensuite les principales thories sur la reprsentation des motions : une reprsentation sur des axes abstraits, la thorie dun nombre fini dmotions de base et la thorie dvaluation, en nous penchant plus particulirement sur celle de Klaus Scherer pour les motions vocales. Enfin, aprs une prsentation des diffrentes problmatiques rencontres lorsquon sintresse la dtection des motions dans la voix, nous donnerons un tat de lart de diffrentes tudes au commencement de ma thse et les dfis poss dans cette thse.

tel-00624085, version 1 - 15 Sep 2011

What is meant by emotion and what are the different theories about what an emotion is? Is the assumption that there are distinct discrete labels theoretically correct? In this chapter, we start by briefly tackling the issues of the definition of an emotion and the reasons for studying them. Once we have defined what we mean by emotion, the question arises whether a human (or a machine) can perceive accurately his own or other peoples emotion. In order to answer that, we present Scherers adaptation of Brunswik model, which models how emotions are conveyed and report of several perceptual tests. We then briefly describe the main theories on how to represent emotions: discrete labels, continuous dimensions and the appraisal theory. Finally we give several issues in relation to the study of vocal emotions as well as a brief state of the art.

-5-

1.1. 1.1.1.

THEORIE DES EMOTIONS ................................................................................................................ 7 DEFINITIONS ET FONCTION.................................................................................................................... 7

Qu'est ce qu'une motion ? ............................................................................................................................ 7 Vocabulaire des diffrents tats affectifs ....................................................................................................... 8 Pourquoi s'intresser aux motions ?............................................................................................................ 9 1.1.2. LES EMOTIONS DANS LES INTERACTIONS SOCIALES : LE MODELE DE BRUNSWIK, ENCODAGE ET

DECODAGE DES EMOTIONS ................................................................................................................................ 10

1.1.3.

LA REPRESENTATION DES EMOTIONS .................................................................................................. 14

Quatre courants thoriques sur les motions .............................................................................................. 14 Dimensions abstraites ................................................................................................................................. 14 Thorie des motions de base...................................................................................................................... 16 Les motions complexes............................................................................................................................... 19 Modle d'valuation (appraisal).................................................................................................................. 22 1.2. 1.2.1. 1.2.2. 1.2.3. 1.3. LA DETECTION DES EMOTIONS DANS LA VOIX..................................................................... 25 METHODOLOGIE POUR CONSTRUIRE UN SYSTEME DE DETECTION DES EMOTIONS ............................... 25 PERCEPTION DES EMOTIONS : LES PERFORMANCES HUMAINES ........................................................... 26 ETAT DE LART DES SYSTEMES DE DETECTION SUR LES EMOTIONS DANS LA VOIX .............................. 26 CONCLUSION DE LETAT DE LART ........................................................................................... 29

tel-00624085, version 1 - 15 Sep 2011

-6-

Chapitre 1 1BEtat de l'art

1. ETAT DE L'ART 1.1. Thorie des motions


Avant dentrer dans le vif du sujet, il est ncessaire de rappeler les principales problmatiques lies la dfinition des motions.

1.1.1. Dfinitions et fonction


tel-00624085, version 1 - 15 Sep 2011

Qu'est ce qu'une motion ?


Ds la priode classique de l'antiquit grecque, des philosophes tels que Platon et Aristote se sont intresss aux motions : Platon les considraient comme une perturbation de la raison, tandis qu'Aristote dclarait dans Rhtorique (livre 2 1378a20 1380a4),
"Jentends par tat affectif, lapptit, la colre, la crainte, laudace, lenvie, la joie, lamiti, la haine, le regret de ce qui a plu, la jalousie, la piti, bref toutes les inclinaisons accompagnes de plaisir ou de peine".

Les scientifiques n'arrivent pas s'accorder sur une rponse la question "Qu'est ce qu'une motion ? ", clbre titre de l'article de William James 1. Et comme le remarquent Fehr et Russel,
Everyone knows what an emotion is, until asked to give a definition. Then it seems, no one knows

[Fehr et Russell 1984]. Kleinginna & Kleinginna ont fait une liste des dfinitions existantes dans [Kleinginna et Kleinginna 1981] et ont tent d'en extraire des caractristiques communes. Devillers dresse un tat de lart de cette problmatique dans [Devillers 2006]. Une liste non exhaustive de dfinitions que jai pu rencontrer est donne en Annexe1. Les membres du rseau dexcellence humaine citent souvent Scherer [Scherer et al. 2004], qui dfinit lmotion comme :
Episodes of massive, synchronized recruitment of mental and somatic resources allowing to adapt or cope with a stimulus event subjectively appraised as being highly pertinent to the needs, goals and values of the individuals"

Pour James, les motions sont des ractions physiologiques : lorsqu'on est dans la fort et qu'un ours apparat, nos os tremblent cause de lours et on prouve de la peur parce qu'on sent nos os trembler (et non pas cause de l'ours).
1

-7-

Chapitre 1 1BEtat de l'art

Vocabulaire des diffrents tats affectifs


Le terme motion peut tre confondu ou oppos d'autres tats affectifs 1. Au niveau du rseau dexcellence humaine, on se rfre souvent aux dfinitions de Scherer [Scherer 2003], chaque tat tant dcrit en termes de diffrentes valuations comme par exemple valuation de lintensit ou de la dure. Le Tableau 1-1 rsume les principaux tats affectifs.
Rapidit du changement Focus sur un vnement

Impact sur le comportement Emotion ex : colre, joie, tristesse, peur Positions entre personnes (Interpersonal Stances) ex : distant, froid, mprisant, chaleureux Humeurs (Moods) Ex : joyeux, irritable, dprim, de bonne humeur Attitudes (attitudes) ex: amour, haine, amiti, dsir Dispositions affectives (Affect dispositions) ex : nerveux, anxieux, morose, hostile

Intensit

Brivet

Elicitation dvaluations

Synchronisation

++ +

++ + +

++ ++ +

++ + +

++ +

++

++

tel-00624085, version 1 - 15 Sep 2011

+ +

Tableau 1-1. Etats affectifs (adapt de [Scherer 2003]). Dans le cadre de ce travail et comme pour une majorit des tudes en affective computing (sciences affectives), le terme motion sera utilis au sens large et inclura tout tat affectif, notion sur laquelle les scientifiques saccordent 2.

Pour une discussion sur la diffrence entre les diffrents tats affectifs, on peut se reporter la discussion "How Are Emotions Distinguished from Moods, Temperament, and Other Related Affective Constructs" [Ekman et Davidson 1994] o diffrents auteurs donnent leurs dfinitions de termes tels que moods (humeur), emotion states/traits (tat motionnel ), episodes, sentiments, personality, dispositions, temperament. Une liste de termes est galement explicite par Cowie dans [Cowie 2007]. 2 Cowie dans [Cowie 2007] cite la dfinition de AlleyDog.com fancy way to say "feelings".
1

-8-

Chapitre 1 1BEtat de l'art

Pourquoi s'intresser aux motions ?


L'motion a un impact sur notre jugement 1 [Clore 1994] et notre raisonnement[Damasio 1994]. Elle influe galement sur l'attention, la motivation, la mmoire, la rsolution de problmes ou la prise de dcision. Lors de la runion plnire Humaine de 2007 2, Paul Ekman a dcrit un outil quil a mis en place afin de dterminer lmotion dune personne (peur, colre, ) par lobservation des units daction 3 du visage. Il rapportait que les gens amlioraient leur reconnaissance des motions, que cette amlioration perdurait plusieurs mois aprs lapprentissage et que certaines personnes avaient constat une amlioration de leurs relations avec les autres, suite cet apprentissage. R. Picard a fait des observations similaires, particulirement lors dtudes 4 avec des individus ayant du mal reconnatre les motions comme les autistes. Des expriences sur des simulateurs tel-00624085, version 1 - 15 Sep 2011 de voiture [Nass et al. 2005] ont mis en vidence le fait quune personne de bonne humeur ragissait mieux une voix de bonne humeur (moins daccidents). Par contre, une personne stresse allait mieux ragir une voix plus sobre et une voie joyeuse allait au contraire lirriter encore plus et augmenter le nombre daccidents. Dans toutes les tudes o on compare deux versions dun outil lune avec un module de traitement sur les tats affectifs, aussi basique soit-il, et un autre sans ce module, lutilisateur va systmatiquement prfrer la version affective et cela va souvent se rpercuter sur ses performances. De mme, dans le domaine de lducation, un tuteur virtuel qui adapterait sa stratgie ltat motif dun lve pourrait lui permettre de progresser plus rapidement et avec plus de plaisir. Au MIT galement, des tudes en cours 5 proposent lintgration des biosenseurs des produits du type ipod ou tlphone portable afin par exemple dadapter la musique de lipod lhumeur du sujet ou de prvenir les rechutes danciens toxicomanes en dtectant les signaux physiologiques de manque.

1 Clore cite une exprience de Martin [Martin 1986] o des sujets, aprs avoir effectu une tche qui induisait une rponse motionnelle, lisaient une description ambigu d'une personne et devaient ensuite juger cette personne. Martin a mis en vidence le fait que leur jugement tait biais par leur premire exprience affective. 2 http://emotion-research.net/ws/plenary-2007/ 3 Ekman et Friesen ont cod les modifications de lexpression du visage en FACS (Facial Action Coding System), une unit daction dcrivant leffet dun muscle sur un trait du visage. 4 http://affect.media.mit.edu/projects.php?id=1935 5 http://www.media.mit.edu/research/ResearchPubWeb.pl?ID=30

-9-

Chapitre 1 1BEtat de l'art

1.1.2. Les motions dans les interactions sociales : le modle de Brunswik, encodage et dcodage des motions
Notre recherche sappuie sur la base thorique du modle de perception de Brunswik, modle dvelopp pour ltude perceptive de la vision et appliqu diffrents types danalyse de jugement. Ce modle a t adapt par Klaus Scherer [Scherer et al. 2003] comme paradigme pour la recherche sur la communication vocale des motions. Scherer insiste sur la distinction entre l'expression (ou encodage) de l'motion par le locuteur, la transmission du son et le dcryptage par le receveur (dcodage). Dans son modle (voir Figure 1-1), les tats internes dun locuteur sexpriment par des modifications physiologiques (respiration, phonation, articulation) et sont encods par des indices tel-00624085, version 1 - 15 Sep 2011 mesurables par un observateur (indices acoustiques dans le cas de la voix) appels indices distaux dans le modle. Ces indices sont la fois dus des ractions involontaires ou "push effects" (effet des changements physiologiques caractrisant la rponse motionnelle sur la voix : tremblement de la voix par exemple) et une communication intentionnelle des tats interne ou "pull effects" (rgulation de la vocalisation pour des raisons stratgiques). Ils sont transmis jusqu loreille dun observateur et perus par le systme perceptif auditif. Lobservateur traite ces indices (nomms indices proximaux dans le modle) et les reprsente par des percepts qu'il utilise pour infrer l'tat du locuteur. La partie gauche du modle correspond l'encodage, la droite au dcodage.

Figure 1-1: le modle de Brunswik adapt par Scherer.

- 10 -

Chapitre 1 1BEtat de l'art Une illustration est donne dans [Scherer 2003] pour le cas de la frquence fondamentale du signal.
the fundamental frequency of a speech wave constitutes the distal characteristics that gives rise to the pattern of vibration along the basilar membrane, and, in turn, the pattern of excitation along the inner hair cells, the consequent excitation of the auditory neurons, and finally, its representation in the auditory cortex. Either phase in the input, transduction and coding process could be considered a proximal representation of the distal stimulus

Mme si les indices proximaux sont censs reflter les indices distaux, ils peuvent tre modifis ou dforms par la transmission du son (distance 13, bruit) et les caractristiques structurelles de lorgane perceptif (plus de dtails dans [Scherer 2003]). Nos travaux portent sur la partie dcodage du modle, nous utilisons les caractristiques de la voix pour infrer l'motion de l'metteur (exprime volontairement ou non). tel-00624085, version 1 - 15 Sep 2011 Comme le remarque Ortony dans [Ortony et al. 1988], de mme qu'il n'y a aucun moyen de prouver qu'une personne est en train de percevoir une couleur prcise, il n'y a pas de mesure objective connue pour tablir qu'une personne est en train d'prouver une motion spcifique. En pratique, une des mthodologies les plus utilises est le "self-report" d'une motion : on demande une personne par exemple de se remmorer un pisode motionnel ou on lui pose des questions aprs une exprience en lui demandant de dcrire les motions quelle a prouves. Cependant, mme en supposant quil soit possible de questionner le locuteur, comme le remarque [Cornelius 1996 p13] :
Studies of emotion employing self-report methodologies assume, of course that people are able and willing to tell researchers what the researchers wants to know about their emotion. This, it turns out is a somewhat dodgy assumption to make and is one that has occasioned a great deal of controversy

En effet, le temps peut avoir un impact sur les souvenirs ou la formulation mme de la question pourrait d'ailleurs biaiser sa rponse. La personne pourra galement amplifier ou inventer des motions afin de satisfaire l'exprimentateur [Schachter et Singer 1962] 14. Plutchik [Plutchik et Kellerman] donne d'ailleurs une liste de raisons pour lesquelles les reports verbaux ne dcrivent pas ncessairement l'tat motionnel (voir Tableau 1-2).

13 Si par exemple le receveur est situ physiquement loin de l'encodeur, il va devoir produire un signal plus intense, ce qui aura des rpercussions sur les indices acoustiques. 14 Dans les expriences de [Schachter et Singer 1962], des tudiants taient mis dans des conditions supposes induire de lexaltation (elation) et de la colre et devaient valuer leurs sentiments de "joie" et "colre" sur des chelles. Dans la condition "colre", les sujets se sont plus nots comme content que comme en colre . A la fin de l'exprience, il s'est avr que les sujets prouvaient plus de colre que de joie, mais avaient peur de le dire car on leur avait promis 2 points de plus leur examen final sils faisaient lexprience.

- 11 -

Chapitre 1 1BEtat de l'art

Un observateur peut assumer de manire errone qu'aucune motion nexiste car aucune n'a t reporte. La demande de rapport de l'motion immdiate de quelqu'un pose le problme que le processus d'observation peut modifier l'objet tudi 15. Les rapports verbaux peuvent tre des distorsions ou des vrits partielles pour des raisons conscientes ou inconscientes. 16 En gnral ils sont rtrospectifs et dpendent donc de la mmoire. Les souvenirs peuvent tre attnus, dforms ou rprims par exemple. On peut dlibrment tromper une autre personne. Les motions pures sont rarement exprimentes. Typiquement une situation va gnrer des motions complexes plus difficiles dcrire. Les rapports verbaux dpendent de l'histoire d'un individu et de sa facilit avec les mots. Lambigut inhrente du langage pose galement le problme du vritable sens du terme motionnel

Tableau 1-2. Des arguments contre le self report des motions (adapt de [Plutchik et Kellerman p4]). Mme en considrant le self-report comme valide, il n'est pas toujours possible de demander tel-00624085, version 1 - 15 Sep 2011 aux locuteurs de verbaliser leurs motions, surtout pour des donnes relles du type enregistrements de conversations tlphoniques. Des juges humains peuvent-ils reconnatre les motions, et en particulier partir du seul canal audio ? De nombreuses tudes ont tent de donner une preuve affirmative empirique travers des tches types o des acteurs ou professionnels expriment diffrentes motions que des juges/annotateurs essaient de reconnatre. Scherer [Scherer 1989] a pass en revue une trentaine de ces tudes qui s'accordaient sur des taux de discrimination plus de cinq fois suprieures aux taux du hasard. Mais ces tudes comprenaient de nombreux biais parmi lesquels le nombre restreint d'motions prises en compte, avec souvent peu d'motions positives et un manque de variabilit dans l'expression de ces motions. Banse et Scherer ont essay de traiter ce problme [Banse et Scherer 1996] en utilisant un large ensemble de stimuli avec 14 motions, parfois de mme classe du type colre chaude, colre froide, honte, exprimes par 12 professionnels et ont obtenu un taux de reconnaissance de 48%. Le taux variait selon l'motion reconnatre avec certaines expressions comme la colre chaude et l'ennui trs bien reconnus alors que d'autres comme la honte taient trs mal reconnues malgr un profil acoustique distinct. Il est galement important de diffrencier des catgories de juges ou annotateurs, ce qui est rarement fait de faon claire dans la majorit des tudes en dtection des motions. Nous nous

Lorsquon dit par exemple Je ne suis pas en colre Dans une tude sur des passagers ariens reportant des bagages perdus, [Scherer et Ceschi] dcrivent comment certains passagers vont consciemment ou non dcrire leurs sentiments diffremment de leur vritable exprience, soit pour projeter une image stoque en essayant dapparatre impavide aprs la perte de leur bagage, soit au contraire en exagrant leur irritation afin de produire le comportement strotyp normalement attendu.
15 16

- 12 -

Chapitre 1 1BEtat de l'art rfrons aux catgories dfinies en ISO standard 8566-2 pour dfinir les juges nafs et experts [Soren et Zacharov 2006]. Un juge naf est instruit de la procdure suivre mais nest pas entran pour la faire. La dnomination dexpert selon cette norme ncessite un apprentissage des juges, une valuation de leur potentiel et une slection des juges. Kappas et al. [Kappas et al. 1991] soulignent galement les diffrences de perception suivant que l'annotateur connat ou non le locuteur. Une personne peut avoir naturellement une voix trs tendue ou aigue qui entranerait une mauvaise perception de son tat motionnel. Dans une tude sur des donnes naturelles dinteractions dans un aroport international entre des passagers dont les valises ont t perdues et les agents dun aroport, [Scherer et Ceschi 2000] ont compar lauto-annotation des tats motionnels des passagers (5 classes : Colre/Irritation, Inquitude/Stress, Bonne humeur , Rsignation/Tristesse, Indiffrence), leur annotation par les agents avec qui ils ont interagi et celle par des juges (tudiants en psychologie) disposant de la tel-00624085, version 1 - 15 Sep 2011 vido et de laudio. Ils ont trouv peu de corrlations entre le self report et lannotation par les agents et juges. Les classes Bonne humeur et Inquitude/Stress taient bien corrles, Rsignation/Tristesse et Indiffrence taient corrles au niveau du hasard. Mme en admettant que les passagers aient t honntes dans le rapport de leur tat interne, ils ont pu contrler leur comportement et paroles lors de linteraction avec lagent pour masquer leur colre et au contraire dlibrment non contrler leur stress afin de susciter de lempathie. Leur conclusion finale est que malgr la difficult de la tche, il est possible dtudier des phnomnes motionnels dans des conditions ralistes sur le terrain . Hess sest intress leffet auditoire et avance que les expressions motionnelles pouvait tre comprises comme des communications dintentions, modules par la prsence des autres et indpendantes de ltat motionnel concomitant [Hess 2006]. Elle cite les travaux de Fridlund [Fridlund 1991] qui a montr que laffichage des expressions faciales ngatives et positives subit une augmentation en prsence dun public rel ou imagin.

- 13 -

Chapitre 1 1BEtat de l'art

1.1.3. La reprsentation des motions

Quatre courants thoriques sur les motions


Il existe quatre courants thoriques principaux en recherche motionnelle, largement documents et rsums dans le tableau suivant traduit de [Cornelius 1996], dont vont dcouler les diffrentes reprsentations.
Tradition Darwinienne Jamesienne Cognitive Ide principale Les motions ont des fonctions adaptatives qui sont universelles Emotion=rponse physiologique Les motions rsultent dun processus dvaluations (appraisals) Les motions sont le produit de constructions sociales Rfrence [Darwin 1872] [James 1884] [Arnold 1960] [Averill 1980] Recherche plus contemporaine [Ekman et Fridlung 1987] [Levenson et al. 1990] [Smith et Lazarus 1993] [Smith et Kleinman 1989]

tel-00624085, version 1 - 15 Sep 2011

Constructivisme social

Tableau 1-3. Quatre thories des motions en psychologie (d'aprs [Cornelius 1996] p12).

Dimensions abstraites
En 1957, le psychologue amricain Osgood [Osgood et al. 1957], dans le but de dcrire l'espace smantique, a utilis le Roget's International Thesaurus pour aider la construction dune cinquantaine dchelles bi-polaires fondes sur des opposs smantiques tels que "good-bad", "large-small", "beautiful-ugly", "hard-soft", "sweet-sour", "strong-weak" etc. Le rsultat des recherches dOsgood sur lespace smantique est lexistence de 3 dimensions universelles mesurables sous-jacentes aux dimensions motionnelles : Evaluation (pleasant to unpleasant), Potency (in control to out of control) et Activity (calm to excited) aussi appeles EPA. Depuis lors, de nombreuses tudes internationales ont valid la ralit de cet espace smantique et sa validit inter culturelle. Selon Osgood, les dimensions sont adaptes aux tudes inter cultures parce qu'il est difficile de traduire les tiquettes motions quand on passe d'un langage un autre (certaines motions existent d'ailleurs dans certains langages et pas dans d'autres 17).

Wierzbiecka cite par exemple le mot russe toska (mlancolie tourment, angoisse), zalet ( to lovingly pity someone ) ou le concept Ifaluk fago (qui peut signifier simultanment tristesse/compassion/amour) [Wierzbicka 1999 p8] ou le mot allemand Schadenfreude (joie provoque par le malheur dautrui).
17

- 14 -

Chapitre 1 1BEtat de l'art Le philosophe Spinoza a t probablement le premier dcrire les motions partir de 3 dimensions au dix-huitime sicle. Les motions peuvent tre plaisantes ou non plaisantes, fortes ou faibles et plus ou moins persistantes. Pour Wundt, les 3 axes plaisir/non plaisir, stress/relaxation, excitation/calme suffisent placer de manire distincte tous les tats motionnels [Wundt 1896]. Schlosberg a propos le modle "circumplex" avec toutes les motions places sur la circonfrence d'un cercle [Schlosberg 1941]. L'activation juge l'nergie avec une gradation allant de passif actif. La valence va du dplaisir au plaisir. Ce modle a eu une grande influence, bien qu'il ait t critiqu ([Lazarus 1991], [Larsen et al. 1992]) parce qu'il ne permettait pas de faire la diffrence entre certaines motions : par exemple, la peur et la colre sont toutes les deux dplaisantes et trs actives. De nombreuses tudes ont t ralises depuis, le plus souvent avec deux axes ([Cowie et al. 2000], [Cacioppo et al. 2000], [Lang et al. 1997], [Carver 2001]) ou trois axes ([Russell et Mehrabian 1977], [Osgood et al. 1957], [Smith et tel-00624085, version 1 - 15 Sep 2011 Ellsworth 1985]). Les dimensions les plus frquemment introduites [Ortony et al. 1988 p6] sont l'arousal et la valence (l'arousal pouvant tre vue comme l'Activation d'Osgood, et la valence, comme un mlange de Potency et Activity). Une troisime dimension est le contrle qui value l'aptitude d'un individu grer une situation. Une autre dimension est l'intensit de l'motion. La consistance des quatre dimensions valence , potency , activation et unpredictability a t prouve pour le hollandais, le franais, langlais et le chinois[Roesch et al. 2006]. Bernston a indiqu, lors de lcole dt de HUMAINE en 2006, que pour le moment, les dimensions ntaient pas suffisantes lorsquon cherche reprsenter les motions pour des situations du type Je viens de gagner 2 dollars, mais jaurai pu en gagner 10 o la personne ressent la fois de la joie et de la dception. Il n'y a pas de contradictions entre les dimensions et des tiquettes discrtes [Ekman et Davidson 1994]. Ces deux reprsentations s'emploient dans des buts diffrents. Albrecht et al. remarquent d'ailleurs qu'il est possible de faire un mapping entre une catgorie d'motion et l'espace dimensionnel[Albrecht et al. 2005]. Le contraire n'est pas possible. Aucun ensemble de dimensions ne permet cependant de capturer de manire adquate les diffrences entre les motions discrtes.

- 15 -

Chapitre 1 1BEtat de l'art

Thorie des motions de base


Selon cette thorie, les motions ne sont pas fondamentalement similaires et simplement diffrentiables par une position sur diffrents axes, mais il existe un nombre fini d'motions de base ou motions primaires, chacune correspondant un pattern/prototype bien dfini (expressions comportementale, manifestations physiologique 18, antcdents ) et dcoulant la base d'une fonction vitale 19. Selon plusieurs de ces thories [Lazarus 1991], les motions de base ont volu de manire s'adapter certaines difficults caractristiques de la vie comme la concurrence (colre), le danger (peur), la perte (tristesse). Ekman 20 [Ekman 1992] donne neuf caractristiques permettant de distinguer les motions de base (voir Tableau 1-4). Il a prouv, par des tudes sur les expressions du visage le caractre universel de six de ces motions (Colre, Peur, Tristesse, Dgot, Joie, tel-00624085, version 1 - 15 Sep 2011 Surprise).
elles sont universelles (expriences sur les expressions du visage reconnues par diffrentes populations) elles existent chez d'autres primates et animaux 21 elles s'appuient sur un contexte physiologique spcifique elles se manifestent dans des contextes semblables. Il donne lexemple de la perte dun proche, qui est souvent lantcdent de la tristesse. il y a congruence/cohrence entre l'exprience motionnelle et son expression le dclenchement est rapide la dure est brve il y a un mcanisme dvaluation qui peut tre automatique elles peuvent se manifester de manire inopportune. Parce que leur dclenchement est rapide, il nest pas toujours possible de les inhiber.

Tableau 1-4. Les neuf caractristiques des motions de base selon [Ekman 1992]. Ces motions de base caractrisent des familles dmotions [Ortony et al. 1988] avec des variations d'intensit l'intrieur d'une mme famille. Brenner [Brenner 1980] en donne un exemple pour la peur:

Plusieurs tudes ont prouv des "patterns" (patrons) distinctifs dans l'activit systme nerveux autonome (ANS) pour la colre, la peur et le dgot [Levenson et al. 1991] 19 Pour Averill [Averill 1994] une motion sera vitale pour la survie d'une espce (point de vue biologique), d'une socit (critre social) ou de soi-mme (critre psychologique). Par consquent, elles sont universelles, observables chez certains primates et hrditaires. 20 La majorit des travaux de modlisation des motions du visage sont bass sur les motions de base dfinies par Ekman. 21[Hebb 1972] cit par [Plutchik 1984 p6] : "The dog is definitely capable of jealousy and occasionally, in some dogs, there are signs of sulking. In the chimpanzee, however, we have the full picture of human anger in its three main forms : anger, sulking, and the temper tantrum"
18

- 16 -

Chapitre 1 1BEtat de l'art

"[A]nxiety is unpleasure accompanied by an expectation that something bad is going to happen [] Under the broad heading of anxiety, however, different terms are often used to indicate variations both in the intensity of the unpleasure that an anxious person experiences and in the nature of the conscious and unconscious ideas associated with it. If the danger is perceived to be acute or imminent, we are likely to label the affect "fear". If the unpleasure is intense we use the word "panic". If the unpleasure is mild and the danger is slight, uncertain, or distant, we may well speak of worry or uneasiness."

Pour Brenner, pour dfinir les affects et les diffrencier, il suffit souvent de (a) spcifier si laffect correspond une exprience de plaisir ou de dplaisir et donner son intensit et (b) faire un lien avec lide qui lui est associe.
Anger L: a demeaning offence against me and mine S: something interferes with the persons attainment of certain goals; a person perceives something as harming him in some way; the angry person makes the perception that the harm is illegitimate, situation is contrary to what ought to be L: facing uncertain, existential threat B: unpleasure accompanied by an expectation that something unpleasurable is going to happen L: an immediate, concrete and overwhelming physical danger S: interpretation of events as potentially dangerous or threatening to self L: having transgressed a moral imperative L: failing to live up to an ego ideal L: having experienced an irrevocable loss B: unpleasure connected with ideas that something bad already happened. [Parrott et Harr 1996]: Expression of the judgement that other people will think that something about us or something we have done is improper in the context. In displaying embarrassment we express a kind of apology for the real or imagined fault L: wanting what someone else has L: resenting a third party for the loss of, or a threat to, anothers affection or favour L: taking in or being too close to an indigestible object or (metaphorically speaking) idea L: making reasonable progress toward the realisation of a goal B: feeling of pleasure in connection with an experience or fantasy of instinctual gratification L: enhancement of one's ego-identity by taking credit for a valued object or achievement, either one's own or that of someone or group with whom one identifies L: a distressing goal-incongruent condition that has changed for the better or gone away L: fearing the worst but wanting better L: desiring or participating in affection, usually but not necessarily reciprocated L: being moved by another's suffering and wanting to help

tel-00624085, version 1 - 15 Sep 2011

Anxiety Fright Fear Guilt Shame Sadness Embarrassment Envy Jealousy Disgust Happiness Pride Relief Hope Love Compassion

Tableau 1-5. Emotions & their core relational theme (d'aprs L : [Lazarus 1998] ,B : [Brenner p345] S :Shaver et al).

- 17 -

Chapitre 1 1BEtat de l'art Lensemble minimal dmotions primaires varie suivant les chercheurs (voir Tableau 1-6 inspir de Ortony). Cependant, les motions joie, peur, colre, tristesse, dgot et surprise se retrouvent dans une majorit des tudes 22. Dsir Dsespoir Haine Amour Espoir Intrt Mpris Culpabilit Honte Rage Terreur Anxit Chagrin (grief) Emerveillement Bonheur Confiance Apathie Peine (sorrow) Dtresse
+ + + + + + + + + + + + + + + + + + + + + + + + + + + +

Darwin Arnold (1960) Izard (1971) Plutchik (1980) Tomkins (1980) Ekman, Friesen & Ellsworth (1982) Gray (1982) James (1884) Oatley & Johnson Laird (1984) Frijda (1986)

+ + + + + + + + + + + + + + + +

+ + + + + + + + + + + + + + + + +

tel-00624085, version 1 - 15 Sep 2011

+ + + + + + +

Tableau 1-6. Les motions de base, d'aprs [Ortony et Turner 1990].

Dans une tude [Fehr et Russell 1984], ralise auprs de 200 personne qui il tait demand de lister en une minute un maximum ditems de la catgorie EMOTION, les motions cites par plus de 40% des sujets taient Bonheur , Colre , Tristesse , Amour , Peur , Haine et Joie
22

Dcouragement

Joie Tristesse Dgot Peur Colre Surprise Aversion Courage

- 18 -

Chapitre 1 1BEtat de l'art

Les motions complexes


Dans la vie relle, les motions pures ne sont pas frquentes. Quel est le lien entre les motions de base et toutes les autres motions ? La plupart des thories ont une approche combinatoire. Plutchik parle de "mixed states", de "dyads" ou de "triads" d'motions primaires [Plutchik 1962]. De mme Averill parle de "compounds", motions composes de plusieurs motions primaires[Averill 1975]. Les manires dont les motions primaires se mlangent sont varies : pour Ekman et Plutchik, les deux motions de bases sont observables dans le mlange 23. Ekman suggre cependant que les mlanges peuvent reflter une squence trs rapide de deux motions de base. Pour Averill seule la rsultante du mlange est observable 24. Izard [Izard 1972] a dfini des "patterns" d'motions comme au moins deux motions fondamentales exprimes simultanment ou trs rapidement lune aprs lautre. tel-00624085, version 1 - 15 Sep 2011
"Discrete emotions retain their essential genotypical characteristics when they occur in patterns"

[Izard

1972 p24] Pour lui par exemple l'anxit est un mlange de Peur avec une autre motion discrte. Averill [Averill] dcrit les motions conflictuelles ("conflictive motions") :
"Conflictive emotions are [] like conversion reactions in the Freudian sense []. In the case of a conversion reaction, the individual wishes to engage in some behavior that conflicts with personal norms or standards [] [S]tandard conflictive emotions can be viewed as conversion-like phenomena on a socialcultural as opposed to an individual level of analysis"

Brenner [Brenner 1980] sur les mixed affects :


"[T]here are also affects characterized by a mixture of feelings of pleasure and unpleasure as well as by ideas that include various combinations of good and bad expectations. Such affects are rather the rule than the exception."

23 24

Ortony dans [Ortony et al. 1988] donne l'image d'un mlange de sucre et de sel, les 2 gots tant alors perceptibles. De mme que ni l'oxygne, ni l'hydrogne ne sont observables dans l'eau [Ortony et al. 1988].

- 19 -

Chapitre 1 1BEtat de l'art

Reprsentation des motions de base et des motions complexes avec le modle de Plutchik
Plutchik a cherch comment reprsenter lensemble des motions. Pour lui [Plutchik 1984], il existe un ensemble d'motions de base. Il en identifie huit prototypiques : peur/terreur, colre/rage, tristesse/chagrin (grief), acceptation/confiance, dgout/rpugnance (loathing), espoir/anticipation et surprise/tonnement (astonishment). Afin de tenir compte de toutes les tiquettes motionnelles, il lui a fallu trouver un moyen d'organiser les motions les unes par rapport aux autres. Tout d'abord, les motions varient en intensit, ensuite certaines motions sont plus proches que d'autres. Par exemple, la honte et la culpabilit sont plus proches l'une de l'autre que le dgot et la joie. Enfin, il voit galement des polarits dans les motions avec des motions opposes comme joie/tristesse. Plutchik [Plutchik 1984 p200] utilise la mtaphore tel-00624085, version 1 - 15 Sep 2011 d'une palette de couleurs pour faire une distinction entre des motions fondamentales ou primaires et d'autres drives ou secondaires : partir dune base de trois couleurs primaires et des variations dintensit, toutes les couleurs observables dans la nature peuvent tre reprsentes ; le mme principe peut sappliquer aux motions. Il modlise les relations entre les huit motions de base par un "solide motion" reprsent Figure 1-2.

Figure 1-2. "Solide motion" de Plutchik. (de [Plutchik 1984]). - 20 -

Chapitre 1 1BEtat de l'art Les motions les moins intenses sont en bas du solide. Elles deviennent de plus en plus intenses et de plus en plus diffrencies quand on va vers le haut. Chaque "tranche" reprsente une motion de base. Les motions complexes se situent au niveau des frontires entre deux tranches. Par exemple, lamour est un mlange dacceptation et de srnit.

Une tude sur les mlanges dmotions dans des donnes relles : Lost luggage
Malgr les nombreuses thories sur les mlanges dmotions, peu dtudes ont t ralises sur le sujet. Scherer a cherch des mthodes pour les tudier travers 3 tches [Scherer 1998]. En particulier, il a film et enregistr 112 passagers rapportant la perte de leurs bagages dans un aroport international, puis les a interviews en leur demandant dvaluer leur tat affectif, avant tel-00624085, version 1 - 15 Sep 2011 et aprs lentretien avec lagent de laroport, sur une chelle de 1 5 pour les catgories dmotion Colre/Irrit=Colre, Rsign/Triste=Rsignation, Indiffrent, Worry/Stress=Worry et de bonne humeur. Il a dabord essay de regrouper les diffrents mlanges en cluster, mais le nombre de classes obtenues tait trop important pour pouvoir tre analys. Il a alors regroup les classes indiffrent et de bonne humeur en une classe good spirit et a ensuite divis les rsultats en tat motionnel dominant lorsquune motion tait ressentie avec plus dintensit que les autres et blend Colre/Worry, Rsignation/Worry, Colre/Rsignation sinon. Il a analys lvolution des blends au cours de linteraction, mais sa conclusion gnrale tait que les rponses motionnelles indiques par les passagers taient trop riches et complexes pour pouvoir tre tudies.

- 21 -

Chapitre 1 1BEtat de l'art

Modle d'valuation (appraisal)


Le mot "appraisal" a t employ pour la premire fois 25 par Magda Arnold [Arnold 1960]. Elle soutenait que l'on value en permanence l'impact des changements de notre environnement sur notre bien-tre et que de ces valuations jouent un rle dans l'apparition et la diffrentiation des motions. Pour elle, l'motion nat quand un vnement est jug comme nuisible ou bnfique et des motions diffrentes apparaissent parce que des vnements sont jugs de diffrentes manires. Diffrentes thories existent quant aux dimensions d'valuations les plus importantes. Lazarus a pass en revue les plus importantes 26 [Lazarus 1998 p358]. Parmi les dimensions sur lesquels nombreux chercheurs s'accordent, on trouve tel-00624085, version 1 - 15 Sep 2011 une composante motivationnelle : pour prouver une motion, il faut avoir un but. La valence de l'motion qui dpend souvent des conditions favorables ou non la ralisation du but une dimension relie la responsabilit de soi et des autres : le fait qu'un tort ou un bnfice nous soit attribu conduit a des sentiments de fiert, honte ou culpabilit alors que la responsabilit en bien ou mal des autres conduit des sentiments de colre par exemple. Une seule valuation ne peut pas justifier un tat motionnel. Par exemple pour la colre :
"Not only does the subject have to feel thwarted, his/her self esteem has to have been demeaned, responsibility has to have been attributed, and the responsible person has to have been presumed in control of his/her actions" [Lazarus 1998 p358]

Le premier thoricien cognitiviste des motions est en fait Aristote qui, de manire tonnement moderne, dfinit entre autres la colre dans Rhtorique (Rethorique II 1378a), comme "un dsir de vengeance accompagn dune peine provoque par ce qui semble un ddain injuste [] Pour la colre par exemple, en quel habitus y est-on port ; contre quelles personnes se met on habituellement en colre et quels sujets" 26 Thories de Frijda, Lazarus, Reisenzein, Roseman, Scherer, Smith & Ellsworth
25

- 22 -

Chapitre 1 1BEtat de l'art Le modle des processus-composantes de Scherer pour les motions vocales Dans le cas des motions vocales, le modle de rfrence est celui de Scherer [Scherer et al. 2003]. Selon Scherer, les motions vocales, de par leur aspect dynamique et changeant imposent de s'loigner de la conception statique et fige des motions (motions de base), en prenant en compte le contexte. Son modle stipule que la raction motionnelle est le rsultat d'une squence de processus d'valuations de l'vnement inducteur de l'motion (voir Tableau 1-7). Cette squence dvaluations, dnomme squence de traitement de la stimulation (stimulus evaluation checks ou SEC) dans le modle de Scherer est rcursive et se fait en boucle. Squence de traitement de la stimulation
Nouveaut Soudainet Familiarit Prvisibilit Quelle lest importance de lvnement ? Est il connu ou au contraire nouveau ? Agrment intrinsque Rapports aux buts Pertinence Degr de certitude de la prdiction des consquences Attente Opportunit Urgence Causalit : interne Causalit : externe Contrle Puissance Ajustement Standards externes Standards internes

tel-00624085, version 1 - 15 Sep 2011

L'vnement va-t-il l'encontre de mes buts ou au contraire les favorise-t-il ?

Potentiel de maitrise

Est ce que l'individu peut matriser la situation ?

Accord avec les standards La raction sera diffrente suivant que l'vnement sera jug comme moral ou non.

Tableau 1-7. Critres dvaluation des squences de traitement dans le modle de Scherer (extrait de [Scherer et Sangsue 2006 p20]) .

Les "tiquettes de bases" peuvent tre dtailles/explicites par ce processus d'valuation. Par exemple une situation peu contrlable va entraner une raction motionnelle du type peur. Scherer [Scherer 1986] a tudi des rpercussions physiologiques, de qualit vocale et sur certains paramtres acoustiques (F0, formants) de la voix des rsultats de ces valuations qui sont - 23 -

Chapitre 1 1BEtat de l'art dtailles dans le Tableau 1-8. Il diffrencie notamment la colre froide de la colre chaude. En outre, il observe que plusieurs manifestations de la mme "motion de base" rsultent en fait d'valuations trs diffrentes ce qui conduit des manifestations trs varies, et s'oppose l'ide que chaque motion fondamentale correspondrait un pattern bien dfini. Il donne en exemple une tude de Frick [Frick 1986] sur deux types de colre, une lie la frustration et l'autre l'agression qui se manifestent diffremment sur le plan acoustique et sont diffrentiables perceptivement.
Criterion Relevance Novelty Suddenness Familiarity Predictability Intrinsic pleasantness Goal/need relevance Implication Cause : agent Cause : motive Outcome probability Discrepancy from expectation Conclusivenes Urgency Coping potential Control Power Adjustment Normative significance Internal Standards External Standards Criterion Relevance Novelty Suddenness Familiarity Predictability Intrinsic pleasantness Implication Cause : agent Cause : motive Outcome probability Discrepancy from expectation Conclusivenes Urgency Coping potential Control Power Adjustment Normative significance Internal Standards External Standards
ENJ/HAP Low Open Medium High Medium Open Intent Very high Consonant Conducive Very low Open Open High open Open FEAR ELA/JOY High/med Open Low Open High Open Cha/int Very high Open Vcon Low Open Open Medium Open Open IRR/COA DISP/DISG Open Low Low Very low Low Open Open Very high Open Open Medium Open Open Open Open Open RAG/HOA CON/SCO Open Open Open Open Low Other Intent High Open Open Low High Low High Very low Very low BOR/IND SAD/DEJ Low Low Open Open High Open Cha/neg Very high Open Obstruct Low Very low Very low Medium Open Open SHAME DESPAIR High Very low Low Open High Oth/nat Cha/neg Very high Dissonant Obstruct High Very low Very low Very low Open Open GUILT ANX/WOR Low Open Open Open Medium Oth/nat Open Medium Open Obstruct Medium Open Low Medium Open Open PRIDE

tel-00624085, version 1 - 15 Sep 2011

High Low Low Low Oth/nat Open High Dissonant Obstruct Very high Open Very low Low Open Open

Low Open Medium Open Open Int/neg Very high Open Obstruct Medium High Medium High Open Low

High Low Low Open Other Intent Very high Dissonant Obstruct High High High High Open Low

Very low High Very high Open Open Open Very high Consonant Open Low Medium Medium High Open Open

Low Open Open Open Self Int/neg Very high Open Open High Open Open Medium Very low Open

Open Open Open Open Self Intent Very high Open High Medium Open Open Medium Very low Very low

Open Open Open Open Self Intent Very high Open High Low Open Open High Very high High

Tableau 1-8. Les valuations prdites pour les motions les plus tudies. ENJ/HAP, contentement/bonheur; ELA/JOY, joie; DISP/DISG, dplaisir/dgout ;CON/SCO, mpris; SAD/DEJ, tristesse/abattement; IRR/COA, irritation/colre froide; RAG/HOA, rage/colre chaude; BOR/IND, ennui/indiffrence; de[Sander et al. 2005 p. 326].

- 24 -

Chapitre 1 1BEtat de l'art

1.2. La dtection des motions dans la voix


1.2.1. Mthodologie pour construire un systme de dtection des motions
La mthodologie pour classifier les motions est illustre dans la Figure 1-3 et chaque tape sera dtaille dans les diffrents chapitres de la thse. (a) Choisir un corpus de donnes (voir chapitre 2). On peut demander des acteurs de jouer des motions particulires, construire des systmes pour induire des motions ou utiliser des donnes plus ou moins naturelles et spontanes. (b) Etiquetage de ces donnes : si les donnes sont actes, il est ncessaire de vrifier que tel-00624085, version 1 - 15 Sep 2011 lmotion a t bien joue ; si au contraire on travaille sur des donnes plus naturelles, il faut mettre en place un protocole pour annoter les donnes. Lunit dannotation pourra aller du mot au tour de parole et plusieurs stratgies drives des diffrents modles dmotions seront dcrites. A la fin de cette tape, on slectionne un sous corpus de donnes tiquetes pour entraner des modles computationnels. (c) Extraction dindices : elle peut se faire diffrents niveaux (partie voise, mot, au tour de parole, intervalle rgulier ou non,). Une multitude dindices peuvent tre extraits au niveau local ou global, le plus souvent linguistiques et paralinguistiques, mais pouvant galement inclure des indices contextuels, des actes de dialogue (d) Classification : elle suit souvent une phase de slection des meilleurs attributs. De nombreux algorithmes peuvent tre utiliss ou mlangs.

Figure 1-3. Mthodologie pour construire un systme de dtection des motions. - 25 -

Chapitre 1 1BEtat de l'art

1.2.2. Perception des motions : Les performances humaines


Daprs plusieurs tudes, parmi lesquelles celles de Scherer [Scherer 1986], pour la dtection automatique des motions, il faut viser des taux de reconnaissance de lordre de ceux des humains. Scherer a valu les performances humaines pour la reconnaissance de 6 motions (Colre, Peur, Joie, Tristesse, Dgot, Etat Neutre) dans la voix et le visage en sappuyant sur un ensemble dtudes comparables ralises avec des acteurs [Scherer 2003]. Les taux globaux de reconnaissance pour la voix se situent entre 55% et 65% avec de grandes variations suivant les motions tudies, la colre et la tristesse tant les mieux reconnues avec des scores compris entre 70 et 80%, puis la peur et la joie autour de 60% et enfin le dgot 31%. De mme Lee et al. arrivent un taux de reconnaissance de 68.7% avec 4 juges ayant distinguer 4 motions tel-00624085, version 1 - 15 Sep 2011 joues par des acteurs professionnels : Colre, Joie, Etat Neutre, Tristesse et constatent principalement des confusions Colre/Joie et Neutre/Tristesse [Lee et al. 2004] ; Petrushin constate 63.5% daccord entre 23 observateurs naifs pour les 5 tats Normal, Joie, Colre, Tristesse, Peur avec moins de variations pour la peur et la colre [Petrushin 1999]. Oudeyer [Oudeyer 2003] cite deux expriences o des japonais et des amricains devaient reconnatre les motions dans des stimuli sans information smantique prononcs par des locuteurs des deux langues. Il avait peu de diffrences de performances entre les 2 langues, mais les scores de reconnaissance taient de lordre de 60%. Il souligne lui aussi le fait quon ne peut sattendre une reconnaissance parfaite des motions, mais quil est ralisable de viser des performances de lordre des performances humaines.

1.2.3. Etat de lart des systmes de dtection sur les motions dans la voix
Quel est ltat de lart actuel des systmes de dtections des motions ? A cause de la difficult de la tche de catgorisation et dannotation et souvent le manque de donnes, la plupart des tudes se sont focalises sur un ensemble minimal dmotions comprenant des motions : positives et ngatives [Lee et al. 2001] ou motion vs. tat neutre [Batliner et al. 2003]. Certains autres chercheurs considrent des comportements ou attitudes dpendantes de la tche ; stress vs. non stress [Petrushin 1999], [Narayanan 2002], [Fernandez et Picard 2003]; frustration/colre vs. neutre/amus [Ang et al. 2002], ou colrique, maternel, emphatique et un tat neutre [Steidl et al. 2005]. - 26 -

Chapitre 1 1BEtat de l'art Dans la communaut scientifique, les modles les plus souvent utiliss pour la dtection des motions sont les SVM (Support Vector Machine dtaills p.127), les GMMs (Mlange de Gaussiennes), les kNN (K plus proches voisins), les arbres de dcision. Les rsultats obtenus entre ces diffrents classificateurs sont souvent comparables [Batliner et al. 2006] et il ny a pas de consensus sur le choix dun algorithme prcis ou sur les meilleurs paramtres. Ceux ci semblent en effet tre dpendants des donnes. Plusieurs tudes rapportant les expriences de dtection automatique sont listes dans le Tableau 1-9. Elles donnent une ide (non exhaustive) des tendances actuelles. Extrmement peu dtudes sont menes avec des donnes issues de corpus enregistrs dans des contextes rels. La majorit des travaux sur la dtection dmotion de base porte sur des donnes joues par des acteurs (peu de locuteurs, nombre dchantillons restreint, peu de variabilit, donnes prototypiques). Sur un ensemble de plus 100 tudes, Juslin et al. en rpertorient 87% sur des tel-00624085, version 1 - 15 Sep 2011 donnes actes[Juslin et Laukka 2003]. Pour faire des systmes utilisables il faut pourtant travailler sur des donnes naturelles en situation (contexte). Il est important de noter que les performances sont difficilement comparables car elles varient par exemple en fonction : Du type de donnes (motions en gnral plus prototypiques pour les donnes actes do de meilleures performances. Cf. p33) De lunit utilise pour les annotations [Batliner et al. 2007]. Du choix des tours slectionns pour entraner et tester les modles. Batliner donne lexemple dun vote majoritaire avec 5 annotateurs. On peut choisir de garder les segments/mots/tours pour lesquelles 3 annotateurs sur 5 sont daccord, ou ceux pour lesquels 4 sur 5 sont daccords et les performances seront suprieures dans le deuxime cas de figure. De la manire dont les paramtres sont obtenus. Corriger manuellement la F0 par exemple donne de meilleurs rsultats. Nous dcrirons dailleurs dans le chapitre 6 p151 un protocole pour nommer et dcrire les paramtres qui permet de mieux les comparer et den avoir une description plus transparente. Juslin et Laukka [Juslin et Laukka 2003] proposent dutiliser un score prenant en compte le nombre de classes et les biais lis au jugement du dcodeur.

- 27 -

Chapitre 1 1BEtat de l'art

Rfrence Auteur [Dellaert et al. 1996] [Petrushin 1999]

Style de corpus Acteurs Acteurs Acteurs (non professionnels) Acteurs Parole lue WOZ Vermobil DHM Communicator DHM Callcenters (real-life) Speech-Works DHM AT&T How May I Help You DHH Machine-Mediated DHM AIBO

Taille du Corpus 1000 Tours (5 acteurs) 700 Tours 56 appels (15 - 90s) 96 Tours (E) 50 Tours(E), 50 (NE). 2395 Tours (20 dial.) 21kTours (~3500 Tours Emotion) 1187 appels 7200 Tours

Etiquettes Emotions Joie, Peur, Colre, Neutre Colre, Tristesse, Peur, joie, neutre Calme, Agitation Emotion (E), Non motion (NE) Frustration, Agacement, Autre Ngatif, Non Ngatif

Type de paramtres Prosodiques (Pitch contour) Prosodiques Spectraux (F1, F2, F3) Prosodiques Spectraux Part-of-speech Dialogiques Prosodiques Langage Prosodiques Lexicaux Pros + Lex Spectral (MFCC) F0 Lexical Prosodiques Lexicaux Dialogiques Prosodiques Part-of-speech

Algorithme Modle MLB, KR, kNN NNs

Taux de Dtection 60-65% (act, 4 classes) 70% (act, 5 classes) 77% (act, 2 classes) 95% (act, 2 classes)

tel-00624085, version 1 - 15 Sep 2011

[Batliner et al. 2003]

NNs CART (Arbre de dcision) 3-gram LDC HMM SVM AdaBoost NNs

79% (lu, 2 classes) 73% (Woz, 2 classes) 75% (DHM, 2 classes) 60-65% (DHM, 2 classes) 80% . 88% (DHM, 2 classes) 93,5% . 76 % (DHM, 2 classes) 81 % (DHM, 2 classes) 84% (DHH-M, 3 classes) 60% (DHM,4 Classes)

[Ang et al. 2002] [Lee et Narayanan 2004] [Shafran et al. 2003] [Forbes-Riley et Litman 2004] [Steidl et al. 2005]

5147 Tours 385 Tours (90 Neg, 15 Pos, 280 Neu) ~6000 mots (51 enfants)

Ngatif, Non Ngatif Positif, Ngatif, Neutre Colre, Maternel, Emphatique, Neutre

Tableau 1-9. Tableau rcapitulatif dtudes sur la dtection des motions : rfrence de lauteur, style de corpus de travail (act, Woz, DHH : dialogue Homme-Homme, DHM : dialogue Homme-Machine), size (Tours de parole) et nombre de locuteurs, Les reprsentations des motions. Corpora Emotion labels, Type dindices (Spectraux, Prosodique (Frquence Fondamentale, Energie, Dbit), Disfluences, Lexiques, Langage (n-gram), Syntax/semantic (Etiquettes : Part-of-Speechs) et enfin Dialogique), modle dapprentissage (MLB: Maximum Likelihood Bayes Classifier, KR: Kernel Regression , LDC: Linear discriminant classifier, kNN: k Nearest-Neighbors, SVM: Support Vector Machine, HMM: Hidden Markov Model, NNs: Neural Networks, decision trees, Adaboost, etc), et finalement le taux de dtection. - 28 -

Chapitre 1 1BEtat de l'art

1.3. Conclusion de ltat de lart


Bien que diffrents courants existent quant la dfinition prcise dune motion et quon lui substitue de plus en plus le terme tat affectif , on peut extraire de leur tude des connaissances robustes 27. On saccorde aussi sur le fait que les humains et a fortiori les machines sont capables dinfrer de ltat motionnel dun autre humain (mme si avec plus ou moins de finesse et de manire non infaillible). Les mmes problmatiques se posent pour toutes les tudes sur la dtection des motions orales : quel matriel utiliser ? Comment annoter les donnes motionnelles ? Quels indices extraire ? Quel mthode ou algorithme sont les plus appropris pour la dtection ? Au commencement de la thse, la majorit des travaux sur la dtection dmotion abordaient dj la difficult dextraire des indices pertinents et de trouver des algorithmes dapprentissage efficaces, tel-00624085, version 1 - 15 Sep 2011 mais peu se focalisaient sur les tapes pralables lobtention de donnes tiquetes en motion. En effet la majorit des tudes portait sur des donnes joues par des acteurs (Sur un ensemble de plus 100 tudes, Juslin et Laukka en ont rpertori 87% sur des donnes actes [Juslin et Laukka 2003]) et toutes les critiques convergeaient sur le fait quil fallait travailler sur des donnes spontanes pour pouvoir un jour construire des systmes affectivement intelligents. La premire tape est donc de collecter des donnes riches et en quantit suffisantes, ce qui est dcrit en dtails dans le chapitre 2.

Pour illustrer ce point Rosalind Picard cite McCarthy [Picard 1997 p21]: we cant define Mt Everest precisely _whether or not a particular rock or piece of ice is or isnt part of it ; but it is true, without qualification, that Edmund Hillaryand Tenzing Normay climbed it in 1953. In other words, we can base solid facts on structures that are themselves imprecisely defined
27

- 29 -

tel-00624085, version 1 - 15 Sep 2011

II Travailler sur des donnes spontanes

- 30 -

Chapitre 2 Les corpus motionnels


Rsum
Dans la premire partie de la thse, nous avons longuement insist sur limportance du choix des donnes avant de pouvoir faire des expriences de dtection. Plusieurs types de donnes peuvent tre utiliss : donnes actes joues par des acteurs, donnes induites ou donnes naturelles. Pourquoi choisir des donnes relles ? Quels sont les avantages et inconvnients des diffrents types de donnes ? Dans ce chapitre, nous prsentons galement les donnes LIMSI, et en particulier 2 corpus, sur lesquels nous nous sommes appuys pour nos travaux. Toutes sont des donnes relles issues de centres dappel. Le premier Corpus contient des appels provenant de transactions boursires. Il a t analys et annot pralablement au dbut de ma thse et contenait 13% de donnes motionnelles, souvent peu intenses. La plupart des expriences ont t effectues sur le deuxime corpus, CEMO pour Corpus Emotion, issu dun centre dappel mdical dont jai suivi le traitement. Vingt heures de donnes ont t manuellement transcrites et le signal a t align phontiquement la transcription. Le corpus contient prs de 30 % de donnes motionnelles. Pour chaque dialogue, des mtadonnes sur les locuteurs du type ge, sexe, accent, type de voix ont galement t annotes. In the first chapter of the thesis, we have pointed out the importance of choosing the right type of data in order to study emotions. When studying emotion in speech, we can make use of different data types: acted speech, induced data or natural data. Why choose real-life data? In a first part, we will present the advantages and drawbacks of the different types of data. Then we will describe the LIMSI corpora that we based our work on. All data were recorded in French call centers. The first corpus contains data recorded in a stock exchange customer service and was annotated and analysed prior to my phd. It contains 13% emotional speech, mostly not very intense. Most of our experiments were made on the CEMO corpus (20 hours) recorded in a medical call center and I co-supervised its processing. It is a lot richer emotionally with 30% of emotional data. It was transcribed manually and for each dialog, metadata on the age, gender, accent and voice type was also annotated.

tel-00624085, version 1 - 15 Sep 2011

- 31 -

2.1.

QUEL MATERIEL ? LES DIFFERENTS TYPES DE CORPUS : AVANTAGES ET INCONVENIENTS ..................... 33


Donnes actes....................................................................................................................................................... 33 Donnes de fiction (film, thtre)........................................................................................................................... 34 Donnes induites : Magicien dOz et expriences contrles................................................................................. 35 Donnes naturelles ................................................................................................................................................. 35 Ethique : consentement conscient et confidentialit........................................................................................... 37

2.2. 2.2.1. 2.2.2. 2.3. 2.3.1. 2.3.2. 2.3.3. 2.4. 2.5.

DONNEES LIMSI : DES CENTRES DAPPELS ............................................................................................ 38 Corpus de transactions boursires................................................................................................... 39 CEMO .............................................................................................................................................. 39 TRANSCRIPTION DU CORPUS CEMO ...................................................................................................... 41 Protocoles ........................................................................................................................................ 41 Outils et vitesse de transcription ...................................................................................................... 41 Caractristiques du Corpus ............................................................................................................. 41 METADONNEES ...................................................................................................................................... 42 CONCLUSION ......................................................................................................................................... 43

tel-00624085, version 1 - 15 Sep 2011

- 32 -

Chapitre 2 3BLes corpus motionnels

2. LES CORPUS EMOTIONNELS 2.1. Quel matriel ? Les diffrents types de corpus28 : avantages et inconvnients
La premire problmatique lorsquon tudie les motions est de se procurer ou de crer un corpus de donnes. Plusieurs types de donnes peuvent tre utilises et leurs avantages et inconvnients seront discuts dans ce chapitre. La plupart des expriences sur les motions ont t effectues sur des donnes actes enregistres par des acteurs avec souvent peu de classes motionnelles (Neutre, Ngatif, Positif ou les motions de base de Ekman (cf. Chapitre 1).

Donnes actes
tel-00624085, version 1 - 15 Sep 2011 Les premires tudes et la plupart des tudes actuelles ont t ralises sur des donnes actes [Dellaert et al. 1996]. Ces donnes prsentent plusieurs avantages. Elles ne soulvent pas de problmes thiques, elles sont faciles collecter et elles permettent de sappuyer sur une grande quantit de donnes tiquetes pour chaque classe dmotions (en pratique ce nest cependant pas souvent le cas). De plus, elles rendent possible la comparaison de segments avec un contenu linguistique identique, ce qui permet d'attribuer les diffrences de perception aux seuls indices acoustiques. Cependant, elles savrent insuffisantes pour reprsenter la ralit et le manque de contexte et le nombre rduit dacteurs (souvent moins de 10) font que ces corpus de donnes contiennent moins de variabilit que les corpus de donnes spontanes. En effet, les acteurs utilisent souvent des strotypes caractristiques de lmotion et qui sont trs diffrents de la vritable expression de celle-ci. Ils auront tendance accentuer les codes sociaux de communication (effet pull ) 29, mais l'effet "push", normalement associ la relation physiologique motionnelle, sera absent. Notons cependant que dans le cas des donnes GEMEP par exemple, diffrents scnarios permettant dliciter des motions ont t donns aux acteurs afin quils jouent des motions moins prototypiques.

28 Nous entendons par corpus est un ensemble de donnes recueillies pour un sujet dtude. Un corpus est souvent un recueil de donnes annotes. 29 Par exemple [Williams et Stevens 1972] ont compar le commentaire radio de la catastrophe aronautique de Hindenburg et un acteur le simulant et ont trouv une augmentation de la plage et du mdian de la F0 mais beaucoup plus prononc chez lacteur.

- 33 -

Chapitre 2 3BLes corpus motionnels De plus, il ny a pas toujours dvaluation de la qualit des motions exprimes par des acteurs. Si lorsquon demande un acteur dexprimer de la colre, la phrase est tiquete automatiquement Colre sans aucune validation, alors on ne pourra pas obtenir de conclusions valides. Cependant, des tests perceptifs sont raliss dans beaucoup dtudes, la suite desquels on ne garde que les donnes valides. Pour ce faire, des techniques statistiques sont prsentes dans [Banse et Scherer 1996] par exemple. Dans un livre rcapitulant diffrentes problmatiques rencontres au cours de ses recherches depuis les annes 1940, Lazarus [Lazarus 1998 p161], aprs avoir tudi diffrents types de donnes actes ou induites a choisi de s'appuyer sur des donnes naturelles :
"I was now convinced I needed to find another way of studying stress, emotion, and coping in daily life, and it should be in the field rather than in the laboratory".

De mme, Scherer et al. arrivent la conclusion quon ne peut pas gnraliser les rsultats obtenus tel-00624085, version 1 - 15 Sep 2011 sur des donnes actes des donnes naturelles [Scherer et al. 1991]. Batliner et al. ont compar des expriences effectues sur des donnes actes, induites (magicien dOz 30) et relles (en interaction homme_machine) et ont montr que des modles performants pour des donnes actes ne ltaient pas pour les donnes relles : les scores de bonne dtection taient inversement proportionnels au naturel des donnes [Batliner et al. 2003]. Des rsultats similaires ont t prsents [Vogt et Andre 2005] avec l encore des performances bien plus leves sur des donnes actes que sur des donnes naturelles. Par ailleurs, ils ont montr que ce ne sont pas les mmes indices qui sont les plus pertinents pour les diffrents types de donnes. De plus, les performances obtenues avec des donnes actes sont largement suprieures celles obtenues avec des donnes naturelles [Vogt et Andre 2005] et les modles entrans sur des donnes actes ont de trs mauvaises performances sur les donnes relles [Batliner et al. 2003].

Donnes de fiction (film, thtre)


Une solution pour obtenir des donnes avec des motions authentiques en quantit suffisante et sans contraintes de confidentialit est dutiliser la fiction, par exemple en slectionnant des donnes joues par des acteurs professionnels. La mise en situation de lacteur pourra permettre damliorer le ralisme des motions joues. Les inconvnients de lutilisation de ce type de donnes sont quelles sont souvent accompagnes de bruitages et restent susceptibles de ne pas

30

L'exprience de magicien dOz est une exprience dans laquelle les sujets interagissent avec un systme informatique qu'ils croient autonome, mais qui est en fait totalement ou partiellement contrl par un humain (http://fr.wikipedia.org/wiki/Magicien_d'Oz_(exp%C3%A9rience))

- 34 -

Chapitre 2 3BLes corpus motionnels reflter des comportements rels. Clavel, dans ses travaux sur les manifestations de type peur [Clavel 2007], a slectionn des squences de films en anglais en appliquant un critre de crdibilit pour construire son corpus. Elle a dcrit en dtails les avantages et inconvnients de ce type de corpus.

Donnes induites : Magicien dOz et expriences contrles


Plusieurs techniques ont t mises en place pour induire des motions: hypnose [Grossberg et Wilson 1968], prsentation de films ([Gross et Levenson 1995], [Philippot 1993] 31), images ou jeux induisant une rponse motionnelle, ralisation d'une tche difficile effectuer en peu de temps pour induire du stress, expriences de magicien d'Oz [Batliner et al. 2003]. Les motions induites sont souvent de faible intensit. De plus, les mmes protocoles dinduction ninduisent pas ncessairement des tats motionnels identiques. Un autre biais est le contrle de tel-00624085, version 1 - 15 Sep 2011 l'environnement sur l'expression des individus [Hochschild 1979].

Donnes naturelles
Des donnes naturelles de toutes sortes ont t enregistres : pilotes d'avion, sances thrapeutiques 32, tl ralit. La qualit de l'enregistrement est souvent assez mauvaise, la quantit de donnes motionnelles assez faible et il y a en gnral peu de parole par locuteur. En plus, il n'est pas toujours vident de connatre l'motion exprime par le locuteur. Le matriel denregistrement peut aussi devenir un obstacle laspect naturel des donnes. Par exemple, les personnes enregistres la tlvision peuvent tre en display (affichage de certaines motions lies aux interactions sociales [Hess 2006]), ce qui peut remettre en cause la validit des donnes 33. Lutilisation des centres dappels est une alternative intressante, en particulier lorsquon sintresse uniquement aux motions dans la voix. Lenregistrement imperceptible permet dobtenir des donnes spontanes. De plus, avec les donnes tlphoniques, lmotion doit sexprimer par la voix sans possibilit de conflits avec dautres modalits comme les actions, gestes ou expressions du visage. Cependant, le contenu est majoritairement assez faible motionnellement, souvent de lordre de 10%.

31 Pierre Philippot dans ses expriences a choisi des squences de film visant liciter des motions spcifiques et montre que les films sont des bons moyens pour liciter les motions voulues. 32 Lazarus [Lazarus 1991] a enregistr des entretiens de 10-15 minutes auprs de 61 patients d'un hpital la veille d'une opration (hernie, vessie, thyrode) et a tabli des liens entre leur degr de stress et leur dure de rtablissement (pas d'analyse acoustique). 33 Dans les cas dmotion intense ou lorsque film longtemps, ces effets peuvent disparatre.

- 35 -

Chapitre 2 3BLes corpus motionnels Le rseau dexcellence HUMAINE recense les principales bases de donnes plus ou moins naturelles utilises par les diffrents collaborateurs. (http://emotion-research.net/wiki/Databases). Les donnes naturelles sont donnes dans le Tableau 2-1 ci-dessous. Afin de pouvoir comparer les rsultats des tudes et prendre en compte les diffrences entre individus, il est encourag dutiliser des corpus contenant des personnalits et des manifestations d'une mme motion varis ou au moins contrls [Kappas et al. 1991].
Identifier Reading-Leeds database France et al. Emotional content Range of full blown emotions Depression, suicidal state, neutrality Wide range of emotional states and emotionrelated attitudes Mainly negative - fear, anger, stress Joyful, surprised, emphatic, helpless, touchy (irritated), angry, motherese, bored, reprimanding, neutral Emotion elicitation methods Natural: Unscripted interviews on radio/television Natural: therapy sessions & phone conversations. Natural: volunteers record their domestic and social spoken interactions for extended periods throughout the day Natural: call center human-human interactions Size Around 4 hours material 115 subjects: 48 females 67 males. Target - 1000 hrs over 5 years Language

English English English Japanese Chinese French

CREST database

tel-00624085, version 1 - 15 Sep 2011

Stock Exchange Customer Service (Devillers & Vasilescu)

Unspecified 51 german children, 51.393 words English 30 children, 5.822 words

AIBO

Human machine: interaction with robot

German

Tableau 2-1. Des donnes naturelles.

- 36 -

Chapitre 2 3BLes corpus motionnels

Ethique : consentement conscient et confidentialit


Lors d'expriences physiologiques sur la peur et la colre, Ax [Ax 1953] a cr l'illusion qu'il y avait un problme grave avec l'quipement auquel les sujets taient attachs en simulant une panique des exprimentateurs accompagne de bruits sinistres et d'tincelles. Il rapporte les ractions des sujets :
One woman kept pleading, "Please take the wires off. Oh! Please help me." Another said during the interview that she had prayed to be spared during the fear episode. A man said, "Well, everybody has to go sometime. I thought this might be my time."

De telles expriences dsagrables ou douloureuses pour le sujet ne seraient plus reproductibles aujourd'hui pour des raisons thiques 34. Le rseau dexcellence humaine est particulirement concern par tous les problmes lis lthique, la fois dans la manire de rcolter et de traiter les donnes, mais aussi dans lutilisation qui en sera faite, ce qui a donn lieu un rapport (deliverable tel-00624085, version 1 - 15 Sep 2011 ) Science and society : Ethics . De mme, la session plnire HUMAINE de 2007, la fondatrice du groupe affective computing du MIT Rosalind Picard qui prsentait un ordinateur capable de faire des signes de dsapprobation lorsque lutilisateur adopte une mauvaise posture se positionnait contre ce type dutilisation. Lors des lections aux conseils de quartier dIssy-les-Moulineaux en 2005, la mairie avait fait appel un avatar ralis par la Cantoche 35 pour inciter les gens aller voter, mais quels sont les dangers de ce type dapplications ? Le public tend avoir foi en la machine et oublier quelle fonctionne partir des dcisions parfois subjectives dun programmeur humain.

Ds 1975, la question a t souleve par Osgood dans [Osgood et al. 1975 p28]: "Collection of data relating to subjective culture always involve potential misuse as well as potential invasion of the privacy of the individual two salient issues: first, the degree of informed consent that the tested individual should exercise; second the degree of confidentiality that should be maintained in the use of the collected information". 35 http://cantoche.com/fr~Avatars.html
34

- 37 -

Chapitre 2 3BLes corpus motionnels

2.2. Donnes LIMSI : des centres dappels


En rponse la problmatique souleve par les deux tats de lart [Scherer 2003] [Juslin et Laukka 2003] Comment obtenir des donnes et quel type de donnes utiliser ? , nous avons choisi les centres dappel. Une critique de lutilisation de donnes relles est que le locuteur, parce quil a conscience dtre film/enregistr, va tre en display et ragir de telle sorte avoir un certain effet sur une audience. Pour des donnes tlphoniques, les appelants ne sont pas vraiment en display car cachs derrire leur tlphone et en gnral sans public. Dans le cas des hotline o le motif de lappel est souvent de se renseigner ou de rsoudre un problme rapidement, ils ne sont pas non plus focaliss en permanence sur la manire dont on va les juger et ragissent de manire spontane. Ce ne sera plus forcment le cas en interaction avec un systme vocal automatique. Par exemple, aux Etats-Unis, une stratgie des appelants est dexagrer volontairement leur parler afin tel-00624085, version 1 - 15 Sep 2011 dtre redirig le plus rapidement possible vers un oprateur humain. Quant aux rserves concernant lannotation de ce type de donnes (le locuteur ne peut pas tre interrog sur son tat motionnel), notre stratgie sera dtaille dans le chapitre Annotation. Une dernire critique des donnes relles est quil est difficile davoir assez de donnes par locuteur et encore moins des donnes permettant de comparer plusieurs individus cause des grandes variations dexpression des motions la fois dans le contenu linguistique et acoustique. Le domaine dapplication pour un centre dappel tant fini, il est possible dobtenir des ractions similaires, mme si videment non identiques et en utilisant des tiquettes les plus fines possible pour dcrire le corpus, on diminuera les variations par classe. De plus, pour le corpus CEMO dtaill ci-dessous, grce lenregistrement dune grande quantit de donnes, il y a des cas de segments de contenu lexical identique et exprim avec diffrentes motions. Enfin, le nombre dagents est assez petit donc nous avons beaucoup de donnes par agent, mme si de par leur rle ils sont contraints de contrler leurs motions et de suivre des normes sociales (compassion). Les donnes utilises pour les expriences proviennent de deux corpus LIMSI de dialogues oraux naturels enregistrs dans des centres d'appels : le premier corpus (transactions boursires) pralablement transcrit et annot, a t utilis pour les premires expriences de dtection. Les problmes rencontrs sur ce corpus ont servi de base la mise en forme des protocoles de transcription et d'annotation du second corpus. le corpus CEMO (pour Corpus EMOtion) sur lequel ont t effectues la plupart des expriences. - 38 -

Chapitre 2 3BLes corpus motionnels Lutilisation des donnes sest faite dans le respect des conventions thiques assurant lanonymat des appelants, le caractre priv des informations personnelles et la non diffusion du corpus et des annotations.

2.2.1. Corpus de transactions boursires


Le Corpus 1 est compos de dialogues rels provenant d'un centre d'appel grant les portefeuilles boursiers des comptes client par tlphone. Le but de cet enregistrement tait indpendant du travail d'tude sur les motions et tait disponible dans le cadre du projet Amities [Hardy et al. 2002]. Le service peut tre contact via une connexion Internet ou en appelant directement un agent. Bien quune grande partie des appels soient lis des problmes d'utilisation du web (informations gnrales, requtes compliques, transactions, confirmations, problmes de connections), certains tel-00624085, version 1 - 15 Sep 2011 appelants prfrent simplement interagir avec un agent humain. Les dialogues ont t transcrits orthographiquement. Les normes de transcription sont donnes dans http://www.dcs.shef.ac.uk/nlp/amities/. Le corpus contient 100 dialogues en franais entre un agent et un client (avec en tout 4 agents diffrents), soit 6200 tours de parole. Il a t enregistr sur seulement un canal et il y a donc beaucoup de recouvrements qui n'ont pas t transcrits (environ 20% du corpus).

2.2.2. CEMO
Le corpus CEMO contient des enregistrements de conversations relles entre des agents et des appelants obtenus la suite dune convention entre un centre mdical et le LIMSI-CNRS. Le service, dont le rle est de donner des conseils mdicaux, peut tre contact 24h sur 24 et 7 jours sur 7. Lors dune interaction, un agent va utiliser une stratgie prcise et prdfinie afin d'obtenir un certain nombre dinformations de la manire la plus efficace possible. Son rle est de dterminer le sujet de lappel et dobtenir assez de dtails sur les circonstances de lappel pour valuer son degr durgence et prendre une dcision. Les principaux motifs dappel sont les situations durgence, les demandes de conseil mdical et les demandes dinformations (numro dun docteur ). La dcision prise pourra tre denvoyer une ambulance, de rediriger lappelant vers les urgences sociales ou psychiatriques, ou de conseiller l'appelant, par exemple en lui enjoignant daller lhpital ou dappeler son mdecin. Lappelant peut tre le patient ou un tiers (famille, ami, collgue, voisin, etc.) Dans les cas dappels urgents, l'appelant va souvent exprimer du

- 39 -

Chapitre 2 3BLes corpus motionnels stress, de la douleur, de la peur, voire de la panique. Ltude a t faite sur un sous-ensemble de 20 heures, soit 688 dialogues (7 agents et 784 appelants distincts). Bien que le corpus CEMO ait t enregistr sur 2 canaux, seul le canal correspondant l'agent est propre. L'autre contient environ 10% de recouvrements qui n'ont pas t transcrits. Ces recouvrements ont t exclus de l'tude bien qu'ils puissent tre corrls la parole motionnelle : ils sont coteux transcrire et il est difficile d'en extraire des paramtres acoustiques sans erreurs. Le Tableau 2-2 rsume les principales caractristiques des 2 corpus.
Corpus transactions boursires #agents #clients #tours/dialogue #mots distincts #total de mots 4 (3H, 1F) 100 dialogues (91H, 9F) Moyenne : 50 3k 44k CEMO 7 (3H, 4F) 688 dialogues (271H, 513F) Moyenne : 48 9.2k 143k

tel-00624085, version 1 - 15 Sep 2011

Tableau 2-2. Caractristiques des deux corpus : Corpus 1: 100 dialogues agent-client d'environ 3 heures (H: homme, F: femme), Corpus 2: 688 dialogues agent-client denviron 20h (H : homme, F : femme) Dans 96 dialogues, des tiers interagissent.

- 40 -

Chapitre 2 3BLes corpus motionnels

2.3. Transcription du corpus CEMO


2.3.1. Protocoles
Les protocoles de transcription sont similaires ceux utiliss pour la transcription des dialogues oraux dans le projet FP5-Amities, trs proches des normes de transcription LDC (www.ldc.upenn.edu). Des marqueurs ont t ajouts pour indiquer les entits nommes, mais galement les lments non verbaux (cf. Tableau 2-4) tels que respirations, rire, pleurs, raclements de gorge et autres bruits (bruits de bouche), qui peuvent tre signifiants de ltat motionnel [Schrder 2000]. Les silences et les signaux inintelligibles sont aussi marqus. Un manuel de transcription a t rdig.

tel-00624085, version 1 - 15 Sep 2011

2.3.2. Outils et vitesse de transcription


Les appelants et agents avaient t enregistrs sur deux canaux diffrents et afin davoir une transcription la plus riche possible, les deux canaux ont dabord t transcrits sparment laide de loutil Transcriber 36 [Barras et al. 2000], puis sous emacs en groupant les 2 canaux afin dacclrer le traitement.

2.3.3. Caractristiques du Corpus


Des caractristiques du corpus sont donnes dans les tableaux ci-dessous, avec en particulier la frquence des principaux tats affectifs.
#mots distincts #total mots %Parole Inintelligible (PI) #mots/tour 9.2 k 238 k 0,4% 6,9

Tableau 2-3. Caractristiques du corpus.


# rires # pleurs # heu # bruits de bouche # respiration 159 244 7347 4500 243

Tableau 2-4. Marqueurs affectifs indiqus par la transcription sur les 20 heures.

36

http://trans.sourceforge.net/

- 41 -

Chapitre 2 3BLes corpus motionnels

2.4. Mtadonnes
Au niveau de chaque dialogue, des informations existent sur les appelants (ge, sexe, relation avec le patient, accent), le patient (ge, sexe), le motif de l'appel et son issu, ainsi que sur les conditions de l'appel (type de tlphone, lieu do l'appel est pass).
Type de tlphone
Lieu d'appel

portable 20%

mdical 1% public 11%

travailcole 4%

Type de voix
fixe 80%
accent ue 18%

tel-00624085, version 1 - 15 Sep 2011

alt re 4%

domicile 84%

normale 78%

Figure 2-1. Mtadonnes lies lacoustique. (Gauche) Type de tlphone; (Droite) Lieu dappels (Bas) Type de voix normale, accentue (accents trangers et rgionaux) et altre. La majorit des appelants (59,5%) sont des femmes adultes (Figure 2-2). La majorit des patients sont galement des femmes (59 % des cas). Le patient appelle directement dans 30 % des cas. Sinon, l'appel est fait par un tiers, qui peut tre plus ou moins proche du patient. Ce corpus est extrmement intressant pour comprendre le rle du contexte dans la perception des motions. Nos modles de dtection (voir chapitre 5 p 137) ont pris en compte comme indices contextuels le rle dans le dialogue : agent vs. appelant, et le sexe, mais il faudrait tudier dautres indices contextuels comme lge par exemple.

- 42 -

Chapitre 2 3BLes corpus motionnels

450 400
300 > 70 ans 250 50 -70 ans 200 150 100 18-30 ans 50 0 3-18 ans < 3 ans > 70 ans 50 -70 ans 30-50 ans 18-30 ans 3-18 ans < 3 ans 30-50 ans

>70 ans

350 300 250 200 150

>70 ans adulte

adulte
100 50 0 Hommes Femmes

Hommes

Femmes

tel-00624085, version 1 - 15 Sep 2011

1b.Sexe et Age des patients

1a. S exe et Age des Appelants

2 tiers 3% patient 29%

1 tiers 57%

patient +tiers 11%

Figure 2-2. Mtadonnes. 1a Age et Sexe des locuteurs et appelants; 1b Rpartition des appelants, 1c Rpartition des appels avec seulement le patient ou 1 tiers, 15% des appels on plus de 2 interlocuteurs (11% patient+tiers, 3% 2 tiers).

2.5. Conclusion
Dans ce chapitre, nous avons justifi notre dcision de travailler sur des donnes relles et avons prsent en dtails les 2 corpus qui ont t principalement utiliss pour nos expriences, et en particulier le corpus CEMO trs riche et avec une grande variabilit tant dans les contextes que dans les locuteurs. La difficult est alors de trouver une palette dmotions et un protocole dannotations dcrivant au mieux ces donnes. - 43 -

Chapitre 3 Annotation des motions


Rsum
Dans les chapitres prcdents, nous avons justifi notre choix de travailler sur des donnes rels et lintrt des donnes provenant de centres dappels lorsquon tudie les motions vocales. Une fois ces donnes collectes, ltape suivante est de les annoter. Ce Chapitre dcrit notre schma dannotation pour le corpus CEMO. Au pralable, diffrentes problmatiques lies lannotation sont prsentes. Quest ce qui est annot ? Quelles annotations choisir (tiquettes discrtes, axes...) ? Combien dannotateurs sont ncessaires et comment les entraner et les valuer ? Comment valider le protocole dannotation ? Une exprience sur le Corpus de transactions boursires a mis en vidence la prsence de mlanges dmotions dans nos donnes, ce qui nous a conduits la mise en place dun protocole original, permettant dannoter deux motions par segment motionnel, lmotion Majeur, principale et lmotion Mineur en arrire plan. Un segment motionnel, qui peut tre infrieur au tour de parole, est introduit. Le choix des tiquettes motionnels est expliqu. Des dimensions (valence, contrle) et des informations dialogiques (rptitions, ironie) ont t annots en plus de ces tiquettes. Un protocole dannotation comprenant une phase de calibration et dtaillant toutes ces annotations a t mis en place. Lannotation, effectue par deux experts (un homme et une femme), a t valide par des mesures de cohrence inter-annotateur (coefficient kappa), intraannotateur (exprience de r-annotation) et par un test perceptif. Enfin, nous introduisons un vecteur motion par segment motionnel, rsultant de la combinaison de plusieurs annotations. In the previous chapter, we have stressed the importance of choosing appropriate data for emotion detection experiments, especially if the application is natural spontaneous speech and we demonstrated the pertinence of call-centers. With a 20-hour corpus manually transcribed, the next step is to add emotion labels. This chapter describes our annotation protocol. Several issues must be raised before annotating: the unit to be used, the kind of annotation such as labels or axis, the number of annotators as well as the method to train and evaluate them. An experiment on the stock option corpus revealed the presence of emotion blends. This lead to an original annotation protocol, enabling to annotate two emotions per emotion segment. The main emotion was denoted as "Major" and the background one was denoted as "Minor". The emotion unit can be shorter than the speaker turn. Abstract dimensions, as well as dialogic information (repetitions, irony) were annotated in addition to emotion labels. An annotation protocol including a calibration phase was established. The annotation was done by two experts and was validated. Finally, we introduce an Emotion Vector per segment, which is the result of a combination of several annotations. - 44 -

tel-00624085, version 1 - 15 Sep 2011

3.1.

PROBLEMATIQUES LIEES A LANNOTATION ............................................................................ 46 3.1.1. 3.1.2. Choix d'une unit de dialogue .......................................................................................................... 46 Choix des axes/tiquettes ................................................................................................................. 47

Utilisation d'tiquettes discrtes .................................................................................................................................. 47 Utilisation des axes abstraits........................................................................................................................................ 48

3.1.3. 3.1.4.

Combien dannotateurs ? ................................................................................................................. 49 Validation des annotations............................................................................................................... 49

Mesure de linter-annotation laide du coefficient Kappa dans le cas de deux juges................................................ 50

3.2.

ANNOTATION DU CORPUS CEMO .................................................................................................. 52 3.2.1. Exprience tire des travaux sur le Corpus de transactions boursires .......................................... 52

Une premire annotation du Corpus financier antrieure au commencement du travail de thse................................ 52 Des confusions entre les classes Peur et Colre dans le Corpus 1 ............................................................................... 53 Exprience de r-annotation des segments ngatifs avec possibilit de choisir 2 tiquettes par segment.................... 53 Combinaison des nouvelles annotations en un vecteur par segment............................................................................ 54

tel-00624085, version 1 - 15 Sep 2011

Consistance entre la premire et la deuxime annotation ............................................................................................ 54

3.2.2.

Annotation du corpus CEMO ........................................................................................................... 56

Le segment motion .................................................................................................................................................... 56 Quelles tiquettes ?...................................................................................................................................................... 56 Une hirarchie en mta-catgories............................................................................................................................... 57 Deux tiquettes possibles par segment ........................................................................................................................ 60 Autres annotations....................................................................................................................................................... 60 Phase de calibration pralable l'annotation des donnes ........................................................................................... 62 Outil d'annotation : le logiciel transcriber.................................................................................................................... 63

3.2.3. 3.2.4. 3.2.5. 3.2.6. 3.3. 3.4. 3.5.

Validation......................................................................................................................................... 64 Cohrence inter-annotateur : le coefficient kappa........................................................................... 67 Cohrence intra-annotateur : r-annotation.................................................................................... 68 Test perceptif.................................................................................................................................... 68

Segment motionnel : .................................................................................................................................................. 65

Comment grer les doubles tiquettes ? ...................................................................................................................... 67

COMBINER LES ANNOTATIONS : UN VECTEUR EMOTION.................................................... 69 CLUSTERING SUR LES ANNOTATIONS UTILISANT UN ALGORITHME DIVISIF .............. 70 CONCLUSION ........................................................................................................................................ 71

- 45 -

Chapitre 3 4BAnnotation des motions

3. ANNOTATION DES EMOTIONS


Lun des dfis de mon travail de thse tait de mettre en place un protocole dannotation adapt la complexit du corpus tudi car il nexiste pas actuellement de normes pour dcrire les motions et leurs annotations. Llaboration dun langage standardis pour reprsenter et annoter les motions dans le cadre dapplications informatiques est dailleurs un axe des recherches actuelles. Une premire tentative avait t effectue par le rseau dexcellence HUMAINE avec EARL (Emotion Annotation and Representation Language : http://emotion-research.net/earl), maintenant un W3C 37 incubator group (Groupe dincubation sur les motions) dans lequel le LIMSI est impliqu [Schrder et al. 2007].

3.1. Problmatiques lies lannotation


tel-00624085, version 1 - 15 Sep 2011

3.1.1. Choix d'une unit de dialogue


Le premier problme avant de pouvoir annoter des donnes spontanes est ce choisir une unit [Batliner et al. 1998]. Mme sil nexiste pas de consensus sur lunit de parole, les tudes utilisent : Le mot : Batliner et al. considrent que cest la meilleure unit car la plus petite qui soit. Elle permet si on le souhaite de passer une unit plus grande [Batliner et al. 2003]. La parole dun mme locuteur sans interruption par un autre (ou entre 2 souffles), ce qui constitue un tour de parole [Traum et Heeman 1997] Une unit intermdiaire entre le mot et le tour de parole, souvent appele chunk, qui peut tre dfinie de manire plus ou moins rigoureuse : N mots, unit motionnelle Une unit qui dfinit un seul acte de dialogue [Batliner et al. 2003] Dans notre cas, on cherche la fois dtecter les motions et prdire le commencement de troubles dans le dialogue. Si une unit trop longue, comme parfois le tour de parole 38, est choisie, elle pourra contenir une squence de plusieurs motions ou une partie Neutre et une autre partie plus riche en motion. Pour une unit trop petite, certains paramtres, comme le dbit par exemple, ne pourront pas forcment tre calculs. Certaines recherches font en parallle des prdictions sur diffrentes units (mot et tour de parole par exemple) et combinent ces prdictions.

W3C : organisme en charge des standards du web. Par exemple dans le corpus CEMO, la taille moyenne des tours de parole est de 2 secondes environ, mais prs de 600 tours ont une dure suprieure 10 secondes.
37 38

- 46 -

Chapitre 3 4BAnnotation des motions Schuller et al. ont montr que le choix de lunit avait une incidence sur les scores de dtection[Schuller et al. 2007b].

3.1.2. Choix des axes/tiquettes

Utilisation d'tiquettes discrtes


Comme indiqu dans ltat de lart, la majorit des tudes se font sur peu dtiquettes (Neutre/Ngatif par exemple) ou sur un nombre assez petit dmotions primaires joues par des acteurs ou induites volontairement. Des psychologues comme Kappas et al [Kappas et al. 1991] insistent sur l'importance de distinguer les diffrentes formes d'une motion donne (ex irritation vs. colre chaude).

tel-00624085, version 1 - 15 Sep 2011

Comment choisir les tiquettes ? Choix libre ou ensemble restreint ?


Le plus souvent on demande un juge de faire un choix forc parmi une liste d'tiquettes. Les rponses peuvent alors tre influences par la liste des choix proposs [Ekman et Davidson 1994]. Quelques expriences ont galement t effectues en choisissant une tiquette libre ([Greasley et al. 2000], [Devillers et al. 2002]). Avec le choix libre, il est ncessaire de bien formuler les consignes des annotateurs en prcisant bien au juge de dsigner l'motion que le locuteur veut exprimer. Il y a des risques de rponses compltement hors propos et les diffrentes rponses peuvent tre difficiles classifier. Greasley et al. ont compar des annotations avec un choix dtiquettes libres et un choix forc entre 5 tiquettes de base sur les mmes donnes [Greasley et al. 2000]. Pour ce faire, ils ont slectionn 89 chantillons de parole motionnelle extraits dmissions de tlvision et de radio et les ont fait annoter par 28 tudiants en psychologie avec la fois un choix libre et un choix forc parmi les 5 motions de base peur, colre, tristesse, dgot, joie. Ils sont arrivs la conclusion que lorsque des juges saccordaient sur des tiquettes libres, celles-ci taient consistantes avec les tiquettes standards ( lexception du dgot), mais avec des variations dans le degr dmotion (plus dune quinzaine de termes utiliss pour dsigner une tiquette standard). Par contre, ils ont constat que si des donnes actes peuvent tre facilement tiquetes avec des tiquettes standard (grand pourcentage daccord parmi les annotateurs), ce nest pas le cas des donnes naturelles. Pour 46% des chantillons, ils nont pas trouv daccord significatif entre les annotations utilisant

- 47 -

Chapitre 3 4BAnnotation des motions les motions de base. Ils ont explicit plusieurs cas 39 o des mlanges de plusieurs motions de base sont clairement perus, en sparant les motions prouves en raction une personne (agent), un vnement et un objet. Pour dcrire et a fortiori pour annoter des donnes naturelles, une seule tiquette discrte nest pas suffisante. Nous lavons galement constat avec le corpus de donnes boursires (cf. p 56). Pour des expriences visant dvelopper une application spcifique comme celles dcrites dans [Clavel 2007] ou [Liscombe 2006] les tiquettes sont choisies en fonction dun but ou dune application prcis. Il convient cependant de ne pas travailler sur une tche trop limite afin de pouvoir gnraliser les rsultats 40.

Utilisation des axes abstraits


On peut aussi demander aux annotateurs d'valuer le stimulus sur une ou plusieurs chelles tel-00624085, version 1 - 15 Sep 2011 continues. Cowie et al. ont cr feeltrace, un instrument permettant de rendre compte de laspect dynamique de lpisode motionnel[Cowie et al. 2000]. Ils utilisent les deux axes activation et valence dans un espace continu 2 dimensions, reprsent par un cercle sur lcran dordinateur (cf. Figure 3-1) et lutilisateur dplace le curseur tout en coutant lextrait de parole.

Figure 3-1. Exemple daffichage de Feeltrace, extrait de [Cowie et al. 2000].

39 Ils dcrivent 2 cas en particulier ; celui dune mre parlant du meurtre de sa fille en disant quelle ne pourra jamais pardonner aux meurtriers qui exprime la fois son dsespoir face la situation et sa haine envers les meurtriers et celui dune femme dcrivant sa sur qui aprs avoir gagner la loterie a abandonn sa famille et exprime la fois de la tristesse devant la situation et du dgot et de la colre envers sa sur. 40 Par exemple, Yacoub [Yacoub et al. 2003] ont dvelopp un systme qui discriminait la colre et le neutre dans le but de dtecter les troubles de la communication. Ce systme a ensuite t test sur des motions positives qui ont t classifies comme de la colre.

- 48 -

Chapitre 3 4BAnnotation des motions Grimm et al. ont utilis le Self Assessment Manikins pour annoter par tour de parole la Valence (positif vs. ngatif), lActivation (niveau dexcitation haut vs. bas) et la Dominance (force apparente du locuteur fort vs. faible) [Grimm et al. 2007].

3.1.3. Combien dannotateurs ?


Le nombre minimum dannotateurs est de deux, trois si on veut faire un vote majoritaire. Batliner en a utilis cinq pour annoter les donnes AIBO [Batliner et al. 2004]. Un test perceptif de Abrilian et al. a montr que vers 10 annotateurs avec 20 tiquettes, la courbe des annotations se stabilise ([Abrilian et al. 2006]). Dans leur tude, un des rsultats du test perceptif tait que les annotations donnes par les hommes et par les femmes taient diffrentes.

3.1.4. Validation des annotations


tel-00624085, version 1 - 15 Sep 2011 3.1.4.1. Cas dtiquettes discrtes Avant de pouvoir utiliser les annotations effectues, il est indispensable dvaluer leur fiabilit. On va donc chercher estimer un taux daccord rel entre plusieurs juges pour des jugements qualitatifs dans des cas o il nexiste pas de rfrence. Une premire mesure serait de calculer le pourcentage de fois o les juges sont daccord, mais cette mesure est biaise [Wagner 1993], en particulier lorsquune catgorie domine, ce qui est souvent le cas pour les motions. Si on prend le cas des donnes relles ou le pourcentage de neutre est typiquement suprieur 70%, on aura facilement un pourcentage daccord trs haut, mme si les motions moins reprsentes sont assez confondues. Par exemple dans le cas fictif du Tableau 3-1, le pourcentage de fois o les juges sont daccord est suprieur 75% alors que les 3 motions Peur, Colre et Tristesse ne sont pas bien diffrencies.

Juge1/Juge2 Neutre Peur Colre Tristesse Neutre Peur Colre Tristesse 7100 900 1000 500 15 50 15 20 50 100 50 0 85 90 5 20

Tableau 3-1. Exemple de matrice dinter annotation. Les chiffres sont fictifs.

De plus laccord observ entre un ou plusieurs jugements aura toujours une composante alatoire et une composante relle [Bergeri et al. 2002]. - 49 -

Chapitre 3 4BAnnotation des motions La plupart des mesures dinter-annotation existantes utilisent une valuation de cette composante alatoire. Plusieurs manires de la dfinir ont t proposes, ce qui a donn lieu plusieurs mesures dinterannotation dont le coefficient Kappa, le Pi de Scott et le S index de Bennet et al. (cf. Tableau 3-2 voir [Zwick 1988] pour des dfinitions et rfrences). Les tudes sur les motions annotes avec des tiquettes discrtes (donnes nominales), qui ont report des mesures de fiabilit, ont le plus souvent utilis le coefficient Kappa [Cohen 1960] dfini ci-dessous.

Mesure de linter-annotation laide du coefficient Kappa dans le cas de deux juges


Intressons nous dabord au cas de deux juges pouvant choisir entre k catgories. Pour plusieurs juges, on pourra comparer les juges deux deux ou discuter/moyenner les rsultats ou encore adapter les formules (voir pour le cas du coefficient Kappa avec N juges [Fleiss 1971]). tel-00624085, version 1 - 15 Sep 2011 Pour 2 juges, les rsultats de lannotation peuvent tre reprsents par une matrice (agreement matrix) k x k, dont la diagonale reprsente les cas daccord entre les 2 juges (comme dans lexemple fictif du Tableau 3-1). Un coefficient dinter-annotation est alors :

A=

Pobs Pexp 1 Pexp

avec : - Pobs la proportion daccord observe :

Pobs = pii avec pii la proportion de cas de la ime diagonale de la matrice.


i =1

- Pexp la proportion daccord alatoire (exp : expected by chance ), qui se calcule diffremment suivant les coefficients (voir Tableau 3-2). On essaie de corriger Pobs en lui soustrayant Pexp correspondant aux cas de la diagonale qui sont dus au hasard ; le numrateur est divis par (1- Pexp ), laccord maximum lorsquon retire le hasard. Coefficient Kappa (Cohen) Pi (Scott) S (Bennet, Alpert et >Goldstein) Dfinition

p
i =1 k

i+

p +i
2

p p Pobs = ( i + +i ) 2 i =1 Pobs = 1 / Kappa

Tableau 3-2. Pexp reproduit de [Zwick 1988] avec pi+ la somme des proportions de la ligne i de la matrice et p+i la somme des proportions de la colonne i.

- 50 -

Chapitre 3 4BAnnotation des motions Le coefficient dinter-annotation est un nombre rel compris entre -1 et 1. Laccord est dautant plus lev que sa valeur est proche de 1. Il est maximal quand les deux jugements sont les mmes : tous les exemples sont sur la diagonale de la matrice de confusion. Il vaut 0 lorsque les deux jugements sont indpendants Il vaut -1 lorsque les juges sont en total dsaccord. Landis et Koch [Landis et Koch 1977] ont propos une chelle de degr daccord pour le coefficient Kappa selon la valeur du coefficient pour la biologie :
Excellent Bon Modr Mauvais Trs mauvais >0.81 0.80-0.61 0.6-0.21 0.20-0.0 <0

Tableau 3-3. Degr d'accord suivant la valeur du coefficient kappa tel-00624085, version 1 - 15 Sep 2011 . Cette valuation pourra varier selon les domaines 41 et un accord modr dans cette chelle pourra tre considr comme bon pour un autre domaine comme la psychiatrie ou il y a plus dincertitude. [Bergeri et al. 2002]. Dans le cas du Tableau 3-1, le kappa est de 0.25. Le kappa saccompagne normalement de son degr de signification, calcul partir de la dviation standard de kappa : k

pobs(1 Pobs ) [Cohen 1960] N (1 Pexp ) 2

Cohen [Cohen 1968] a galement prsent une variante du coefficient Kappa prenant en compte les diffrences de distances entre les catgories. (Par exemple, une confusion Agacement/Impatience sera moins grave quune confusion Agacement/Amusement). Cela implique cependant de donner des poids a priori chaque cellule de la matrice. Dautres stratgies existent pour mesurer les corrlations entre les valuations de deux juges pour des donnes ordinales [Howell 1999 p 550-553] ou pour des variables continues (coefficient alpha de Cronbach [Cronbach 1951]) 3.1.4.2. Mesures de validation pour les axes Grimm et al. [Grimm et Kroschel 2007] ont regard la dviation standard pour chaque axe avec 6 juges pour une exprience et 17 pour une autre et ont fait des mesures de corrlation avec le coefficient de Pearson.

41

En biologie, on mesure souvent un diagnostic positif ou ngatif pour plusieurs techniques mdicales.

- 51 -

Chapitre 3 4BAnnotation des motions

3.2. Annotation du corpus CEMO


Avec des donnes relles enregistres, il est impossible de demander au locuteur de nous renseigner sur ses motions et on se place donc ncessairement au niveau du dcodage. Il sagissait tout dabord de choisir de manire rigoureuse une palette dmotions ou daxes dcrivant les donnes. Il nous fallait galement concilier notre volont dutiliser des tiquettes fines pour une meilleure analyse des donnes (cf. [Kappas et al. 1991]) et la ncessit davoir un nombre suffisant dchantillons par classe pour pouvoir ensuite entraner des systmes de reconnaissance. Se posait ensuite le problme de la rigueur et la validit des annotations. Plutt que de faire appel un grand nombre dannotateurs nafs pour annoter le corpus et pour des raisons pratiques, seules deux personnes expertes ont annot les donnes, un homme et une femme, afin de tenir compte des diffrences de sexe. tel-00624085, version 1 - 15 Sep 2011 Le terme Emotion sera utilis au sens large en accordance avec le rseau d'excellence Humaine. Lmotion Neutre , galement sujet de controverse dsignera un tat avec un faible niveau dactivation affective. Des expriences sur les donnes du Corpus 1, annot avant ma thse, ont aid mettre en place le protocole dannotation.

3.2.1. Exprience tire des travaux sur le Corpus de transactions boursires

Une premire annotation du Corpus financier antrieure au commencement du travail de thse


L'annotation initiale du corpus financier [Devillers et al. 2002] a t dveloppe avec, pour des raisons pratiques, un nombre restreint d'tiquettes motion. 5000 phrases ont t conserves et annotes par 2 personnes diffrentes avec un choix de 5 tats motionnels : Neutre, Colre, Peur, Satisfaction et Excuse. Une troisime personne tranchait en cas de dsaccord (3% des phrases taient ambigus et cette indcision tait le plus souvent entre un tat Neutre et une motion). Neutre est ltat de rfrence, la plupart des segments tant peu motionnels. Des tests perceptifs ([Devillers et al. 2003b] : 20 juges nafs dans chacun des tests : avec et sans coute du signal de parole) ont rvl que dans ce corpus, les motions classiques Colre et Peur correspondaient plus de l'nervement ( elle me la dj expliqu mais cest quand mme mal foutu quoi ) ou de l'inquitude ( parce que bon euh et et il faut attendre euh ). La classe Peur correspond souvent la - 52 -

Chapitre 3 4BAnnotation des motions peur de perdre de largent. Satisfaction (parfait , cest trs gentil ) et Excuse ( vraiment dsol demain normalement a devrait aller ) sont plus des attitudes que des motions, mais sont des tiquettes adaptes la description du corpus. Les segments non neutres constituent 13% du corpus. Le nombre de tours de parole par segment est donn dans le Tableau 3-4.
Peur 34 158 192 Colre 19 234 253 Excuse 48 3 51 satisfaction 106 62 168 Neutre 2423 1913 4336 Total 2630 2370 5000

Agent Client Total

Tableau 3-4. Nombre de fichiers pour chaque tat motionnel dans le corpus de donnes boursires.

Des confusions entre les classes Peur et Colre dans le Corpus 1


tel-00624085, version 1 - 15 Sep 2011 Avant de dcider du protocole dannotation pour le corpus CEMO, des premires expriences de classification ont t ralises sur le Corpus 1 laide dindices paralinguistiques. Alors que de bons rsultats taient obtenus pour la classification Neutre/Ngatif (voir), les performances de classification Peur/Colre taient proches du hasard avec les seuls indices acoustiques (47 indices lpoque) et de lordre de 60% de bonne dtection aprs ajout dindices lis aux disfluences. Aprs rcoute des signaux, il est apparu que pour certains segments on pouvait percevoir la fois de la peur et de la colre. Cela peut sexpliquer par le fait que les deux motions peuvent tre mlanges pour cette tche financire. Les clients sont en colre car ils ont peur de perdre de largent. Ce lien entre la peur et la colre est d'ailleurs mentionn dans [Lazarus 1998 p159].

Exprience de r-annotation des segments ngatifs avec possibilit de choisir 2 tiquettes par segment
Une exprience de r-annotation des segments ngatifs (445 segments Peur et Colre) a t mene en contexte afin de vrifier ces ambiguts avec deux annotateurs diffrents de ceux ayant fait la premire annotation. Huit tiquettes taient utilises pour cette exprience (cf.3.2.2) : Neutre, Tristesse, Peur, Colre, Embarras, Autre Ngatif, Empathie, Autre Positifs. Un annotateur avait la possibilit de choisir une deuxime tiquette sil percevait un mlange dmotions. Lmotion principale tait qualifie de Majeure ; si une deuxime motion tait perue, elle tait qualifie de Mineure. Les 2 annotateurs ont peru la mme motion Majeure dans 64% des cas et 13% des segments taient ambigus (pas dtiquette commune entre les 2 annotateurs). - 53 -

Chapitre 3 4BAnnotation des motions

Combinaison des nouvelles annotations en un vecteur par segment


Chaque annotation a t transforme en un vecteur Emotion [Peur, Colre] avec un poids de 2 pour le Majeur, et un poids de 1 pour le Mineur (Voir paragraphe 3.3). Les vecteurs correspondant chaque annotateur ont ensuite t moyenns afin davoir un vecteur par segment motionnel. 4 classes de segments se dduisent de ces vecteurs : Peur (Peur>0; Colre=0), Colre (Peur=0; Colre>0), Mlange (Peur>0; Colre>0) et Autre (Peur=0; Colre=0). La distribution de ces classes est reprsente dans la Figure 3-2.
Rannotation de la Peur et de la Colre
70 60 50 % 40 30 20 10 0

tel-00624085, version 1 - 15 Sep 2011

Autre Peur

Peur

Mlange

Colre

Colre (1re annotation)

Figure 3-2. Rpartition des segments annots prcdemment Peur et Colre aprs la r-annotation.

Consistance entre la premire et la deuxime annotation


Nous avons dabord vrifi que les deux annotations taient consistantes. Pour un segment pralablement annot Peur, nous avons considr que les deux annotations taient quivalentes si le champ Peur du vecteur tait strictement positif et suprieur ou gal au champ Colre (idem pour Colre). Cest le cas pour 78% des segments. 42 40% des segments ont t rannots comme mlange. Cela peut expliquer les faibles scores de classification Peur/Colre et souligne la ncessit davoir des classes le plus distinctes possibles pour entraner des systmes en vue de faire de la classification.

Par exemple pour un segment Colre par la premire annotation, si lannotateur 1 le peroit comme Peur et lannotateur 2 comme Colre, les 2 annotations ne sont pas cohrentes. Par contre si lannotateur 1 peroit de la colre et lannotateur 2 peroit de la Peur en Majeur et de la Colre en Mineur, les deux annotations sont cohrentes.
42

- 54 -

Chapitre 3 4BAnnotation des motions Le fait dutiliser plusieurs tiquettes lors de lannotation est ainsi un moyen didentifier les donnes complexes et de ne pas les utiliser lors de lentranement de classifieurs. Cependant cela pose problme la fois pour mesurer la validit des annotations et pour choisir ltiquette motion attribue un segment. Traditionnellement (cf. 3.1.3), N annotateurs jugent les donnes et une tiquette est attribue un segment, en gnral par vote majoritaire. Des mesures daccord permettent de vrifier la robustesse de lannotation et les segments sur lesquels les N annotations sont trop diffrentes sont exclus lors des expriences de dtection. Accepter davoir plusieurs tiquettes par segment motionnel multiplie le nombre de classes possibles et implique de mettre en uvre des mthodes pour valider lannotation. Il faut ensuite tablir des rgles pour combiner N annotations complexes afin davoir une annotation (tiquette, vecteur ?) par segment.

tel-00624085, version 1 - 15 Sep 2011

- 55 -

Chapitre 3 4BAnnotation des motions

3.2.2. Annotation du corpus CEMO


Nous avons adopt une palette discrte dmotions verbales pour annoter les motions du corpus[Plutchik 1984] [Cowie 2000], ce qui permet de mlanger les catgories verbales afin dobtenir une description des motions complexes. L'annotation utilise la fois des dimensions abstraites (intensit et contrle) et des tiquettes, avec une ou deux tiquettes par segment (Majeur et Mineur). Ces tiquettes sont hirarchises en partant des tiquettes les plus fines jusqu des tiquettes plus larges. Toutes les annotations ont t faites en contexte : lannotateur coutait lensemble du dialogue et en particulier les tours prcdents le segment a annoter. Nous ne considrons pas quil y ait une bonne annotation par segment, mais plusieurs perceptions diffrentes. tel-00624085, version 1 - 15 Sep 2011

Le segment motion
Le tour de parole est segment par groupe de souffle en plusieurs segments si ncessaire. Lannotation se fait par dfaut au niveau du tour de parole (environ 32900 tours de parole au total), mais pour grer laspect dynamique, chaque annotateur avait la possibilit de couper le tour en plusieurs segments motionnels sil percevait 2 motions diffrentes squentiellement 43. Cette coupure se faisait cependant au niveau des sparateurs syntaxiques dfinis par les transcripteurs. Nous avons ainsi cr des units motionnelles, qui peuvent tre infrieures aux tours de parole bien que le tour de parole reste lunit majoritairement utilise. Les bruits ont t galement retirs, ainsi que les chos (550 bruits ou chos) afin davoir des donnes le plus propre possible.

Quelles tiquettes ?
Notre objectif tait de choisir un ensemble dtiquettes adaptes nos donnes et comparables celles dautres tudes. Une liste de 52 termes motionnels pertinents des interfaces du futur sensibles aux motions, tablie par Roddy Cowie lors de lcole dt de HUMAINE Belfast. (http://emotion-research.net/ws/summerschool1), a servi de rfrence pour le choix des tiquettes (voir Figure 3-3 ).

43

Des coupures similaires, dpendant de lapprciation de 3 juges avaient galement taient effectues par [Greasley et al. 2000] afin dobtenir des segments comprenant un seul tat motionnel pour un test perceptif.

- 56 -

Chapitre 3 4BAnnotation des motions


Admiration Affection Amusement Annoyance Anxiety Approval Boredom Calm Cold anger Coldness Interest Contempt Cruelty Despair Determination Disagreeableness Disppointment Disapproval Disgust Distraction Embarrassment Serenity Fear Friendliness Greed Guilt Happiness Hopeful Hot anger Hurt Impatience Indifference Jealousy Mockery Neutrality Panic Pleasure Relaxation Relief Resentment Sadness Satisfaction Shame Shock Stress Surprise Sympathy Wariness Weariness Worry Confidence Excitement

Figure 3-3. Liste de termes motionnels pertinents pour des interfaces du futur sensibles aux motions, tablie par Cowie. Cinq personnes familires avec le corpus CEMO ont valu pour chaque motion de la liste son degr de pertinence avec le corpus sur une chelle de 0 3. Aprs un vote majoritaire, nous avons tel-00624085, version 1 - 15 Sep 2011 abouti une liste de 18 termes motionnels : Anxit, Stress, Peur, Panique, Agacement, Impatience, Colre froide, Colre chaude, Dception, Tristesse, Dsespoir, Douleur, Embarras, Soulagement, Intrt, Amusement, Surprise et Neutre. A ces termes ont t ajouts pendant une phase de calibration (cf. p61) les tiquettes Dsarroi (ne sait pas quoi faire), Rsignation et Compassion. En cas de difficult reconnatre l'motion, les annotateurs pouvaient galement utiliser les tiquettes Positif, Ngatif ou Unknown ( je ne sais pas ), mais ces tiquettes ont t rarement utilises : pour 1% des segments pour un annotateur (soit environ 450 segments sur 34280 au total) et 0.1% (4 segments) des segments pour lautre.

Une hirarchie en mta-catgories


Des ensembles de diffrents niveaux de granularit peuvent tre drivs de cette liste afin de tenir compte des proximits entre les diffrents termes (l'irritation est plus proche de la colre que de la surprise) et d'avoir assez d'instances par catgories pour pouvoir plus tard construire des modles. Au plus haut niveau, on retrouve la sparation entre les motions ngatives et positives. Les catgories sont identifies par un des termes de la catgorie, comme dfini par Ortony ([Ortony et Turner 1990 p8]):
"For some categories of emotions, a language like English provides a relatively large number of tokens, thus reducing the need for metaphorical descriptions of emotional quality. In such cases, it becomes necessary to identify one of the words in the category as the unmarked form or category label. [] It may be helpful to think of the word "fear" as a relatively neutral word for an emotion type, fear. "

- 57 -

Chapitre 3 4BAnnotation des motions

Valence

Classe large (7 classes) Peur Colre

Etiquettes fines (20 classes + Neutral) Peur, Anxit, Stress, Panique Agacement, Impatience, Colre froide, Colre chaude Tristesse, Dception, Rsignation, Dsarroi, Embarras Dsespoir Douleur Surprise Intrt, Compassion, Amusement, Soulagement Neutre

Ngatif

Tristesse Douleur Surprise Positif Neutre

Ngatif ou Positive Positive Neutre

Tableau 3-5. Hirarchie des classes d'motion. Ce groupement a galement t effectu par vote majoritaire entre 5 personnes (les mmes qui ont choisi les tiquettes) en sadaptant aux instances du corpus CEMO. Par exemple, le stress est dans tel-00624085, version 1 - 15 Sep 2011 le corpus beaucoup plus proche de la peur que de la colre. Parce qu'il y a peu de manifestations positives dans le corpus, une seule classe Positif regroupe toutes les autres. Elle pourrait tre divise en Empathie (Intrt, Compassion), Soulagement et Autres positifs Pour les autres motions, nos sous-catgories correspondent celles dfinies par les psychologues [Shaver et al. 2001]. Dans une tude sur la structure hirarchique des termes motionnels en anglais, ils ont remarqu que mme si les gens ont des difficults dfinir certains termes motionnels, ils saccordent facilement sur des catgories regroupant les diffrents termes. Il a t demand cent tudiants en psychologie de regrouper une centaine de concepts motionnels (extraits du semantic atlas of Emotional concepts [Averill 1975] en catgories. Les rsultats de lanalyse par clustering hirarchique sont donns Tableau 3-6 et sont cohrents avec nos sous catgories.

- 58 -

Chapitre 3 4BAnnotation des motions

Nom du sous Cluster Cluster slectionn empiriquement Affection Love Lust Longing Cheerfulness Zest Joy Contentment Pride Optimism Enthrallment Relief Surprise Surprise Irritation Exasperation Anger Rage Disgust Envy Torment Suffering Sadness Sadness Disappointment Shame Neglect Sympathy Horror Fear Nervousness

Sous-cluster Adoration, affection, love, fondness, liking, attraction, caring, tenderness, compassion, sentimentality Arousal, desire, lust, passion, infatuation Longing Amusement, bliss, cheerfulness, gaiety, glee, jolliness, joviality, joy, delight, enjoyment, gladness, happiness, jubilation, elation, satisfaction, ecstasy, euphoria Enthusiasm, zeal, zest, excitement, thrill, exhilaration Contentment, pleasure Pride, triumph Eagerness, hope, optimism Enthrallment, rapture Relief Amazement, surprise, astonishment Aggravation, irritation, agitation, annoyance, grouchiness, grumpiness Exasperation, frustration Anger, rage, outrage, fury, wrath, hostility, ferocity, bitterness, hate, loathing, scorn, spite, vengefulness, dislike, resentment Disgust, revulsion, contempt Envy, jealousy Torment Agony, suffering, hurt, anguish Depression, despair, hopelessness, gloom, glumness, sadness, unhappiness, grief, sorrow, woe, misery, melancholy Dismay, disappointment, displeasure Guilt, shame, regret, remorse Alienation, isolation, neglect, loneliness, rejection, homesickness, defeat, dejection, insecurity, embarrassment, humiliation, insult Pity, sympathy Alarm, shock, fear, fright, horror, terror, panic, hysteria, mortification Anxiety, nervousness, tenseness, uneasiness, apprehension, worry, distress, dread

tel-00624085, version 1 - 15 Sep 2011

Tableau 3-6. Rsultats dune analyse par clustering hirarchique de 135 noms dmotion (daprs [Averill 1975]).

- 59 -

Chapitre 3 4BAnnotation des motions

Deux tiquettes possibles par segment


Afin de pouvoir rentre compte des motions complexes, les annotateurs avaient la possibilit de choisir deux tiquettes par segment, l'tiquette Majeur (comme dfinie page 53) et Mineur. Nous adopterons la notation Emotion1/Emotion2 pour dcrire une annotation avec comme tiquette Majeur Emotion1 et comme tiquette Mineur Emotion 2. Lannotateur 1 a utilis une tiquette Mineure pour 31% des segments non neutre contre 17% pour lannotateur 2. Les motions mixtes sont de plusieurs types et seront dcrites plus en dtail dans le Chapitre 4 (p75) : Hsitation entre deux tiquettes dune mme grande classe. Par exemple si lmotion perue est entre limpatience et la colre chaude, elle sera annote Impatience/Colre chaude tel-00624085, version 1 - 15 Sep 2011 Perception quasi simultanment de deux motions diffrentes. Exemple : Anxit/Agacement Annotation de la surprise : la surprise tant la seule motion dont on ne peut dduire la valence, il tait demand aux annotateurs percevant de la surprise d'indiquer en motion mineure sa valence (entre positif ou ngatif). Dans 80% des cas, cette valence a t annote comme Unknown.

Autres annotations
Pour des raisons de cot, nous avons considr que la valence pouvait se dduire des tiquettes (d'o la ncessit de l'indiquer en Mineur pour la Surprise). Cette dcision a t confirme par un test perceptif o les sujets devaient annoter la fois la valence et les tiquettes de segments motionnels du corpus (voir p80 pour une description du test perceptif). Sur 1600 segments annots par 44 sujets dorigine la fois franaise et trangre, il ny a que 4% des cas o la valence perue par les sujets ne correspond pas ltiquette du Majeur. Parce quil y a souvent des confusions entre activation (passif, normal, actif) et intensit, lintensit seulement est juge sur une chelle de 1 5 (faible fort). Nous avons ajout une autre dimension, le contrle (est ce que le locuteur semble contrler son motion?), diffrente de l'axe Puissance/Contrle dfini par Osgood [Osgood et al. 1975]. Il a t annot sur un axe de -3 +3. Il permet notamment de reprsenter des nuances trs intressantes, comme la simulation dun tat motionnel. Certaines annotations dialogiques, comme les rptitions (de soi ou de linterlocuteur), le mensonge et l'ironie sont galement annotes. - 60 -

Chapitre 3 4BAnnotation des motions Toutes les annotations sont rsumes dans la Figure 3-4 ci-dessous :
Majeur
Peur Anxit Stress Panique Agacement Impatience Colre froide Colre chaude Tristesse Dception Rsignation Dsarroi Embarras Dsespoir Douleur Surprise Intrt Compassion Amusement Soulagement Neutre Ngatif Positif Inconnu

Mineur
Aucun Peur Anxit Stress Panique Agacement Impatience Colre froide Colre chaude Tristesse Dception Rsignation Dsarroi Embarras Dsespoir Douleur Surprise Intrt Compassion Amusement Soulagement Neutre Ngatif Positif

intensit contrle

0 ..

-3 .. 3

rpetition: de soi ironie

de lautre

mensonge

Segment motion

tel-00624085, version 1 - 15 Sep 2011

Figure 3-4. Le schma d'annotation : rcapitulatif, lannotation est faite en contexte, chaque tour pouvant tre coup en segment. Pour chaque segment sont annots : une ou deux tiquettes, ainsi que lintensit et le contrle. Lannotateur peut aussi indiquer si la personne rpte ce quelle a dj dit ou ce que son interlocuteur a dit et si elle peroit de lironie ou du mensonge.

- 61 -

Chapitre 3 4BAnnotation des motions

Phase de calibration pralable l'annotation des donnes


Le protocole dannotation ncessite une phase dapprentissage et de calibration pour les chelles dvaluation. De plus les motions ntant pas strotypes dans des donnes naturelles, il nexiste pas ncessairement dtiquette dcrivant rigoureusement un type de comportement et nous voulions nous assurer que les mmes comportements seraient dcrits par la mme tiquette par chaque annotateur. En effet, des expriences sur des donnes naturelles comme celle de Scherer et al. ont montr que des annotateurs diffrents pouvaient utiliser de manire consistante deux tiquettes diffrentes pour dcrire un mme comportement [Scherer et Ceschi 2000]. Afin deffectuer cette vrification, il faut tout dabord extraire un sous-ensemble de dialogues du corpus. On peut les slectionner de manire alatoire en aveugle ou au contraire choisir des dialogues comportant des phnomnes intressants. Une quinzaine de dialogues (certains choisis spcifiquement, dautres slectionns au hasard) ont t annots par 4 personnes durant cette tel-00624085, version 1 - 15 Sep 2011 phase de calibration. Cela a men la mise en place d'un guide dannotation (voir Figure 3-5) avec une dfinition et des exemples pour chaque tiquette, ainsi qu'une dcision de frontire entre un tat avec un faible degr d'motion (tiquette Neutre) et une Emotion.
1 - NEGATIVE PEUR : dbit non rgulier, dvoisement, hsitation, rptition, souffle, pleurs 1 anxiety (inquitude) : pas de la peur, se faire du souci, avoir une inquitude. Indices prosodiques : silence, allongement syllabique, hsitations, soupir. Indices lexicaux : numration et rptition des symptmes observs, tentative de trouver des explications. Il peut y avoir une ambiguit avec sadness cause du ton plaintif de lappelant. Exemples (nom du fichier et timecode) et je j'arrive pas dormir (3su_2_3-41.029-43.522) . 2 stress : acclration du dbit, bafouillement, rptitions. Le stress peut tre une nervosit naturelle, inhrente la personnalit de lappelant, ou une nervosit provoque par la situation angoissante.

Figure 3-5. Un extrait du protocole dannotation.

- 62 -

Chapitre 3 4BAnnotation des motions

Outil d'annotation : le logiciel transcriber


Les annotations ont t effectues avec le logiciel Transcriber, dj utilis pour la transcription [Barras et al. 2000] qui a t enrichi dune dtd 44 motion (voir Figure 3-6).

tel-00624085, version 1 - 15 Sep 2011

Figure 3-6. Logiciel transcriber avec une dtd motion utilise pour l'annotation. L'extrait se situe la fin d'un dialogue assez long entre un agent et la fille d'une patiente qui appelle pour la deuxime fois en quelques jours. La fois prcdente, une ambulance avait t envoye, mais la situation avait t considre comme non critique et la patiente avait t ramene chez elle. L'agent n'arrivant pas dterminer prcisment le motif de l'appel est un peu agac par la situation, malgr sa compassion pour la patiente. Les tours Neutre ne sont pas annots, sauf si passage dun tat motionnel un tat Neutre au milieu dun tour. Lannotation se prsente ensuite sous forme de balises.

44dtd

:Document Type Definition

- 63 -

Chapitre 3 4BAnnotation des motions

3.2.3. Validation
Comment comparer et valider N annotations avec des units parfois diffrentes et ventuellement plusieurs tiquettes motion ? Les annotateurs ayant chacun la possibilit de couper le tour de parole, la premire ncessit est de choisir la taille du segment motionnel final, puis dappliquer des mesures de validit. Comme indiqu page 49, plusieurs mesures dinter-annotation existent, comme par exemple le coefficient Kappa dans le cas de donnes ordinales. Ces mesures se font sur des segments avec une seule tiquette. De plus, elles sappuient sur le principe dexistence dune annotation correcte vers laquelle les annotateurs doivent idalement converger. Nous partons du principe quil ny a pas systmatiquement une bonne annotation, mais quil peut y avoir diffrentes perceptions possibles et plus particulirement lorsquon se penche sur des tiquettes trs fines et complexes. Cependant, tel-00624085, version 1 - 15 Sep 2011 si deux annotateurs ont une mme perception, ils doivent utiliser la mme tiquette. La proportion dmotions complexes tant assez faible, nous nous attendons toutefois globalement une certaine convergence, que nous voulons pouvoir comparer dautres tudes semblable : cest pourquoi nous avons calcul le coefficient kappa. Par ailleurs, sil y a des segments perus de la mme manire par un grand nombre dauditeurs nafs, notre annotation doit reflter cette perception. Pour le vrifier, nous avons ralis un test perceptif en utilisant la fois des segments ou les jugements des deux annotateurs experts convergeaient et dautres o il ny avait pas daccord. Un bon annotateur devra en tout cas tre cohrent avec lui-mme (intra-cohrence), ce qui est plus facile mesurer.

- 64 -

Chapitre 3 4BAnnotation des motions

Segment motionnel :
Chaque annotateur a choisi son segment motionnel et la annot. Finalement, 1,4% (466) des tours de parole ont t coups par lannotateur 1 et 1,6% (395) par lannotateur 2. Ces coupures ne concernent pas ncessairement les mmes tours de parole et dans le cas o le mme tour est coup, ce nest pas forcment au mme endroit. (cf. exemples Figure 3-7 et Figure 3-8). Dans le cas de la Figure 3-7, les 2 annotateurs ont peru une progression squentielle de lagacement vers la peur, mais pas au mme moment.
A P P E L A N T

t1 t2 t3 t4 t5 T6 t7

[Parole] [Bruit de bouche] [Parole] [Silence] [Parole] [Silence] [Parole]

Anno1 Agacement

Anno2 Agacement

Anxit/ Stress

Anxit

tel-00624085, version 1 - 15 Sep 2011

Figure 3-7. Exemple de tour de parole coup diffremment par les 2 annotateurs. t1t7 sont les time-codes correspondant au dbut des donnes transcrites droite. Diffrentes stratgies sont envisageables pour combiner les choix des deux annotateurs. Dans le cas de la Figure 3-7, on pourrait couper le tour t2 quand le premier changement est peru, choisir de conserver le tour de parole comme unit en cas de dsaccord ou demander une troisime personne de trancher. Nous avons choisi de garder le segment le plus petit, afin davoir des motions le plus pures possibles lorsquon entranera des systmes. Au final, il y aura donc un segment tiquet Agacement de t1 t2, suivi dune phase de transition de t2 t4 qui sera tiquet avec la combinaison des annotations Agacement et Anxit/Stress et enfin un segment correspondant de la peur de t4 t8. Cela peut amener avoir des segments de taille trop petite pour tre tudis. Pour remdier ce problme, il faudrait une phase de correction derreurs dannotations et de synchronisation des segments. Par exemple dans le cas de la Figure 3-8, si un annotateur coupe le tour en t2 et lautre en t3, le tour sera coup en 3 segments avec le deuxime segment de taille trs petite, compos dun bruit de bouche annot Soulagement par un annotateur et Agacement par lautre. Cependant, ces cas sont trs rares (une dizaine de cas) et une grande majorit des segments de trs petite taille est due des bruits ou chos en milieu de tour de parole. Pour tre plus rigoureux et pouvoir sadapter un nombre plus grands dannotateurs, il faudrait nanmoins ajouter une phase au protocole pour dfinir de faon consensuelle les units motionnelles et ensuite les annoter.

- 65 -

Chapitre 3 4BAnnotation des motions

Anno1
Appelant

Anno2 Soulagement Agacement

T1 T2 T3 T4

Ah daccord [Silence] [bruit de bouche] c'est pas xxxxxxx

Soulagement Anxit

Figure 3-8. Exemple 2 : tour de parole coup diffremment par les 2 annotateurs.

tel-00624085, version 1 - 15 Sep 2011

- 66 -

Chapitre 3 4BAnnotation des motions

3.2.4. Cohrence inter-annotateur : le coefficient kappa


Le calcul du Kappa suppose que les classes dmotions soient indpendantes. Or pour des tiquettes fines, la distance entre les classes Agacement et Surprise et plus grande quentre Agacement et Colre par exemple. Nous pourrions utiliser le kappa pondr, mais comment choisir la pondration ? Afin de pouvoir se comparer des tudes similaires et de ne pas avoir grer les problmes de proximit entre les classes fines, le kappa a t calcul sur les grandes classes. Reste le problme que le Kappa se calcule normalement avec une tiquette par classe.

Comment grer les doubles tiquettes ?


Une tentative de solution a t apporte par Rosenberg et al. [Rosenberg et Binkowski 2004], mais les valeurs de kappa deviennent alors trs faibles et il ny a aucune valeur canonique pour juger du tel-00624085, version 1 - 15 Sep 2011 rsultat et nous ne savons pas comment analyser le coefficient rsultant. Si on ne regarde que les classes larges, les annotations du type 2 tiquettes de degr diffrent (Agacement/Colre chaude) ou mlange de deux motions dune mme grande classe (Agacement/Impatience) deviennent quivalentes une seule tiquette Colre. Idem dans le cas de la surprise, o le Mineur doit seulement prciser la valence par une tiquette Positif ou Ngatif. On peut alors regarder uniquement le Majeur, considrant que les tiquettes doubles sont moins frquentes que les simples et que le Majeur correspond lmotion principale perue. Dans ce cas cependant, des annotations du type Annotateur1: Agacement/Anxit; Annotateur2 : Anxit/Agacement seront considres comme diffrentes. Il aurait t possible de faire des rgles daccord comme par exemple de considrer comme gales (ou demi-gales) deux annotations inverses "Majeur/Mineur =Mineur/Majeur". Ce type de rgles peut savrer difficile avec beaucoup dannotateurs. Finalement, pour les donnes CEMO, le Kappa est de 0,57 pour les clients et de 0,35 pour les agents lorsquon ne regarde que le Majeur. La plupart des dsaccords sont entre un tat neutre et un tat motionnel. Ces valeurs sont du mme ordre que celles trouves dans dautres tudes (0.48 pour [Grimm et al. 2007] avec4 motions actes et 4 juges). Le Kappa est lgrement suprieur lorsquon utilise des rgles d'accord entre 2 annotations.

- 67 -

Chapitre 3 4BAnnotation des motions

3.2.5. Cohrence intra-annotateur : r-annotation


Nous avons voulu valuer la cohrence dans le temps des annotateurs. Pour ce faire, des ensembles de dialogues ont t rannots diffrents moments (aprs un mois par exemple). La fiabilit des annotations semble se stabiliser 85% (cf. Tableau 3-7). Dec-Fev Jan-Fev Mar-Avr Avr-Mai 76.4 (369 seg.) 82.9 (287 seg.) 86.1 (495 seg.) 85.7 (405 seg.) Agent 66.5 (369 seg.) 80.8 (279 seg.) 86.8 (499 seg.) 87.6 (412 seg.) 73.9 (356 seg.) 83.9 (255 seg.) 83.4 (499 seg.) 84.2 (442 seg.) Client 78.5 (350 seg.) 76.5 (254 seg.) 81.4 (505 seg.) 85.8 (450 seg.) Tableau 3-7. Mesure de fiabilit dun annotateur : % accord entre deux annotations par un mme annotateur deux moments diffrents. Dec-Fev signifie une premire annotation en dcembre et une deuxime en fvrier, (14 dialogues), Jan-Fev premire annotation en janvier,deuxime en fvrier (11 dialogues), Mar-Avr (16 dialogues), Avr-Mai (16 dialogues). Les 2 lignes pour agent et client correspondent aux 2 annotateurs.

tel-00624085, version 1 - 15 Sep 2011

3.2.6. Test perceptif


Un test perceptif a t ralis auprs de 40 sujets la fois sur des segments simples o les 2 annotateurs taient daccords et sur des segments o ils ntaient pas daccord (voir Chapitre 4 p80 pour une description du test perceptif). Ce test a valid la fois lexistence dmotions doubles et lexpertise des annotateurs. Il na pas mis en vidence de cas o lensemble des sujets convergeait sur des segments pour lesquels les annotateurs experts ne percevaient pas la mme motion. (Toutefois, il aurait fallu tester plus de segments). Les sujets pouvaient ajouter une tiquette libre et le test na pas rvl de failles dans notre ensemble dtiquettes (cf. p 86).

- 68 -

Chapitre 3 4BAnnotation des motions

3.3. Combiner les annotations : un vecteur motion


Comme chaque segment tait annot par plusieurs annotateurs et quon pouvait lui assigner une ou deux tiquettes, il a t ncessaire de crer un mapping afin de pouvoir effectuer un apprentissage. Une annotation sera considre comme un vecteur (Majeur, Mineur) et N annotations seront combines en un vecteur motion (voir exemple Figure 3-9 ) : la taille du vecteur motion est le nombre dmotions tudies. Diffrents poids sont attribus au Majeur (wM) et au Mineur (wm) et les diffrentes annotations sont sommes et moyennes. Cette reprsentation sous forme de vecteur dmotions a t galement utilise reprsenter des motions complexes dans des donnes audio-visuelles [Devillers et al. 2005a]. tel-00624085, version 1 - 15 Sep 2011 Segment annotation :
Annotateur 1 : Majeur Agacement, Mineur Intrt Annotateur 2 : Majeur Stress, Mineur Agacement

Conversion en un vecteur motion :


-> (wM/W Agacement, wm/W Stress, wm/W Intert) Pour wM=2, wm=1, W=6
-> (0. 5 Enervement, 0.33 Stress, 0,17 Intrt).

Figure 3-9. Exemple de cration dun vecteur dmotions pondres. Si on souhaite mettre une tiquette finale un segment (analyse, dtection), elle se dduit des champs les plus grands du vecteur motion. A peu prs 50% du corpus a ainsi t tiquet comme neutre. Les tiquettes motions sont diffrentes pour les agents et les appelants. Globalement, les plus frquentes dans la classe Positive sont le Soulagement, lIntrt et la Compassion, ceux de la classe Ngative sont le Stress, lAnxit, lAgacement, lImpatience et lEmbarras. La proportion des tiquettes les plus frquentes pour les agents et les clients est donne dans le Tableau 3-8 ci-dessous.
Client 10810 seg. Agent 11207 seg. Neutre 67.6% Neutre 89.2% Anxit 17,7% Intrt 6.1% Stress 6.5% Compassion 1.9% Soulagement 2.7% Agacement 1.7% Douleur 1.1% Surprise 0.6% Autre 4.5% Autre 0.6%

Tableau 3-8. Rpartition des tiquettes fines (5 meilleures classes) avec le mme Majeur. (688 dialogues), Autre donne le pourcentage de segments annots avec les 19 tiquettes restantes. - 69 -

Chapitre 3 4BAnnotation des motions

3.4. Clustering

sur

les

annotations

utilisant

un

algorithme divisif
La matrice de confusion des annotations permet galement de donner une ide des classes motions qui sont le plus diffrencies par les annotateurs. Elle peut tre reprsente graphiquement sous forme de clustering hirarchique aussi appel dendrogramme [Kaufman et Rousseeuw 1990] : les donnes sont reprsentes sous la forme dun arbre binaire dans lequel la distance verticale entre deux feuilles est fonction de leur distance dans la matrice de confusion. Deux manires existent pour construire larbre : tel-00624085, version 1 - 15 Sep 2011 mthode descendante (division) : on commence avec un groupe contenant toutes les donnes et on le divise chaque itration en utilisant des mesures de distance. mthode ascendante (agglomration) : on commence avec chaque classe de donnes dans un groupe spar et les donnes les plus proches sont regroupes chaque itration. Les dendrogrammes ont t construits pour les agents et les appelants laide du logiciel libre R 45, en utilisant la mthode ascendante Agns avec la distance euclidienne (des figures similaires taient obtenues avec dautres distances et dautres mthodes)

Figure 3-10. Dendrogrammes issus du clustering agglomratif utilisant une distance euclidienne.

45

www.r-project.org

- 70 -

Chapitre 3 4BAnnotation des motions Finalement, les classes les mieux diffrencies sont celles les plus reprsentes avec pour les agents un groupe Neutre et un groupe Emotion qui peut tre spar entre Positif et Autre motion et pour les appelants un groupe Peur, un groupe Neutre et un groupe avec les autres motions.

3.5. Conclusion
En conclusion nous avons propos un schma dannotation et un protocole de validation de nos tiquettes motions. Nous navons pas encore exploit toutes les annotations de ce corpus.
Un des rsultats de ma thse est lobservation et la reprsentation dmotions complexes dans les donnes spontanes. Des analyses perceptives ont t menes pour valider la prsence dmotions complexes, nous les dcrivons dans le chapitre 4. tel-00624085, version 1 - 15 Sep 2011

- 71 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO


Rsum
Nous disposons dsormais dun ensemble de donnes annotes de manire fiable avec un vecteur motion par segment. Nous pouvons alors nous pencher plus en dtails sur les donnes qui seront utilis pour une majorit de nos travaux. Dans ce chapitre, nous donnons dabord un aperu de la varit du corpus. Nous allons ensuite nous focaliser sur les mlanges dmotions, et en particulier les mlanges positifs et ngatifs peu souvent tudis, travers deux expriences perceptives. Comment valider leur prsence ? Ces mlanges peuvent-ils tre perus hors contexte ? Quels types dindices permettent de les percevoir ? Une exprience perceptive sur les types dindices permettant de percevoir les mlanges motions sera dcrite. Cette exprience a t gnralise sur dautres catgories de mlanges et valide avec des annotateurs nafs. We are now armed with a 20-hour corpus precisely annotated, each segment being described by an emotion vector. In this chapter we focus on emotion mixtures, what has seldom been done and look more closely at the data that will be used for most of our experiments. We also describe 2 perceptive tests, one investigating the different type of cues that enable expert annotators to perceive 2 emotions at the same time, and one focusing on how nave judges perceive these mixtures in conditions close to those of the detection system (data removed from its original context). Those tests also serve as a validation of our annotation protocol.

tel-00624085, version 1 - 15 Sep 2011

- 72 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

4.1. 4.2. 4.2.1. 4.2.2. 4.2.3.

DISTRIBUTION DES EMOTIONS................................................................................................................ 74 LES MELANGES DEMOTIONS ................................................................................................................. 75 Diffrents cas dans le corpus CEMO ............................................................................................... 75 Diffrents indices : Une tude sur les motions conflictuelles ................................................... 77 Test perceptif sur les motions complexes........................................................................................ 80
Rsultats par Sujet.................................................................................................................................................. 83 Rsultats par vecteur .............................................................................................................................................. 83 Comparaison des diffrentes annotations avec celles dun SVM ........................................................................... 85 Validation des tiquettes ........................................................................................................................................ 86 La valence .............................................................................................................................................................. 87 Les indices ............................................................................................................................................................. 88

4.3.

CONCLUSIONS........................................................................................................................................ 88

tel-00624085, version 1 - 15 Sep 2011

- 73 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

4. ANALYSE DES MELANGES DEMOTIONS DANS LE CORPUS CEMO 4.1. Distribution des motions
Lmotion exprime va dpendre de nombreux facteurs tels que lge du sujet, son sexe, son rle ou sa relation avec le patient. De plus, des manifestations trs varies vont tre dsignes par la mme tiquette motion. La Figure 4-1 indique la rpartition des motions pour les agents, pour les 20 heures de donnes qui ont t annotes. Comme il a dj t indiqu, les motions exprimes sont principalement ngatives, pour lappelant comme pour les agents. Si lon exclut les segments ambigus ( la limite entre un tat neutre et une motion), prs de la moiti du corpus tel-00624085, version 1 - 15 Sep 2011 contient des donnes motionnelles, principalement de la peur. En poussant lanalyse un peu plus loin, on pourrait distinguer des profils types suivant le type dappelant (sexe, relation avec le patient, ge ?) ou entre les diffrents agents [Devillers et al. 2004]. Il y a en effet des diffrences de comportement suivant la personne qui interagit et Campbell montre par exemple quil y aura des diffrences significatives de certains paramtres acoustiques suivant que quelquun interagit avec quelquun de sa famille, ses amis ou une personne moins proche [Campbell et Mokhtari 2003].

F_1

432

378

49

F_2

1185

2073

184

F_autres

40

70

16

H_1

3554

7485

970

H_autres

30 20% 40% ngatif neutre

62 60% positif 80%

8 100%

0%

Figure 4-1. Rpartition des motions entre positif, ngatif et neutre pour les agents. Dans les donnes rcoltes, 3 agents interviennent beaucoup F_1, F_2 et H_1. Les nombres indiquent le nombre de segment pour chaque cas. Hess reporte des diffrences dans lexpression des motions selon le sexe, les femmes exprimant en gnral plus de peur que les hommes et exprimant certaines motions diffremment, par exemple en pleurant plus quand elles se mettent en colre[Hess 2006]. Sur notre chantillon de 20h de conversation, les hommes semblent moins motionnels que les femmes lorsque le patient nest pas un proche et ils expriment un peu plus de colre. - 74 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

4.2. Les mlanges dmotions


4.2.1. Diffrents cas dans le corpus CEMO
Comme indiqu dans le chapitre Annotation, les annotateurs ont respectivement annot 31% et 17% de mlanges. Une typologie des mlanges a t drive des diffrents cas. On dfinit les mlanges dmotion comme ambigus quand les motions appartiennent la mme grande classe (i.e. Colre froide/Agacement/Colre chaude), conflictuels si elles appartiennent des classes diffrentes de valence diffrente (i.e. Anxit/Amusement) et non conflictuels si elles appartiennent des classes diffrentes de mme valence (i.e. Anxit/Agacement). Ltiquette Surprise tant part, les motions mixtes contenant de la surprise seront tudies sparment. Les tel-00624085, version 1 - 15 Sep 2011 proportions des diffrents types de mlanges annots sont indiques Figure 4-2. Les tiquettes ambigus seront le plus souvent utilises lorsquun annotateur ne trouve pas dtiquette correspondant exactement lmotion quil peroit. Sa stratgie sera alors de donner deux tiquettes proches. Dans les autres cas d'motions mixtes, il peroit des motions diffrentes simultanment. Elles sont dailleurs souvent causes derreurs lorsquelles sont utilises pour crer ou tester des modles[Vidrascu et Devillers 2005c] ).

lab1
2500 2000 1500 1000 500 0
gu Ne Po bi el Am :2 :2 tu rp ris e l es g s

lab2

lab2 la b1

ge

ge

an

an

Figure 4-2. Rpartition des mlanges dmotion pour chaque annotateur. lab1 and lab2 sont les 2 annotateurs; Mlange: 2Pos signifie que les 2 tiquettes sont choisies dans des classes diffrentes dmotions positives ('Amusement', 'Soulagement, 'Compassion/Intrt' ); Mlange: 2Neg signifie que les 2 tiquettes sont choisies dans 2 classes ngatives diffrentes ('Peur', 'Colre', 'Tristesse' et 'Douleur' ). - 75 -

Co

nf

l ic

Su

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

Nous parlons dmotions conflictuelles lorsquun segment est annot la fois par une tiquette positive et par une tiquette ngative. Elles sont diffrentes selon leur position dans le dialogue (entre les agents et les appelants). Un exemple typique dans notre corpus sera pour un agent dprouver de la compassion envers un appelant teinte par de lagacement (ou dessayer de masquer son irritation par une voix compatissante): je comprends bien Madame mais j'ai pas de solution miracle . Pareillement, un appelant pourra tre rconfort par lagent et exprimer son soulagement en mme temps que du stress ou de lanxit aprs une intervention de lagent Hum daccord l j(e) l je me sens beaucoup [parole inintelligible] parce que jai les renseignements parce que . Les deux motions peuvent tre squentielles, mais elles peuvent aussi tre exprimes en mme temps. tel-00624085, version 1 - 15 Sep 2011

- 76 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

4.2.2. Diffrents indices : Une tude sur les motions conflictuelles

Objectif et protocole
Une tude a t conduite [Vidrascu et Devillers 2005b] afin de valider les mlanges dmotions positives et ngatives et de les tudier plus prcisment. Lobjectif tait la fois de voir si une des deux motions tait vraiment dominante et si les types dindices permettant de percevoir les 2 motions taient diffrents (par exemple une motion est-elle perue grce des indices lexicaux et lautre grce des indices prosodiques ?). Le focus de ltude tant le type dindices utiliss, lexprience a t ralise par des personnes expertes connaissant le corpus et familires avec les diffrents mlanges dmotions et les diffrents types dindices. tel-00624085, version 1 - 15 Sep 2011 30 segments (20 appelants, 10 agents) o chacun des deux annotateurs experts avaient peru un mlange positif/ngatif 46 ont t rannots par 3 personnes (dont les 2 annotateurs). En plus de choisir une ou deux tiquettes motions par segments, il leur tait demand de prciser les indices qui avaient motiv leur choix pour chaque tiquette, en choisissant une ou plusieurs des catgories : - Indices lexicaux : mots et syntaxe - Indices prosodiques : rythme, mlodie, platitude - Disfluences : pauses vides, hsitations ( euh ), rptitions - Contexte : segment prcdent, rle (appelant, agent, tmoin )

Rsultats
Tout dabord, la deuxime annotation tait cohrente avec la premire : chacun des 3 annotateurs ont peru un mlange dmotions conflictuelles pour la majorit des segments (sauf pour 6 segments sur les 30 o seulement 2 annotateurs sur 3 ont peru un mlange conflictuel) avec globalement les mmes classes que pour la premire annotation47 (cf. exemple Figure 4-3). Afin de slectionner les segments o une des 2 motions dominait , une quatrime personne a annot les segments avec les tiquettes Positive et Ngative.

Les 2 annotateurs ntaient pas forcment daccord sur les tiquettes fines ni sur lmotion Majeur entre la positive et la ngative. 47 Malgr que la premire annotation a t faite en contexte et pas la deuxime
46

- 77 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO Pour chaque segment, les 4 annotations ont t mlanges en un vecteur [Ngatif, Positif] avec un poids de 2 pour le Majeur et de 1 pour le Mineur (voir p53 pour la dfinition de Majeur et Mineur). Une tiquette POS/NEG (tiquette avec le plus grand poids gagnant positive et deuxime tiquette ngative), NEG/POS (cas contraire) se dduisait ensuite de ce vecteur (voir Figure 4-3). 1re annotation

Intrt/Agacement Intrt/Impatience

Mais elle est o l ?

2me annotation

Intrt/Agacement Intrt/Impatience Impatience/Intrt Positif/Ngatif

[Pos=7,Neg=5]

tiquette Pos/Neg

tel-00624085, version 1 - 15 Sep 2011

Figure 4-3. Exemple de segment rannots. Les indices de contexte et disfluences tant trs peu utiliss, seuls les indices prosodiques et lexicaux ont t pris en compte pour ltude. Une technique de vote majoritaire (accord entre au moins deux juges) a t utilise pour slectionner les types dindices perus par segment motionnel. La Figure 4-4 indique pour chaque classe POS/NEG et NEG/POS les pourcentages de segments pour lesquels des indices prosodiques ou lexicaux ont t perus respectivement pour les motions Majeur et Mineur. Par exemple des indices prosodiques sont utiliss pour percevoir le Majeur dans plus de 90% des segments. La figure rvle des rpartitions similaires pour les Majeur et Mineur des deux classes POS/NEG et NEG/POS. Les donnes taient assez quilibres avec respectivement 14 et 15 segments pour les classes POS/NEG et NEG/POS. Chaque type dindice (lexical et prosodique) est deux fois plus slectionn pour ltiquette Majeur que Mineur quelle que soit la classe. De plus, le Mineur est seulement peru grce un indice, soit lexical (10%), soit prosodique (70%), jamais les 2 la fois. Une autre observation intressante est que les indices lexicaux ne sont jamais slectionns la fois pour la perception des motions Majeur et Mineur, ce qui est par contre souvent le cas pour les indices prosodiques.

- 78 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

100% 80% 60% 40% 20% 0%


NEG/POS POS/NEG

Maj Lex

Maj Pros

Min Lex

Min Pros

POS/NEG NEG/POS

Figure 4-4. Rpartition des indices lexicaux et prosodique entre le Majeur et le Mineur pour les motions conflictuelles , (appelants et agents). Bien que dautres tests sur plus de segments et avec plus dannotateurs soient ncessaires pour confirmer certaines des observations, cette exprience a apport une validation lexistence dans le tel-00624085, version 1 - 15 Sep 2011 corpus de mlanges dmotions, de valences opposes et a mis en vidence la pertinence des indices lexicaux et prosodiques. Les types dindices ne sont pas ncessairement diffrents pour les 2 motions et les indices prosodiques peuvent permettre de percevoir les deux motions. Lmotion perue grce au plus grand nombre de types dindices est analyse comme dominante.

- 79 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

4.2.3. Test perceptif sur les motions complexes

Objectif et protocole
Le premier objectif de ce test [Vidrascu et Devillers 2006] tait de valider le protocole dannotation : lexpertise des 2 annotateurs : 2 annotateurs sont-ils suffisants pour annoter le corpus de manire fiable ? En quoi les 2 annotateurs sont-ils experts ? Un objectif tait de confronter les annotations des deux experts celles dun grand nombre de juges nafs. Nous avons donc slectionn un sous ensemble de segments, majoritairement o les 2 experts saccordaient, en prenant soin de ne pas inclure de donnes confidentielles. Quelques segments pour lesquels les 2 experts divergeaient ont galement t slectionns (une tel-00624085, version 1 - 15 Sep 2011 convergence des perceptions des juges nafs sur ces segments aurait remis en cause lannotation des donnes). Pour le traitement automatique des motions, le contexte nest pas pris en compte : les segments taient donc prsents hors contexte. Le choix des tiquettes : est ce que les tiquettes proposes sont pertinentes pour la description du corpus ? La distinction entre des tiquettes fines du type Agacement et Impatience ou Intrt et Compassion est-elle utile malgr les confusions dans certains cas. La valence : tait-il erron de considrer que la valence de lmotion pouvait tre dduite de ltiquette motion ? Le test perceptif se voulait galement un complment aux tudes prcdentes sur les mlanges dmotions. Ces mlanges sont ils perus hors contexte ? Dans le cas affirmatif, sont ils plutt perus comme simultans ou squentiels ? Quels types dindices sont pertinents pour leur perception ?

Une quarantaine de stimuli ont t slectionns parmi lesquels 14 segments simples (annot par une seule mme tiquette par les deux annotateurs), 11 mlanges non conflictuels, 13 mlanges conflictuels et 3 segments complexes pour lesquels les annotateurs ne saccordaient pas. Les mlanges conflictuels correspondaient aux cas prototypiques dagents exprimant la fois de la compassion et de lirritation, dappelants exprimant de la peur et le soulagement de savoir quon allait les aider, ou encore de lembarras et du self amusement , comme par exemple une baby-sitter, qui lorsquon lui demande le numro de lappartement - 80 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO rpond avec un rire embarrass je vais juste prendre mon agenda parce que je sais mme plus quel numro on est euh ne quittez pas Les stimuli taient prsents hors contexte 44 sujets : 34 franais natifs (13 femmes et 21 hommes) et 10 non natifs et pouvaient tre rejous volont. Le sujet devait valuer la valence du stimulus (du trs ngatif au trs positif) sur une chelle allant de -3 +3. Il devait ensuite choisir une tiquette pour lmotion perue dans la liste : Neutre, Anxit, Stress, Peur, Panique, Agacement, Impatience, Colre froide, Colre chaude, Embarras, Dception, Tristesse, Dsarroi, Rsignation, Dsespoir, Surprise, Soulagement, Intrt, Compassion, Amusement, Douleur. Des dfinitions des diffrents termes lui taient fournies et il avait la possibilit dinterroger lexprimentateur pendant le droulement du test. Lintensit et le contrle pour cette motion taient ensuite valus sur une chelle de 1 5 et le sujet devait donner le type dindices qui lui permettaient de percevoir lmotion (lexical, prosodique, disfluences ). Sil percevait une tel-00624085, version 1 - 15 Sep 2011 deuxime motion, il devait la choisir dans la mme liste et rpondre aux mmes questions en prcisant en plus si les 2 motions taient perues squentiellement ou simultanment. Enfin, il pouvait donner le nom de lmotion perue si elle ntait pas dans la liste 48. Linterface a t ralise en tcl/Tk.

Figure 4-5. Introduction et instructions du test perceptif.

Pour avoir des annotations libres, [Greasley et al. 2000] avaient procd en demandant aux sujets dutiliser des mots se rfrant comment une personne se sent . Il aurait t judicieux de faire de mme pour viter des rponses du type remerciement ou excuse .
48

- 81 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

tel-00624085, version 1 - 15 Sep 2011

Figure 4-6. Interface du test perceptif. - 82 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

Rsultats
Les non natifs ayant trouv la tche trop difficile cause de labsence de contexte et du grand nombre dtiquettes, ils nont pas t pris en compte pour ltude sur les mlanges dmotions 1.

Rsultats par Sujet


Mme sans contexte, tous les locuteurs franais ont peru des mlanges dmotions et part deux sujets, ils ont galement peru des mlanges dmotions positives et ngatives. Cependant un sujet percevait en moyenne un mlange dmotions pour 9 segments, parfois dailleurs sur des segments simples, ce qui est peu. Le Tableau 4-1 donne pour chaque sous ensemble (motion simple, mlange non conflictuel, mlange conflictuel) les pourcentages de mlanges annots par les juges nafs. tel-00624085, version 1 - 15 Sep 2011
Annotat comme -> Simple (14 segts) Non conflictuel (11 segts) Conflictuel (13 segts) Simple/ambigu 87% 76% 71% Non conflictuel 7% 19% 10% Conflictuel 6% 5% 18%

Tableau 4-1. Pourcentages dmotions simples et complexes des 33 sujets franais ayant effectu le test perceptif. Bien que tous les locuteurs aient peru des mlanges dmotions, 70% des stimuli complexes ont t annots comme simples, les femmes percevant plus dmotions conflictuelles que les hommes pour cette tude. Paralllement, 15% des stimuli taient jugs comme complexes alors quils taient tiquets comme simple. Ces mauvais rsultats montrent la difficult pour des annotateurs naifs de percevoir les motions complexes exprimes dans ces stimuli sans contexte.

Rsultats par vecteur


Mme si les annotations individuelles des sujets ne correspondaient pas toujours celle des experts, le vecteur combinant les annotations des sujets semble correspondre au vecteur combinant les annotations des experts 2. En effet, les annotations des sujets ont t regroupes en un vecteur (Neutre, Peur, Colre, Tristesse, Compassion-Intrt, Soulagement) par stimulus avec

1 2

Par contre leurs performances taient comparables celles des natifs pour la reconnaissance des motions simples

Ce type de rsultat se retrouve chez [Scherer et Ceschi] qui valuent la fiabilit de 31 juges ensemble et sparment et obtiennent une trs bonne fiabilit pour lensemble des juges, mais une fiabilit assez faible par juge en moyenne et prcisent que ce phnomne est trs frquent dans les rating studies using lay observers

- 83 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO un poids de 1 pour le Majeur et le Mineur. Ce vecteur a t compar celui des 2 experts. On a dabord regard le plus grand coefficient de chaque vecteur : il y avait 85% daccord entre sujets nafs et experts. En considrant les 2 plus grands coefficients, il y avait accord pour 18 des 24 motions complexes. Par exemple, un segment annot Peur/Tristesse par les experts tait rannot en Peur par 50% des sujets, Tristesse par 30% des Sujets et Peur/Tristesse par 5%. Les cas de dsaccord entre expert et nafs taient souvent expliqus par labsence de contexte. Dans le cas de la Figure 4-7, lintonation et la rptition de oh ma pauvre faisaient que les sujets percevaient de la compassion quand en contexte, le locuteur exprimait clairement une motion ngative. Dailleurs, lannotation de la valence du stimulus est ngative et en contradiction avec ltiquette. Seulement 2 sujets sur 34 ont choisi une valence strictement positive pour la phrase contre 25 sur 34 avec une valence strictement ngative.
SANS CONTEXTE

tel-00624085, version 1 - 15 Sep 2011

Vecteur* Sujets

oh ma pauvre oh ma pauvre a fait 2 ans l

Compassion/Intrt 18 Tristesse 10 Neutre 3 Peur 2 Colre 2 Douleur 2 Surprise 1

tiquette Pos

(poids>10~1/3 sujets)

* Classes larges

AVEC CONTEXTE

Vecteur experts
Anxit:2 Rsignation:1 Tristesse: 1

tiquette Peur/Tristesse

Agent :Et a fait combien de temps que vous avez du mal respirer?

Appelant :oh ma pauvre oh ma pauvre a fait 2 ans l.

Figure 4-7. Le rle du contexte dans les diffrences entre les annotations. Les annotations des sujets sont regroupes en un vecteur motion (tiquettes larges) avec un poids de 1 par tiquette. Pour dduire ltiquette finale, on a choisi de ne garder que celles choisies par plus de 1/3 des sujets (poids>10). Pour les stimuli sur lesquels les experts ntaient pas daccord, aucun consensus na t trouv parmi les sujets du test.

- 84 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

Comparaison des diffrentes annotations avec celles dun SVM


Dans le cas de la dtection automatique des motions, le systme naura pas accs au contexte (ce pourquoi les sujets du test ny avaient pas accs non plus) et en plus il naura pas accs linformation lexicale. Nous avons profit des annotations du test perceptif pour comparer les tiquettes attribues aux 41 stimuli par les annotateurs experts, les sujets nafs et le systme de dtection (voir Chapitre 6 pour une description de ce systme). Les 3 disposent de diffrents niveaux de connaissances, comme montr Tableau 4-2.
paralinguistique X X X lexical X X contexte X

Annotateurs experts Sujets nafs Dtection automatique

Tableau 4-2. Diffrents niveaux dinformation. tel-00624085, version 1 - 15 Sep 2011 Un modle paralinguistique a t cr pour les agents avec les quatre motions Neutre, Colre, Compassion et Surprise et un pour les appelants avec les 4 motions Peur, Colre, Tristesse et Soulagement. Les prdictions pour les 41 segments (qui navaient pas t utiliss pour construire le modle !) ont t compares celles des experts et des nafs. Les pourcentages de mme dtection entre experts, nafs et systme automatique sont donns dans le Tableau 4-3 ci-dessous. Experts=nafs=automatique 61 % experts=nafs 85 % expert=automatique 66 % Tableau 4-3. Pourcentage daccord en ne considrant que le plus grand coefficient des vecteurs, expert : annotation initiale, naf : annotation des sujets du test perceptif, automatique : dtection automatique.

Bien que le systme ait t entran avec les annotations des experts, le pourcentage daccord entre le systme et les annotateurs est loin derrire celui entre experts et nafs. Il faudrait apporter des informations sur le contexte et le lexique et les combiner aux indices paralinguistiques pour amliorer la dtection.

- 85 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

Validation des tiquettes


Les rponses donnes pour ltiquette libre sont regroupes dans le Tableau 4-4. La formulation de lnonc tant trop ouverte, certaines rponses ne correspondent pas vraiment des tats affectifs (comme par exemple fermet). La plupart des classes o une autre tiquette a t donne correspondent celles qui ont t redfinies pour sadapter aux donnes. Comme il a dj t indiqu dans la description des donnes, ltiquette Soulagement sappliquait typiquement un appelant en fin dinteraction qui de laide allait tre apporte et sexprimait lexicalement souvent par merci , do des tiquettes type gratitude , remerciement . De mme, Dsarroi avait t ajout la liste dtiquettes pour dcrire lmotion exprime par des locuteurs prouvant un sentiment dimpuissance et se manifestant lexicalement par des phrases du type je ne sais pas quoi faire . La plupart du temps, les tiquettes dsignent une mme tel-00624085, version 1 - 15 Sep 2011 motion ou sont hors sujet

Choix libre
Intrt Compassion Soulagement Autre Positif Peur Anxit Embarras Dsarroi Rsignation Agacement Surprise Autre Curiosit politesse, rassurante Reconnaissance (x5), remerciement, gratitude (x6) bonne humeur, satisfaction (x4), plaisir crainte, suppliant nervosit (x2) Gne (x4), honte, excuse, vex (x2) impuissance x2, incertain, indcision, confusion indiffrence, dsintrt (x2), ennui (x2), distraction, fatalisme exaspration (x3), nervement Indignation tonnement (x2) Rflexion ironie (x6), autodrision incrdulit (x2), fermet

Tableau 4-4. Les rsultats du choix libre pour lmotion perue. Un test de Khi-2 a rvl une diffrence significative (Khi-2>60) dans lemploi dtiquettes qui semblent parfois confondues comme Agacement vs. Impatience, Compassion vs. Intrt ou Stress vs. Anxit. Il tait donc pertinent de conserver ces tiquettes.

- 86 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

La valence
Dans le protocole dannotation, nous avions considr quil ntait pas ncessaire dannoter la valence, car elle pouvait se dduire de ltiquette motion ( lexception de la Surprise, do la directive de donner en Mineur une tiquette prcisant sa valence). Lannotation explicite de la valence pour le test perceptif tait un moyen de vrifier cette hypothse. Le nombre de cas o la valence ne se dduit pas de ltiquette est donn Tableau 4-5. Pour les segments non complexes, il y a moins de 5% des cas pour lesquels la valence ne se dduit pas de lannotation. Le nombre lev d erreurs pour la compassion peut sexpliquer par des cas du type celui dcrit Figure 4-7. Les sujets choisissent une tiquette de valence oppose celle des experts ( cause sans doute de labsence de contexte), mais peroivent toutefois des indices qui les poussent annoter la valence diffremment. De mme pour lembarras, une grande partie des segments annots Embarras par les tel-00624085, version 1 - 15 Sep 2011 sujets avaient t annots comme conflictuels par les experts. De faon non surprenante, les erreurs sont dautant moins nombreuses que les motions sont fortes (aucune erreur pour la panique ou la colre chaude).
Majeur Compassion Intrt Soulagement Amusement Total Positif Impatience Agacement Tous les segments 41% (63 segts) 10% (121 segts) 3% (90 segts) 5% (132 segts) 11,6% (406 segts) 7% (102 segts) 1% (258 segts) Sans Mineur 17% (35 segts) 5% (79 segts) 3% (66 segts) 6% (69 segts) 6,4% (249 segts) 7% (70 segts) 1% (189 segts)

Colre chaude
Colre froide Anxit Stress Peur

0% (45 segts)
3% (69 segts) 6% (98 segts) 5% (56 segts) 5% (21 segts)

0% (32 segts)
4% (49 segts) 7% (70 segts) 6% (35 segts) 0% (10 segts)

Panique
Embarras Dsarroi Rsignation

0% (35 segts)
16% (116 segts) 6% (86 segts) 7% (105 segts)

0% (23 segts)
17% (70 segts) 5% (60 segts) 4% (78 segts)

Tristesse
Dsespoir Dception

0% (41 segts)
2% (44 segts) 8% (76 segts)

0% (32 segts)
4% (24 segts) 4% (56 segts)

Douleur
Total Ngatif Total

0% (10 segts)
5,1% (1162 segts) 6,8% (1568 segts)

0% (10 segts)
4,6% (808 segts) 5% (1057 segts)

Tableau 4-5. Pourcentage de cas o la valence est en contradiction avec les tiquettes motions par motion. Pour Tous les segments , la valence est compare celle de lmotion Majeur et pour Sans Mineur , on ne regarde que les segments annots avec une seule tiquette. Le nombre total de segments est indiqu entre parenthses). - 87 -

Chapitre 4 Analyse des mlanges dmotions dans le corpus CEMO

Les indices
Diffrentes catgories dindices ont motiv les annotations, avec beaucoup dindices prosodiques. Ces indices montrent la richesse de ce corpus et la grande diversit des expressions motionnelles dans la parole conversationnelle spontane.
Prosodie, qualit vocale
intensit (x3) mode impratif intonation aigue (x2) ton sec (x2) tonalite de la voix tremblement dans la voix

Affect burst
respiration (x2) expiration souffle (x4) soupir (x3) Oooh, pfff rire (x12) rire nerveux

Lexical
Manque de cohrence emploi du "oui" la fin de la phrase "mais enfin" "merci" (x2) "trs bien" au lieu de "bien"

"dialogique"
grammaire, smantique dans un contexte tlphonique. intrt simul ? rire faux laconisme rptition (x3)

tel-00624085, version 1 - 15 Sep 2011

Figure 4-8. Rsultats du choix libre dindices ayant motiv les annotations.

4.3. Conclusions
Dans ce chapitre, nous avons prsent et typ diffrents cas de mlange dmotions dans le corpus CEMO. Ces mlanges peuvent tre perus mme sans contexte et des indices acoustiques peuvent tre perus en mme temps pour plusieurs motions. Un test perceptif a valid lannotation des experts, le choix des tiquettes et la dcision de dduire la valence des tiquettes lors de lannotation. Mme si individuellement les sujets nafs ne percevaient sans contexte quune seule motion dun mlange, lorsquon regroupe leurs annotations en un vecteur, on retrouve lannotation des deux experts. Ces mlanges sont trs intressants tudier, mais sont susceptibles de causer des confusions si on les utilise pour entraner des systmes. Dans les parties qui suivre, ils ne seront donc pas utiliss.

- 88 -

tel-00624085, version 1 - 15 Sep 2011

III Modlisation

- 89 -

Chapitre 5 Les paramtres


Rsum
Dans les chapitres prcdents, nous avons dcrit la collection et lannotation en motion de nos donnes. Avant de pouvoir commencer les expriences de dtection, la premire tape est de trouver un ensemble dindices pertinents et de les extraire. Quels indices extraire du signal pour identifier les motions ? Existe-t-il un profil acoustique par motion ? Alors que les juges humains parviennent relativement bien reconnatre les motions dans la voix, les chercheurs nont pas encore russi saccorder de manire prcise sur les paramtres acoustiques corrls ces motions. Scherer et Juslin ont compar diffrentes tudes et rsum les divergences et les convergences sur le comportement des paramtres les plus souvent tudis. Dans ce chapitre, nous prsentons tout dabord le modle de Fnagy sur la transmission et le dcodage du message oral. Nous dcrivons ensuite brivement la production de la parole et les diffrentes mesures qui en dcoulent, et en particulier celles utilises dans les expriences sur les motions, ainsi que les conclusions de Juslin et Scherer sur certains des paramtres les plus tudis. Nous listons alors les paramtres que nous avons extraits en distinguant ceux extraits de manire purement automatique et ceux ncessitant davoir une transcription des donnes. Nous nous penchons ensuite sur le problme de lextraction de la frquence fondamentale. Nous nous intressons galement la normalisation des paramtres prosodiques. Nous comparons ensuite les tendances dans les donnes CEMO avec les conclusions de Scherer et Juslin. Nous regarderons brivement les triangles vocaliques par motions. Now that we have collected emotional data and annotated it, the next step before detection experiments is to extract a set of cues. How to find the most relevant ones? Whereas human judges are pretty accurate for recognizing emotions from the voice, scientists havent been able to agree on an accurate set of relevant parameters. Juslin and Scherer have compared several studies on vocal emotion detection and compared the trends of the most studies cues. In this chapter, we first present Fnagys model on how an oral message is transmitted and decoded. We then briefly describe speech production and different measures than can be made, especially for the purpose of emotion detection. We list the different types of cues that are used for emotion detection and distinguish between the blind ones that can be extracted automatically and those that require human processing.

tel-00624085, version 1 - 15 Sep 2011

- 90 -

5.1. 5.1.1. 5.1.2. 5.1.3.

ETAT DE L'ART DES PARAMETRES UTILISES ............................................................................................ 92 Le modle de Fnagy ....................................................................................................................... 92 La production de la parole............................................................................................................... 93 Les indices extraits pour la dtection des motions ......................................................................... 95
Le niveau paralinguistique ..................................................................................................................... 95 (a) Les paramtres prosodiques.............................................................................................................................. 95 (b) La microprosodie.............................................................................................................................................. 97 (c) Les coefficients spectraux................................................................................................................................. 99 (d) Les disfluences prosodiques ............................................................................................................................. 99 (e) Les marqueurs affectifs acoustiques ................................................................................................................. 99 5.1.3.2. Le niveau linguistique ............................................................................................................................ 99

5.1.3.1.

Le contenu lexical .................................................................................................................................................. 99 Le contexte dialogique ......................................................................................................................................... 100

5.1.4.

Les variations des paramtres suivant les tats motionnels dans la littrature ........................... 101 PARAMETRES EXTRAITS SUR NOS CORPUS............................................................................................ 103 Paramtres extraits de manire automatique................................................................................. 105
Paramtres prosodiques ........................................................................................................................ 105 Paramtres spectraux ............................................................................................................................ 106 Microprosodie ...................................................................................................................................... 107

tel-00624085, version 1 - 15 Sep 2011

5.2. 5.2.1.

5.2.1.1. 5.2.1.2. 5.2.1.3.

5.2.2. 5.2.3. 5.2.4. 5.2.5. 5.3.

Paramtres dduits de la transcription manuelle et de lalignement phonmique ........................ 109 Normalisation des paramtres prosodiques................................................................................... 112 Tendances des paramtres compares celles de Scherer ............................................................ 114 Triangles vocaliques ...................................................................................................................... 115 CONCLUSION ....................................................................................................................................... 118

- 91 -

Chapitre 5 5BLes paramtres

5. LES PARAMETRES 5.1. Etat de l'art des paramtres utiliss


Dans la communication orale des motions, on distingue en gnral deux types dinformations : les informations paralinguistiques et les informations linguistiques. (cf. 5.1.1, modle de Fnagy). Ces deux types dinformations vont servir la comprhension et linterprtation dun message et la perception dune motion dcoulera de leur interprtation. Pour dtecter automatiquement les motions, on va chercher approcher les diffrentes caractristiques perues, comme lintensit, le timbre ou la mlodie par des mesures physiques afin dextraire des indices pertinents. Comprendre comment la parole est produite (cf. 5.1.2. la production de la parole) peut nous guider dans le choix des mesures effectuer. tel-00624085, version 1 - 15 Sep 2011 Scherer a exprim le paradoxe suivant [Scherer 1986] 1: alors que les humains parviennent facilement dcoder les motions dans la voix, les scientifiques n'arrivent pas se mettre d'accord sur un ensemble de paramtres qui identifieraient correctement les motions. Les indices les plus pertinents varient selon les tudes et les motions que lon cherche discriminer (cf. p101). Cest pourquoi la stratgie utilise est dextraire le plus possible dindices 2, jusqu des milliers [Schuller et al. 2006]. Ces indices sont dduits de tous les types d'informations de la parole motionnelle avec majoritairement des indices paralinguistiques et linguistiques, mais aussi des indices contextuels et dialogiques. Ils sont souvent redondants et des algorithmes doptimisation sont gnralement appliqus pour rduire leur nombre et slectionner les plus pertinents.

5.1.1. Le modle de Fnagy


Daprs le modle de Fnagy [Fnagy 1983 p14], le message oral est transmis par deux actes successifs dencodage : un encodage linguistique, qui transforme un message global en une squence de phonmes; et un deuxime codage, le code paralinguistique 3, qui correspond la manire dont les sons vont tre exprims. Deux messages opposs peuvent ainsi tre transmis simultanment comme dans lexemple donn par Fnagy [Fnagy 1983 p14] :

Whereas judges seem to be rather accurate in decoding emotional meaning from vocal cues, researchers in psychoacoustics and psychophonetics have so far been unable to identify a set of vocal indicators that reliably differentiate a number of discrete emotions 2 Les mots indices ou paramtres pourrons tre utiliss (cues, parameters, features en anglais). 3 On entend par paralinguistique, les informations de type acoustiques, prosodiques et les manifestations non verbales de type marqueurs affectifs. Ces marqueurs sont des lments trs brefs qui sont extrmement porteurs de connaissance sur ltat motionnel de la personne.
1

- 92 -

Chapitre 5 5BLes paramtres

on pourrait imaginer la source transmettant au Premier Encodeur un message global, de remercier par exemple linterlocuteur de sa gentillesse. Ce message serait dcompos en une squence de phonmes par le Premier Encodeur:/o :vuz t vrem trop emabl 1/. La source confiera en mme temps un message, de nature diffrente et de caractre oppos au Deuxime Encodeur : dexprimer un sentiment de haine, de mpris. Le Deuxime encodeur transformera, conformment cette instruction, la squence de sons que vient de lui prsenter le premier encodeur, dune telle manire ce que la haine et le mpris soient clairement exprims par la compression des cordes vocales et des bandes ventriculaires, el allongeant les consonnes, []

5.1.2. La production de la parole


Il nexiste pas dorgane spcifique destin la production de la parole et pour produire un signal, lhomme va utiliser son systme respiratoire et son systme digestif [Marchal 1980]. Lensemble du tel-00624085, version 1 - 15 Sep 2011 systme vocal se compose des poumons et du conduit trachobronchique, du larynx et du conduit vocal, form par le pharynx et les cavits orales et nasales (voir Figure 5-1 ci dessous).

Figure 5-1. Lappareil phonatoire. (http://catalogue.ircam.fr/sites/Voix/decrire/appareil.html ; http://lecerveau.mcgill.ca/flash/capsules/outil_bleu21.html)

Oh vous tes vraiment trop aimable

- 93 -

Chapitre 5 5BLes paramtres Les sons sont produits par la modification du courant dair de lexpiration en provenance des poumons. Lair passe dabord travers la trache artre. Au sommet de celle-ci se trouve le larynx o la pression de lair est module avant dtre applique au conduit vocal. Le son lui-mme est produit au niveau des cordes vocales 1. Il est fonction dune part de la pression sous-glottique (pression due lobstacle des cordes vocales lair en provenance des poumons) et dautre part de la masse effective des cordes vocales. Les sons rsultants dune vibration priodique des cordes vocales sont dits voiss . A loppos, lorsque lair passe librement dans la glotte 2, les sons rsultants sont dits non voiss ou sourds . Les traits acoustiques du signal sont lis sa production [Boite et al. 1999] : tel-00624085, version 1 - 15 Sep 2011 lintensit du son est lie la pression de lair en amont du larynx (sous-glottique) sa frquence correspond la frquence douverture/fermeture des cordes vocales (dtermine par la tension des muscles qui la contrlent) son spectre rsulte du filtrage du signal glottique par le conduit vocal. le pharynx, la bouche et ventuellement les lvres constituent une cavit de rsonance qui peut tre assimil un tube de diamtre uniforme (de 17 20 cm de longueur) ferm un bout (la glotte) et ouvert lautre (les lvres). Les frquences renforces par le phnomne de rsonance sont appeles formants 3.

Les cordes vocales sont deux lvres symtriques places en travers du larynx. Elles peuvent fermer compltement le larynx et en scartant elles dterminent une ouverture triangulaire appele glotte. 2 Cas galement de la respiration et des chuchotements 3 Le formant est dfini rigoureusement [Linard 1977] comme un maximum de la fonction de transfert du conduit vocal
1

- 94 -

Chapitre 5 5BLes paramtres

5.1.3. Les indices extraits pour la dtection des motions


Les motions vont se manifester par des variations des paramtres ou des perturbations par rapport leur valeur standard. Nous allons tout d'abord dcrire les principaux types d'indices paralinguistiques et linguistiques utiliss pour la dtection des motions. Parmi eux, on pourra diffrencier ceux qui peuvent tre obtenus de manire purement automatique et ceux qui ncessitent un prtraitement ou une connaissance humaine (transcription orthographique des donnes par exemple). 5.1.3.1. Le niveau paralinguistique Les diffrents types de paramtres paralinguistiques qui seront dcrits ci-dessous sont : (a) les paramtres prosodiques : frquence fondamentale, nergie, dure et qualit vocale tel-00624085, version 1 - 15 Sep 2011 (b) la microprosodie : jitter, shimmer, HNR (Harmonic to Noise Ratio), NHR (Noise to Karmonic ratio) (c) les paramtres spectraux : formants et leur bande passante et MFCCs (d) les disfluences prosodiques (e) les marqueurs affectifs acoustiques

(a) Les paramtres prosodiques


Le terme prosodie se confond souvent avec celui d intonation . La prosodie concerne le suprasegmental 1 et englobe des phnomnes tels que accentuation, variations de hauteur, de dure et d'intensit. C'est ce qui donne un ton naturel et cohrent la parole. . Elle est reprsente dans le diagramme donn Figure 5-2 [Hirst et Di Cristo p5].
Tone stress quantity
fundamental frequency intensity duration

Lexical

Non-lexical

Intonation proper

spectral caracteristics

Figure 5-2. La prosodie selon [Hirst et Di Cristo]

Terme cr par Hockett en 1942, dfini dans le Dictionnaire de linguistique comme un trait suprasegmental, ou trait prosodique, est une caractristique qui affecte un segment plus long que le phonme [Rossi et al. 1981 p10].

- 95 -

Chapitre 5 5BLes paramtres Elle intervient par exemple dans la distinction des questions et des rponses ou pour lever les ambiguts du langage parl par linsistance sur certains mots. Elle permet aussi dexprimer des attitudes et des tats motionnels Au niveau physique, la prosodie se rfre aux variations dun ensemble de paramtres acoustiques parmi lesquels la frquence fondamentale, lintensit et la dure.

La frquence fondamentale (F0)


. La frquence fondamentale (ou pitch) est un indice de mesure globale de la voix, qui correspond la frquence de vibration des cordes vocales. Elle est calcule sur les parties voises 1 du signal et peut tre exprime en plusieurs units : en Hertz, chelle Mel ou Bark. tel-00624085, version 1 - 15 Sep 2011 Elle dpend de facteurs spcifiques aux locuteurs comme le sexe (pour une femme, la F0 moyenne est de 250 Hz alors que pour un homme elle est estime 150 Hz), l'ge, la langue maternelle ou laccent. La F0 moyenne apporte une mesure globale de la hauteur de la voix (aigu, grave ...) La F0 s'avre tre un paramtre trs important pour la reconnaissance des motions, et a t tudie depuis les annes 60 [Liberman et Michaels 1962]. La plage de la F0 et le contour de la F0 sont des paramtres typiques pour discriminer certaines motions.

L'intensit du signal
Elle apporte une mesure globale de la force sonore de la voix (faible ou forte). Elle se mesure gnralement en dcibel (dB). Pour une voix triste ou neutre, lintensit sera beaucoup moins forte que pour une voix colrique. Lintensit du signal est un paramtre difficile normaliser, notamment au tlphone. Une voix faible peut-tre proche du tlphone et une voix forte loin du tlphone. F0 et intensit sont corrls.

La dure et le rythme (tempo)


La dure correspond au temps dmission et est lie la notion de rythme et aux silences. Elle englobe des variables paralinguistiques comme les longueurs (phrase, mot, syllabe, phonme, partie voise) ou les dbits (mots/syllabes/phonmes par unit de temps), mais aussi les pauses et

Signal priodique ou quasi priodique

- 96 -

Chapitre 5 5BLes paramtres silences. Une mesure de dbit frquemment calcul dans les tudes sur les motions est linverse de la longueur moyenne des parties voises.

La qualit vocale
Certains ajoutent la prosodie une quatrime dimension, la qualit de la voix (timbre, voix rauque, chuchote, grinante, voix de fausset...), due des caractristiques laryngales ou supralaryngales. Un indice li la qualit vocale est le NAQ Normalized Amplitude Quotient , dfini par Campbell et al. [Campbell et Mokhtari 2003]. Il permet davoir une mesure sur londe de dbit glottal. Il peut tre considr comme une normalisation du temps de dclinaison et sexprime comme le rapport de lamplitude crte crte de londe de dbit glottique et du pic ngatif maximal de sa drive, normalis par la priode fondamentale. Il est cependant difficilement utilisable sur des donnes relles car il ncessite une prise de son parfaite. tel-00624085, version 1 - 15 Sep 2011

(b) La microprosodie
Le coefficient Shimmer 1
Le shimmer mesure les variations damplitude entre deux cycles doscillation : le shimmer moyen reprsente la moyenne des rapports damplitudes entre deux cycles d'oscillation conscutifs le shimmer factor relativise le shimmer moyen en divisant par lamplitude moyenne lAPQ (Amplitude Perturbation quotient) mesure la moyenne des variations damplitude sur 11 priodes conscutives, le tout rapport lamplitude moyenne du signal observ

Le coefficient Jitter 2
C'est un indice reprsentatif de la perturbation court terme de la frquence fondamentale, qui se traduit par des variations de frquence entre chaque cycle doscillation. Il peut tre intressant de le mesurer pour des phrases o la frquence est normale puis s'acclre brutalement (pour des motions comme la peur, le stress ou le dsespoir par exemple). Plusieurs mesures existent : le jitter absolu moyen est la moyenne de la diffrence de F0 en valeur absolu, entre deux cycles de vibration conscutifs le jitter factor permet de relativiser le jitter moyen en le comparant la F0 moyenne

1 2

http://www.fon.hum.uva.nl/praat/manual/Voice_3__Shimmer.html http://www.fon.hum.uva.nl/praat/manual/Voice_2__Jitter.html

- 97 -

Chapitre 5 5BLes paramtres le jitter ratio mesure la moyenne des variations de priode entre deux cycles de vibration conscutifs et relativise cette valeur par la priode moyenne du signal observ le RAP (Relative Average Perturbation) mesure la moyenne des variations de trois priodes conscutives rapporte la priode moyenne du signal observ

Le pourcentage de fentres non voises dans le segment 1


Le signal sonore peut tre divis en plusieurs fentres (trames) voises ou non voises (pas de signal F0). Le pourcentage des fentres non voises dans la phrase est rvlateur de la quantit pauses sur cette phrase. Ainsi, une phrase prononce un rythme normal contiendra beaucoup plus de pauses (donc plus de fentres non voises) qu'une phrase prononce avec un rythme lev, comme dans le cas de la colre ou de la peur. tel-00624085, version 1 - 15 Sep 2011

Figure 5-3. Les paramtres acoustiques (extrait de http://aune.lpl.univ-aix.fr/~ghio/doc/DocVoiceParameters.pdf)

http://www.fon.hum.uva.nl/praat/manual/Voice_1__Voice_breaks.html

- 98 -

Chapitre 5 5BLes paramtres

(c) Les coefficients spectraux


Les formants et leurs largeurs de bande
Les formants correspondent des pics dnergie. Les trois premiers formants et surtout les diffrences entre les formants peuvent tre des indices de comportements affectifs. On ajoute en gnral aussi les largeurs de bande.

Les coefficients MFCCs (Mel Frequency Cepstral Coefficients)


Ils sont caractristiques des rsonances du conduit vocal un instant donn. Il est dusage de les tel-00624085, version 1 - 15 Sep 2011 calculer galement sur une fentre temporelle et de calculer leurs drives premires et secondes.

(d) Les disfluences prosodiques


Elles existent au niveau linguistique et acoustique et sont souvent difficiles classifier. Elles dsignent toutes les ruptures dans le signal : rptitions de mots, silences, hsitations. Elles sont souvent dduites de la transcription, mais il n'est pas exclu de pouvoir les dtecter automatiquement.

(e) Les marqueurs affectifs acoustiques


Les indices non verbaux appels aussi marqueurs affectifs pour affect bursts (rires, pleurs, toux, raclements de gorge, interjections, etc.) ont souvent un haut pouvoir de discrimination des motions [Polzin et Waibel 1998] [Schrder 2000]. Parmi les marqueurs affectifs, les rires 1[Devillers et Vidrascu 2007], respirations et pleurs sont de plus en plus tudis.

5.1.3.2. Le niveau linguistique

Le contenu lexical
Particulirement pour des donnes enregistres au tlphone, le niveau linguistique peut apporter des informations pour la dtection des motions. Il sera plus ou moins utile selon les motions que

Il y a dailleurs eu un workshop interdisciplinaire dessus http://www.coli.uni-saarland.de/conf/laughter-07/

- 99 -

Chapitre 5 5BLes paramtres lon cherche discriminer. Par exemple dans le corpus CEMO, la dtection du soulagement peut tre attribue certaines marques lexicales spcifiques comme merci . Les motions ngatives peuvent aussi tre lies certains termes, comme problme ou des formes ngatives ne pas . Dans nos donnes cependant, les expressions de la peur sont souvent plus syntaxiques que lexicales travers des rptitions, des reformulations etc.

Le contexte dialogique
Les annotations motionnelles peuvent tre corrles avec les actes dialogiques 1. Ce type dannotations est moins frquent. Dans les travaux de Devillers et.al, les actes dialogiques ont t annots (adapts d'aprs DAMSL standard dialogs acts annotation) Des mesures de corrlation ont montr que les motions ngatives Colre et Peur sont susceptibles de gnrer plus frquemment des Assertion, Rassertions, Requtes et Rptitions, tandis que les motions tel-00624085, version 1 - 15 Sep 2011 positives comme la Satisfaction et le Neutre sont corrles avec l'Acceptation [Devillers et al. 2002]. Dans les travaux de Lee et al. [Lee et Narayanan 2004], lutilisation de cinq actes de dialogue (du type rejection, rptition) en plus dindices lexicaux et prosodiques a amlior les scores de dtection, ils ont galement contribu amliorer les scores de dtection pour Batliner et al. [Batliner et al. 2003]. De mme, dans les travaux de Liscombe et al. [Liscombe et al. 2005], 10 actes de dialogues ont t annots ainsi que des informations sur les motions des deux tours prcdents (prdite ou relle) et ces indices ont augment la reconnaissance.

1 Notion introduite par [Austin 1962] qui correspond une unit de contexte dans le dialogue. Le fait de dire quelque chose revient faire une action et ces actions peuvent tre types, par exemple asserion, rejection, rpetition.

- 100 -

Chapitre 5 5BLes paramtres

5.1.4. Les variations des paramtres suivant les tats motionnels dans la littrature
Scherer [Scherer 2003] a rsum les effets des motions les plus frquemment tudies sur certains paramtres en s'appuyant sur les rsultats empiriques dune trentaine dtudes des soixante dernires annes. La plupart de ces tudes ont t effectues sur des donnes actes. Une synthse des rsultats empiriques est donne dans le Tableau 5-1 ci-dessous.
Paramtres acoustiques Dbit et Fluency Nombre de syllabes par seconde Dure des syllabes Dure des voyelles accentues Nombre et dure des pauses Dure relative des segments voiss Dure relative des segments non voiss F0 et Prosodie Moyenne F0 F0: 5me percentile dviation standard de F0 Plage F0 Frquence des syllabes accentues Gradient of F0 rising and falling F0 final fall: range and gradient Effort Vocal et Type de Phonation Intensit moyenne (dB) dviation standard de l'Intensit pente spectrale (spectral slope) Laryngalisation Jitter Shimmer HNR Formants prcision des Formants Bande passante des formants F1 (M) F2 (M) F1 (bw)
Stress joie Peur/ Irritation/ Colre Tristesse/ Affliction/ Peur/ Ennui Panique Colre f /Rage Abattement Desespoir Anxit

tel-00624085, version 1 - 15 Sep 2011

> < >= <

>= <= >= <

>
<> > < > <

< > >= >

>

>

>> < < <> <> <>

< > >= >

> > > > > > > > > < >

> > > > >= > > >= > < = >= >= > >= < >

<> < <

<> < >> >> > > > > > < = >= >= > > < > < <<

<> <= < < < < < <= < > > > < < > <> < <>

> > >

> <

>> > >> <>> <> <>

<= <= < <= <= <= <= < > = = = <= <= >= > < <

>

> >

= > >

> > <> > > > < <> > < <<

? <

> > < <<

> > < <<

> > < <

Tableau 5-1. Synthse des rsultats empiriques pour l'effet des motions sur les paramtres vocaux (extrait [Scherer et al. 2003], [Juslin et Laukka 2003],,[Juslin et Scherer 2005] ) < "plus petit/ lent/ plat/troit"; > "plus grand/haut/rapide/pentu/large" ;=gal au "Neutre"; <> : Des tudes ont report la fois des rsultats plus grand et plus petits. Les rsultats surligns en gris concernent les donnes naturelles ou induites. Ces rsultats concordent globalement avec ceux de Juslin [Juslin et Laukka 2003] obtenus en comparant 104 tudes, dont 12 effectues sur des donnes naturelles. La colre par exemple - 101 -

Chapitre 5 5BLes paramtres sexprime vocalement par un accroissement de la F0 moyenne et de son intensit ainsi que par la variabilit de la plage de F0.

tel-00624085, version 1 - 15 Sep 2011

- 102 -

Chapitre 5 5BLes paramtres

5.2. Paramtres extraits sur nos corpus


Dans nos donnes, diffrentes phrases avec un mme contenu lexical pourront sexprimer de multiples manires avec diffrentes courbes de F0 ou des diffrences dans la longueur des phonmes qui peuvent tre autant dindices sur lmotion exprime. Un aperu de ces variations est donn dans les spectrogrammes ci-dessous pour le mme segment je sais pas exprim dabord par un mme locuteur de manire neutre, puis agace (Figure 5-4 ); puis par diffrents locuteurs avec quelques cas dmotions intenses. La F0 est reprsente en bleu, lnergie en jaune et la dure du segment en rouge en haut droite des spectrogrammes. Les formants sont visibles par les zones les plus noires.

tel-00624085, version 1 - 15 Sep 2011

Figure 5-4. Le mme contenu lexical Je sais pas et le mme locuteur de manire neutre puis agace.

- 103 -

Chapitre 5 5BLes paramtres

tel-00624085, version 1 - 15 Sep 2011

Figure 5-5. Je sais pas : plusieurs locuteurs, plusieurs motions (neutre, stress, dsespoir, dsespoir ).

- 104 -

Chapitre 5 5BLes paramtres Comme il nexiste pas de consensus sur une liste de paramtres pertinents et que le choix de ces paramtres semble dpendre des donnes, notre stratgie est den extraire le plus possible, mme si la plupart sont redondants et dutiliser des mthodes de fouille de donnes pour slectionner les meilleurs.

5.2.1. Paramtres extraits de manire automatique


5.2.1.1. Paramtres prosodiques Nous avons utilis le logiciel Praat [Boersma et Weenink 2005] pour extraire les mesures de F0, dintensit et de voisement des segments. Praat utilise pour la dtection de la F0 un algorithme robuste de dtection de la priodicit travaillant dans le lag auto-correlation domain (Boersma, 1993). Cet algorithme est tel-00624085, version 1 - 15 Sep 2011 particulirement bien adapt pour des conditions de bruit (parole tlphonique) et permet de dtecter des phnomnes acoustiques particuliers. Les diffrences homme (F0 moyenne autour de 150 Hz), femme (F0 moyennes autour de 250Hz) et enfants ont t prises en compte lors de lextraction de la F0. Finalement, la F0 est extraite sur les segments voiss toutes les 10 ms. Nous avons considr les segments courts (<40ms) comme des erreurs de dtection (cf. Figure 5-6 ) et les avons limins. Avec Praat, il est galement possible de pnaliser les sauts doctave, les silences trop grands ou le trop grand nombre de segments voiss/non voiss. La difficult est toujours de trouver le compromis entre pnaliser les erreurs et effacer des indices pertinents pour les motions (saut doctave par exemple). Les paramtres dduits de lextraction de la F0 sont : F0 maximum, F0 minimum, plage 1 F0, mdian F0, premier quartile F0, troisime quartile F0, moyenne F0, dviation standard F0 variation maximale de F0 entre 2 segments voiss adjacents (voir max F0Inter Figure 5-6) variation maximale de F0 lintrieur dun segment vois (voir max F0Intra Figure 5-6) le maximum et la moyenne de la pente de la F0, du coefficient de rgression et de lerreur moyenne quadratique par segment voise des paramtres de dure : o position sur laxe des temps o F0 est maximum (resp. minimum)

Plage=maximum-minimum

- 105 -

Chapitre 5 5BLes paramtres

tvoi ratio entre les parties voises et non voises ( tunv


i i

)
i

o dbit (inverse de la longueur moyenne des parties voises.

Erreur de dtection

tel-00624085, version 1 - 15 Sep 2011

tUnvi

Pente,Coeff F0Intra F0Inter

tUnvi+1

tVoii-1

tVoii tF0Max

tVoii+1

Figure 5-6. Exemple dextraction de F0 avec Praat : la courbe de la F0 est indique en bleu et des informations sont donnes sur les diffrents traitements effectus. Des paramtres similaires sont calculs pour lnergie. 5.2.1.2. Paramtres spectraux Les 3 premiers formants et leurs bandes passantes ont t extraits avec Praat toutes les 10ms en prenant compte des diffrences hommes femmes et suivant lalgorithme de Burg [Childers 1978; Teukolsky et al. 1992] qui ne tient pas compte des formants en dessous de 50Hz.

- 106 -

Chapitre 5 5BLes paramtres Seules les valeurs extraites sur les parties voises ont t conserves et des paramtres (minimum, maximum, moyenne, mdian, premier et troisime quartile, dviation standard, plage) ont t extraits pour chaque formant et bande passante, ainsi que pour les diffrences (F2-F1) et (F3-F2). Les paramtres cepstraux sont des paramtres standard pour les systmes de transcription [Gauvain 2002]. Ils ont t extraits toutes les 10ms en utilisant une fentre de 30ms sur une bande 0-8kHz. Nous avons calcul les maxima et minima des 15 coefficients cepstraux, ainsi que des coefficients et . 5.2.1.3. Microprosodie Le jitter, shimmer, NHR, HNR, ont t extraits par Praat au niveau du segment. Un exemple de variation de F0 (tremolo, voix tremblante) est donn dans la Figure 5-7. tel-00624085, version 1 - 15 Sep 2011

Figure 5-7. Exemple de voix tremblante (variation de F0), extrait annot dtresse/dsespoir/tristesse.

Lnergie, les paramtres spectraux et les formants ont seulement t extraits sur les parties voises (i.e. parties o Praat dtecte la F0). Certains signaux, comme les voix chuchotes en particulier (Figure 5-8) ont trs peu dindices.

- 107 -

Chapitre 5 5BLes paramtres

Figure 5-8. Exemple dune voix chuchote avec trs peu dindices. tel-00624085, version 1 - 15 Sep 2011

En rsum
La Figure 5-9 rcapitule les diffrents types de paramtres acoustiques extraits automatiquement et leurs traitements.
Signal Extraction et traitement de lacoustique
F0 toutes les 10ms
Filtre valeurs aberrantes segments petits

Paramtres extraits
F0 min,F0 max pente F0

F0 corrige

Praat

Energie toutes les 10ms

Filtre valeurs aberrantes

Energie sur parties voises

En min..

Formants toutes les 10ms

Formants sur parties voises

F1min, F2 min

Microprosodie : (jitter, shimmer..) par segment

jitter shimmer HNR, NHR

Outils Limsi

Paramtres cepstraux toutes les 30 ms

15 mfcc et

Figure 5-9. Rsum des paramtres acoustiques extraits automatiquement .

- 108 -

Chapitre 5 5BLes paramtres

5.2.2. Paramtres dduits de la transcription manuelle et de lalignement phonmique

Alignement Phonmique
Le corpus a t segment en phonmes 1 en utilisant des modles acoustiques indpendants du contexte, mis au point au Limsi pour des conversations tlphoniques. La procdure (cf. Figure 5-10), fonde sur lalignement dynamique de modles de Markov cachs densit continue, indpendants du contexte, est dcrite dans [Adda-Decker 1999]. Elle ncessite une transcription orthographique fine de la parole, avec tous les phnomnes de disfluences que cela comporte : les lapsus, mots tronqus, hsitations ainsi quun dictionnaire contenant les diffrentes prononciations possibles (transcription phontique base sur 36 phonmes) de tous les tel-00624085, version 1 - 15 Sep 2011 mots du lexique (121k mots). A partir des donnes audio, de leur transcription manuelle et du dictionnaire de prononciations, le dcodeur produit la squence de phonmes ralise la plus probable et leur association temporelle. Les rsultats produits par le dcodeur dpendent bien sr du degr de finesse avec lequel a t labor le dictionnaire, des modles acoustiques et plus gnralement des paramtres du systme.

modles acoustiques transcription orthographique

dictionnaire de prononciations

alignement

segmentation en phonmes

signal de parole

Figure 5-10. Lalignement phonmique. Ont t extraits de la transcription et de lalignement phonmique : des marqueurs affectifs : nombre de rires, de pleurs, de respirations, de mots inintelligibles, de mots tronqus, nombre de mots par segment et dbit (#nombre mots/longueur du signal) des disfluences : nombre dhsitations euh et leur dure

Le phonme est la plus petite unit linguistique (36 en franais).

- 109 -

Chapitre 5 5BLes paramtres des informations sur les dures des phonmes 1. En particulier, nous avons regard la dure moyenne et maximum des phonmes et le dbit phonmique (nombre de phonmes diviss par la longueur de la phrase). Ces mmes paramtres ont t calculs pour les voyelles seulement.
phonmes/s

13.0 12.0 11.0 10.0 9.0 8.0 7.0 6.0 5.0 4.0

tel-00624085, version 1 - 15 Sep 2011

3.0 Colre Peur Tristesse debPhones H Neutre debVoy F Soulagt debVoy H

debPhones F

a.
105 100 95 90
220 300 280 260 240

85 80 75 70

200 180 160 140 120

65 Colre Peur Tristesse Neutre Soulagt

100 Colre Peur Tristesse Neutre Soulagt

DureeMoy_F

DureeMoy_H

DureeMax_F

Duree_Max_H

b.

c.

Figure 5-11. Quelques paramtres issus de lalignement phonmique pour les classes motionnelles Peur/Colre/Tristesse/Neutre/Soulagement ; a. : dbit phonmique et #voyelles/dure du segment pour les 5 motions en regardant les hommes et les femmes sparment ;, b. : dure moyenne des phonmes, c. : dure maximum des phonmes.

Les frquences des formants pour les voyelles nont pas t ajoutes aux paramtres, faute de temps

- 110 -

Chapitre 5 5BLes paramtres La Figure 5-11 donne un aperu de la variation de certains paramtres obtenus aprs alignement phonmique pour les 5 classes motionnelles Peur, Colre, Soulagement et Neutre. Dans une tude sur les donnes boursires [Devillers et al. 2004], nous avions tudi les dures des silences et hsitations. Les rsultats montraient que les silences taient plus prsents et plus longs chez les appelants que chez les agents (le rle de lagent empche la manifestation de silences) et plus nombreux pour les motions ngatives que neutre ou positives. De mme ltude montrait la corrlation entre le nombre de euh et les segments tiquets peur/inquitude . En rsum, le nombre dindices par type est donn dans le Tableau 5-2. Type de paramtre tel-00624085, version 1 - 15 Sep 2011
coefficients MFCC

Description
minimum et maximum des 15 coefficients cepstraux, coefficients et F0 : min, mdian, premier et troisime quartile, maximum, moyenne, dviation standard, plage au niveau du segment, pente (moyenne et max) pour le segment vois. Coefficient de rgression et son erreur quadratique moyenne (calcul sur les parties voides), variation maximale de F0 entre 2 segments voiss adjacents. (inter-segment) et pour chaque segment vois (intra-segment), position sur laxe de temps o est maximum (resp. minimum), ratio du nombre de segments voiss et non voiss. Dures: dbit (inverse de la dure moyenne des parties voises), nombre et longueur des silences (portions non voises entre 200-800 ms). formants et leurs bandes passantes, diffrence entre le troisime et le second formant, diffrence entre le second et le premier formant : min, max, moyenne, dviation standard, plage. min, max, moyenne, dviation standard et plage au niveau du segment. pente (moyenne et max) sur les parties voises, coefficient de rgression et erreur quadratique moyenne. jitter, shimmer, NHR, HNR inspiration, expiration, bruits de bouche, rires, pleurs, nombre de mots tronqus et de paroles inintelligible, nombre de mots, dbit (#mots/dure du segment). Disfluences : nombre de euh dure moyenne et maximum des phonmes, dbit phonmique (#phonmes/ dure du segment), longueur (max et moyenne) des hsitations.

# indices
90

paramtres dduits de lextraction de la F0

25

Paramtres spectraux (extraits sur les parties voises du signal et normaliss) Energie (Normalise) Microprosodie Trans1 : indices extraits de la transcription Trans2 : Dures obtenues aprs alignement phonmique

48 20 14 11 11

Tableau 5-2. Rsum des diffrents paramtres paralinguistiques extraits.

- 111 -

Chapitre 5 5BLes paramtres

5.2.3. Normalisation des paramtres prosodiques


La normalisation des paramtres est indispensable tant donn que certains paramtres dpendent des locuteurs. Par exemple, la F0 moyenne dpend du locuteur et elle est denviron 150 Hz pour les hommes, 250 Hz pour les femmes et 350 Hz pour les enfants. Plusieurs mthodes existent pour normaliser les paramtres. La difficult est de lisser les diffrences entre locuteurs sans effacer les variations causes par les motions. Pour un paramtre P, les diffrentes possibilits de normalisation sont les suivantes : Z-Norme : normalisation par rapport la moyenne et la dviation standard :

PZNorme =

P moyenneLoc Sd Loc

avec moyenneLoc et SdLoc les moyennes et dviation standards de P pour un locuteur.

tel-00624085, version 1 - 15 Sep 2011

Mthode logarithmique [Wrede et Shriberg 2003]: Pnorm=log(P/Pmin) avec

PNorme = log

P P min Loc

avec Pmin tel que 3% des donnes par locuteur

soient infrieures Pmin.

Normalisation de Nearey [Adank 2003] (est censer liminer les diffrences dues aux diffrentes longueurs du conduit vocal)

PNea =

log P Moyenne(log( Pi ))

Un exemple de segment normalis avec les diffrentes mthodes est donn Figure 5-12. La normalisation ne semble pas lisser la courbe.

- 112 -

Chapitre 5 5BLes paramtres

tel-00624085, version 1 - 15 Sep 2011

Figure 5-12. Comparaison entre les courbes de F0 sans normalisation, en utilisant la Z-norme, la normalisation de Shriberg et celle de Nearey. - 113 -

Chapitre 5 5BLes paramtres

5.2.4. Tendances des paramtres compares celles de Scherer


En sparant simplement hommes et femmes et en regardant les paramtres prosodiques tous locuteurs du mme sexe confondus, on nobserve pas vraiment de tendances. (Il y a plus de variations inter-locuteurs quinter-motions). Nous avons donc compar diffrents paramtres sur des donnes normalises avec la Znorme. Nayant pas effectu dalignement syllabique des donnes, nous avons considr que les dures syllabiques devaient voluer peu prs pareillement que les dures phonmiques. Les rsultats pour les paramtres calculs sont reprsents dans le Tableau 5-3. Si pour la Peur et la Colre les paramtres se comportent peu prs conformment ltude de Scherer, ce nest pas toujours le cas de la tristesse. Il peut y avoir en particulier, une grande variation de F0. Pour nos donnes la dviation standard de F0 pour la tristesse tait lgrement infrieure celle du Neutre tel-00624085, version 1 - 15 Sep 2011 pour les femmes et lgrement suprieure pour les hommes. Les paramtres jitter, shimmer et HNR peuvent sobtenir de plusieurs faons et ntaient pas normaliss dans notre tude ce qui peut expliquer les diffrences. Avec des donnes relles o les motions peuvent sexprimer avec une grande variabilit, on nobservera donc pas ncessairement les mmes tendances que pour des donnes plus contrles.
Paramtres acoustiques Dbit et Fluency Nombre de phonmes par seconde Dure des phonmes Nombre et dure des pauses F0 et Prosodie moyenne F0 dviation standard de F0 Plage F0 Stress Colre/ Tristesse Rage <> <> < < > > Peur /Panique > < <>

> < <

> > >

> > >

< < <

> > <>

Effort Vocal et Type de Phonation


Intensit moyenne (dB) Jitter Shimmer HNR

>

> >= >= >

<= > > < <

Tableau 5-3. Comparaison entre la review de Scherer (cf.Tableau 5-1) et les donnes CEMO. Les conclusions partages sont surlignes en jaune et celles diffrentes barres en rouge. - 114 -

Chapitre 5 5BLes paramtres

5.2.5. Triangles vocaliques


Le triangle des voyelles montre que les zones privilgies des frquences phonatoires, renforces par les diffrents rsonateurs pharyngs, varient lune en fonction de lautre suivant la voyelle prononce. Nous avons trac les triangles vocaliques en suivant la mthode de Vieru et al.[Vieru-Dimulescu et Boula de Mareil 2006]. Les valeurs des 2 premiers formants des voyelles nont pas t ajout au vecteur de paramtres, mais il serait intressant de les valuer.

tel-00624085, version 1 - 15 Sep 2011

_neutre _peur _colre _tristesse

Figure 5-13. Triangle vocalique des femmes pour les motions Neutre/Peur/Colre/Tristesse (normalisation de Nearey.

- 115 -

Chapitre 5 5BLes paramtres

_neutre _peur _colre _tristesse

tel-00624085, version 1 - 15 Sep 2011

Figure 5-14.Triangle vocalique des hommes pour les motions Neutre/Peur/Colre/Tristesse (normalisation de Nearey).

- 116 -

Chapitre 5 5BLes paramtres

_neutre _peur _colre _tristesse

tel-00624085, version 1 - 15 Sep 2011

Figure 5-15.Triangle vocalique pour les motions Neutre/Peur/Colre/Tristesse (normalisation de Nearey).

- 117 -

Chapitre 5 5BLes paramtres

5.3. Conclusion
Dans ce chapitre, nous avons dcrit une multitude dindices diffrents pouvant tre extrait pour la dtection des motions avec en particulier des indices prosodiques, spectraux pouvant tre extraits automatiquement, et que nous qualifierons de blind dans la suite de cette thse et dautres ncessitant un traitement manuel, bien quil nest pas exclu quils puissent tre exclus automatiquement dans les annes venir. Nous avons dcrit en dtail les mesures dduites de ces indices avec au total plus dune centaine de paramtres extraits pour chaque segment, certains trs locaux comme par exemple le maximum et dautres globaux comme la moyenne. Nous avons galement insist sur la ncessit de normaliser ces paramtres en prsentant plusieurs mthodes de normalisation. Certains sont trs redondantes et une stratgie usuelle sera de leurs appliquer des algorithmes de slection. tel-00624085, version 1 - 15 Sep 2011 Quels sont les plus pertinents ? Sont-ils tous ncessaires ? En quoi leur combinaison pourra-t-elle amliorer la dtection ? Cest ce qui est abord dans le prochain chapitre.

- 118 -

Chapitre 6 Apprentissage pour la dtection des motions


Rsum
Ce chapitre porte sur lapprentissage de modles computationnels pour la dtection des motions. Plusieurs questions se posent lorsquon veut utiliser la fouille de donnes pour la dtection des motions. Quel algorithme utiliser ? Combien de classes dmotions peut-on envisager de discriminer ? Comment optimiser les rsultats (pr-traitement des donnes, choix de lalgorithme apprentissage, normalisation, slection et combinaison des paramtres, ) ? Ya-t-il des diffrences entre les diffrents rles (agent vs. appelant, homme vs. femmes) Notre mthodologie est-elle transposable sur dautres types de donnes ? Quelles performances les classifieurs entrains sur un corpus ont-ils sur diffrentes donnes ? La mthodologie dveloppe sur les donnes CEMO peut elle tre applique dautres donnes et les modles construits sur CEMO peuvent-ils tre tests sur dautres donnes ? Dans ce chapitre, nous dcrivons dabord les algorithmes que nous avons utiliss, ainsi que diffrentes considrations mthodologiques sur la prparation des donnes. Nous prsentons ensuite les expriences ralises sur les corpus LIMSI (donnes boursires et CEMO) avec plusieurs axes de recherche : - variation du nombre de classes motion - ajout de contexte : diffrences agent/appelant et hommes/femmes - importance des diffrents types dindices - mlange dindices linguistiques et paralinguistiques Nous prsentons ensuite les rsultats obtenus sur les donnes AIBO dans le cadre de la collaboration CEICES (Combining Efforts for Improving Automatic Classication.of Emotional User States) dans le rseau dexcellence FP6HUMAINE visant entre autre pallier le manque de mthode standard dvaluation et labsence de corpus de rfrence. Enfin nous testons la portabilit des classifieurs entrains sur les donnes CEMO sur dautres donnes collectes dans les mmes conditions acoustiques (centre dappel sur une autre tche) et sur des donnes actes prototypiques collectes par luniversit de Genve.

tel-00624085, version 1 - 15 Sep 2011

- 119 -

tel-00624085, version 1 - 15 Sep 2011

With a 20h corpus rich in emotions, how many emotion classes could be discriminated? What are the best algorithms and the most relevant parameters? How to optimize the results? Is there a difference between the speaker roles (agent vs. caller), between the genders? Can we use our method for other type of data? And how well do classifiers trained on our corpus perform on other data? In this chapter, we will start with a description of the algorithms that we used and the data preprocessing. We will then describe the experiments performed on the LIMSI corpora with several goals: - number of classes to discriminate - role of the context (Agent/Caller, Gender) - relative importance of several cues - combination of prosodic and linguistic information We will then present the forced co-operation CEICES (Combining Efforts for Improving Automatic Classication.of Emotional User States) in FP6-HUMAINE in which several sites compared and combined their expertise on a corpus of interactions between children and the sony dog AIBO. Finally we will look into the performances of classifiers trained with our data on other data collected both in similar acoustic conditions (call center with a different task) and on acted speech (data collected by the university of Geneva).

- 120 -

6.1. 6.1.1.

LAPPRENTISSAGE AUTOMATIQUE : CADRE GENERAL POUR NOS TRAVAUX ......................................... 123 Algorithmes .................................................................................................................................... 124
Les arbres de dcision .......................................................................................................................... 124 Les Sparateurs Vaste Marge (SVM : Support Vector Machine) ...................................................... 125

6.1.1.1. 6.1.1.2.

6.1.2.

Mthodologie : Prparer et valuer les donnes............................................................................ 127


Apprentissage et test/Validation croise............................................................................................... 127

6.1.2.1.

Donnes non quilibres............................................................................................................................................ 128 6.1.2.2. Comment reprsenter et valuer les rsultats ?..................................................................................... 129

Evaluer la fiabilit des rsultats................................................................................................................................. 130

6.1.3. 6.2. 6.2.1.

La slection des attributs................................................................................................................ 131 QUEL ALGORITHME UTILISER ? PREMIERS RESULTATS : TRANSACTION BOURSIERES / CEMO ............ 133 Comparaison de diffrents algorithmes sur les donnes boursires et CEMO pour la classification

de 2 classes................................................................................................................................................... 133
Donnes boursires.................................................................................................................................................... 133

tel-00624085, version 1 - 15 Sep 2011

Donnes CEMO ........................................................................................................................................................ 134

6.2.2. 6.2.3. 6.2.4. 6.3. 6.3.1.

Intrt de ne pas utiliser les mlanges : exemple Peur/Colre sur CEMO et donnes boursires. 135 Combien de donnes pour lapprentissage ? ................................................................................. 135 Quelle normalisation ?................................................................................................................... 136 SUR LES DONNEES CEMO ................................................................................................................... 137 Informations contextuelles : Diffrences Agents/Appelants, Hommes/Femmes............................. 137

Agent/Appelant ......................................................................................................................................................... 137 Hommes/Femmes...................................................................................................................................................... 138

6.3.2. 6.3.3.

Variation du nombre de classes ..................................................................................................... 140 Le poids des diffrents types dattributs paralinguistiques : le cas de la dtection dans le cas des 5

classes Peur/Colre/Tristesse/Soulagement/Neutre ..................................................................................... 141


Slection des attributs................................................................................................................................................ 142 Rsultats avec les paramtres en mode blind, c'est--dire sans aucune connaissance du contenu.......................... 143 Indices Blinds vs indices semi-automatiques....................................................................................................... 144 Rsultats par motion ................................................................................................................................................ 145

6.3.4.

Combinaison indices lexicaux et prosodiques................................................................................ 147

Description du modle lexical ................................................................................................................................... 147 Combinaison linaire entre les modles lexicaux et prosodiques pour les donnes boursires ................................. 147 Expriences sur le corpus CEMO.............................................................................................................................. 149

6.4. 6.4.1. 6.4.2. 6.4.3. 6.4.4. 6.4.5. 6.4.6.

UTILISATION DE NOS METHODES SUR DES DONNEES DIFFERENTES : CEICES (COMBINING EFFORTS FOR Coopration dans le cadre du rseau dexcellence humaine ......................................................... 150 Le corpus AIBO.............................................................................................................................. 150 Schma dencodage des paramtres. ............................................................................................. 151 Comparaison des performances par site........................................................................................ 152 Impact des erreurs dextraction du pitch ....................................................................................... 152 Impact de diffrents types de paramtres....................................................................................... 153

IMPROVING CLASSIFICATION OF EMOTIONAL USER STATE) ............................................................................... 150

- 121 -

6.4.7. 6.5. 6.5.1. 6.5.2.

Conclusions gnrales sur les donnes AIBO ................................................................................ 154 PORTABILITE SUR DES DONNEES DIFFERENTES .................................................................................... 155 Sur les donnes boursires............................................................................................................. 156 GEMEP (GEneva Multimodal Emotion Portrayals)...................................................................... 159

Tche simple Colre/Neutre................................................................................................................................... 156

Description des donnes ............................................................................................................................................ 159 Classification Peur/Colre/Tristesse/Soulagement .................................................................................................... 161 Classification Peur/Colre ......................................................................................................................................... 165 Conclusion pour les donnes GEMEP....................................................................................................................... 166

6.6. 6.7.

VERS UNE MODELISATION PLUS FINE ET TEMPORELLE ......................................................................... 167 CONCLUSION ....................................................................................................................................... 170

tel-00624085, version 1 - 15 Sep 2011

- 122 -

Chapitre 6_ Apprentissage pour la dtection des motions

6. APPRENTISSAGE POUR LA DETECTION DES EMOTIONS


Dans les chapitres prcdents, nous avons dcrit en dtail nos corpus, la manire dont ils ont t annots, laide dun vecteur motion pour chaque segment, et tous les indices que nous avons extraits par segment. Pour toutes les expriences qui vont suivre, nous slectionnerons pour lapprentissage et pour le test des segments simples , c'est--dire pour lesquels le vecteur motion na pour champ non nul que des tiquettes correspondant une mme classe. Au pralable, nous justifierons notre mthodologie et nos choix.

6.1. Lapprentissage automatique : cadre gnral pour


tel-00624085, version 1 - 15 Sep 2011

nos travaux
Lapprentissage peut tre dfini comme toute technique permettant damliorer les performances dun systme en cours dutilisation [Kodratoff et Bars 1991] Nous nous intresserons dans nos travaux lapprentissage supervis : partir dun nombre limit dobservations (dans notre cas des segments avec une tiquette motion), nous cherchons estimer la classe de donnes 1 inconnues. Nous appellerons classifieur ou modle (ou encore modle computationnel pour bien le diffrencier dun modle thorique) lobjet permettant dassocier un nom de classe une instance inconnue. On entrane tout dabord le classifieur sur un ensemble de donnes (appel ensemble dapprentissage ou training set en anglais). Le classifieur est valu sur un ensemble de donnes tiquetes qui nont pas t utilises pour lapprentissage et le rsultat de cette valuation peut tre reprsent par une matrice de confusion. Les algorithmes que nous avons utiliss sont principalement les arbres de dcision et les Support Vector Machine] (ou SVM) [Vapnik 1998]. Pour toutes nos expriences, nous avons utilis le logiciel libre Weka [Witten et Franck 2005] qui est un ensemble doutils de fouille de donnes permettant le traitement et la slection des paramtres et proposant diffrents algorithmes dapprentissage. Ce logiciel est actuellement de plus en plus utilis dans la communaut de reconnaissance des formes. Il englobe de nombreux

Donne : Ensemble de valeurs prises par un ou plusieurs descripteurs dun objet ou dun vnement [Kodratoff et Bars 1991]

- 123 -

Chapitre 6_ Apprentissage pour la dtection des motions algorithmes connus comme par exemple les SVM, les arbres de dcision (J48), ainsi que Mta algorithmes 1. Au cours de la thse, le nombre de paramtre extraits a rgulirement volu et la plupart des expriences dcrites dans ce chapitre ont t ralises avec lensemble de paramtres le plus rcent dcrits en dtail dans le chapitre 5. Avant de prsenter nos rsultats, nous allons tout dabord rapidement dcrire les principaux algorithmes qui ont t utiliss.

6.1.1. Algorithmes
6.1.1.1. Les arbres de dcision tel-00624085, version 1 - 15 Sep 2011 Les arbres de dcision sont des mthodes de classification pour des instances reprsentes dans un formalisme attributs/valeur. Un arbre est la reprsentation graphique dune structure dans laquelle un nud appel le pre est reli un ou plusieurs autres nuds, les fils. [] Formellement, on le dfinit comme un graphe connexe sans cycle. [] Un nud sans pre est appel la racine de larbre. Le nud sans fils est appel une feuille. [Kodratoff et Bars 1991] Un arbre de dcision est un arbre dont chaque nud correspond un choix (une dcision) et dont les fils sont les consquences de ce choix Il existe diffrents algorithmes dapprentissage des arbres de dcisions comme par exemple les Logistic Model Trees [Landwehr et al. 2003], qui sont des arbres de classification avec des fonctions de rgression linaire aux feuilles ou l Alternative decision tree ADTree [Freund et Shapire 1996] qui combine par vote pondr les rsultats de plusieurs arbres.

Approche de plus en plus populaire qui consiste combiner les sorties de diffrents modles par

un vote ou en moyennant des diffrentes prdictions dans le cas de prdictions numriques. - 124 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.1.1.2.

Les Sparateurs Vaste Marge (SVM : Support Vector Machine)

Lide des SVM (Support Vector Machine ou Sparateurs Vaste Marge [Vapnik 1998]) est de trouver le meilleur hyperplan sparateur permettant de sparer deux ensembles de points, c'est-dire celui pour lequel la distance minimale aux exemples dapprentissage est maximale. Cette distance est appele marge . (cf. Figure 6-1).

tel-00624085, version 1 - 15 Sep 2011

Figure 6-1. Hyperplan optimal de marge 1/||w|| (schma tir de l'article de Cornujols [Cornujols 2002]).

S est lchantillon dapprentissage S= {(x1, u1), (x2, u2), , (xm, um)} On cherche h(x)= w0 + wTx tq soit encore ui(w0 + w xi ) > 0 La recherche de lhyperplan optimal revient minimiser ||w||. Le problme se rsout mathmatiquement [Cornujols et Miclet 2002] et la solution ne requiert que le calcul de produits scalaires. La contrainte des marges peut tre relche en introduisant une variable ressort permettant de tolrer un certain nombre derreur. Une constante C dfinie par lutilisateur va alors borner le nombre derreurs tolres. Pour des chantillons non linairement sparables, la solution est de projeter les donnes dans un espace de dimension suprieur (potentiellement infini) dans lequel il existe un hyperplan - 125 T

h(x) >0 = > ui=1 h(x) < 0 = > ui= -1

Chapitre 6_ Apprentissage pour la dtection des motions permettant de sparer linairement les donnes. Cependant quand lespace est grand, le calcul des produits scalaires devient impraticable. Une solution est alors dutiliser des fonctions bilinaires symtriques positives appeles fonctions noyaux, faciles calculer et qui correspondent un produit scalaire dans un espace de grande dimension. En pratique, on choisit une fonction noyau que lon sait correspondre un produit scalaire dans un espace alors virtuel et on regarde si elle permet dobtenir de bonnes fonctions de dcision. (Il est ncessaire doprer alors par essai erreur). Les fonctions noyaux les plus utilises sont indiques dans le Tableau 6-1 ci-dessous.
Linaire Polynomiale RBF (a base radiale) Sigmodes K(xi, xj)=xiTxj K(xi, xj) = (xiTxj + r)d, > 0. K(xi, xj)= exp(-||xi_xj||2), > 0 K(xi, xj)=tanh= (xiTxj + r)

tel-00624085, version 1 - 15 Sep 2011

Tableau 6-1. Fonctions noyaux les plus utilises. r, d et sont des paramtres des fonctions noyaux.

Au final, pour utiliser les SVM, lutilisateur doit simplement choisir le coefficient C, qui rgle le compromis entre la marge possible entre les exemples et le nombre derreurs admissibles, la fonction noyau et ses paramtres. Il est conseill de commencer avec les RBF car en pratique, ils donnent de bons rsultats [Chih et al. 2003].

- 126 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.1.2. Mthodologie : Prparer et valuer les donnes


Que le but soit dvaluer une tche sur les donnes dont nous disposons ou de pouvoir faire des prdictions sur des donnes inconnues, nous avons besoin dun ensemble de donnes tiquetes nayant pas t utilises pour lapprentissage afin dvaluer le classifieur et viter le surapprentissage (le classifieur est trs performant sur les donnes ayant servies pour le construire, mais il a un pouvoir de gnralisation faible sur des donnes inconnues) [Cornujols et Miclet 2002]. Comme pour de nombreuses applications, nous sommes limits par la quantit de donnes dont nous disposons. Nous voulons crer des classifieurs le plus gnriques possible, ce qui suppose davoir un nombre suffisant de donnes, mais il faut galement suffisamment dinstances de test pour pouvoir gnraliser sur les performances du classifieur sur des donnes inconnues. Enfin, il tel-00624085, version 1 - 15 Sep 2011 ne faut pas oublier que les performances des systmes automatiques de dtection des motions seront compares la perception humaine.

6.1.2.1. Apprentissage et test/Validation croise Pour Cabena [Witten et Franck 2005 p60], 60% du travail pour la fouille de donnes est dans la prparation des donnes. Idalement, il faut sparer les donnes en 3 ensembles : un ensemble dapprentissage, un ensemble de calibration et un ensemble de test. Une solution lorsquon dispose de peu de donnes est la validation croise. On divise les donnes en N ensembles, un est utilis pour le test et les autres pour lapprentissage et ceci pour les N sous ensembles. Le score de bonne dtection est alors la moyenne des N scores avec un intervalle de confiance donn par la dviation standard des N scores. Cependant, la validation croise sert principalement valuer les donnes et le logiciel Weka ne permet pas dobtenir un classifieur afin de faire des tests sur des donnes nouvelles 1. Nous aurions pu faire manuellement la validation croise en sparant les donnes en N ensembles en prenant soin davoir des locuteurs diffrents dans chaque sous ensemble et une distribution peu prs identique des motions ; puis entranant un classifieur pour chaque sous ensemble. Finalement, pour les expriences les plus rcentes, nous avons divis les donnes en un ensemble dapprentissage et un ensemble de test avec des locuteurs diffrents. Le nombre de

Le logiciel weka, pour la validation croise avec N ensembles, ne donne pas les performances respectives sur chaque sous-ensemble, mais seulement un score moyen. Si on lui demande de tester le model sur un ensemble de test distinct, il recrera un classifieur partir de lensemble complet dapprentissage. De plus, lutilisateur a seulement accs aux rsultats globaux et ne peut pas contrler la distribution des motions ou celle des locuteurs par sous ensemble.
1

- 127 -

Chapitre 6_ Apprentissage pour la dtection des motions segments utiliss pour lapprentissage et le test varient selon les motions que lon cherche discriminer. Toutes les expriences ont cependant t effectues avec plus de 250 segments par motion pour lapprentissage.

Donnes non quilibres


Parce que les donnes sont majoritairement neutres et que la frquence des motions nest pas la mme pour toutes les classes, on dispose souvent de donnes non quilibres avant de commencer lapprentissage. Afin de ne privilgier aucune classe, il faut prendre en compte ce dsquilibre. Pour certains algorithmes, des poids peuvent tre fixs lapprentissage afin de pnaliser les classes les plus frquentes, mais en pratique, on prfrera slectionner un ensemble de classes quilibres pour lapprentissage (Cette stratgie a t utilise par tous les partenaires de CEICES). La raret de certaines classes fait que si on slectionne pour lapprentissage le nombre dinstances de la classe la tel-00624085, version 1 - 15 Sep 2011 moins reprsente fois le nombre de classes, on perd des informations. Une solution qui est souvent utilise est de dupliquer ou tripler certaines instances comme dans lexemple de Figure 6-2. Est-ce que cela biaise lapprentissage ? Comment choisir le nombre optimal dinstances par classe pour lapprentissage ? Il ny a pas vraiment de rgles. Cela va dpendre entre autres du nombre de classes que lon cherche discriminer, de la distance entre ces classes et du nombre dindices calculs pour chaque instance.
Peur.app Col.app Tris.app Soul.app Neutre.app TRAIN
Equilibrage des donnes en en dupliquant et supprimant au hasard

Peur.app Col.app Tris.app Soul.app Neutre.app

Selection des attributs

SVM C et G best

CL score

Peur.test Col.test Tris.test Soul.test Neutre.test TEST

Figure 6-2. Obtenir des donnes quilibres pour lapprentissage : un exemple pour une classification Peur/Colre/Tristesse/Soulagement/Neutre avec des donnes non quilibres pour lapprentissage et en utilisant des SVM .

- 128 -

Chapitre 6_ Apprentissage pour la dtection des motions 6.1.2.2. Comment reprsenter et valuer les rsultats ? Nayant pas dapplication prcise en vue, nous cherchons obtenir la meilleure dtection possible sans favoriser dmotions et en pnalisant les falses negatives . Une reprsentation complte des rsultats est la matrice de confusion, mais la plupart des tudes prsentent galement leurs rsultats sous la forme dun taux de dtection, ce qui permet de comparer plus facilement les diffrentes expriences et de donner un rsultat dli des donnes qui ont servi lobtenir. Dans certaines des tudes, le score qui est donn est le score de bonne dtection ou RR rate (Nombre de bonne dtection/ Nombre total de segments). Dans le cas de classes non quilibres, ce score nest pas ncessairement trs significatif 1, surtout si certaines motions sont mieux reconnues que dautres et le score RR risque de varier selon la distribution de lensemble de test. Nous avons donc choisi dvaluer nos rsultats en utilisant le CL score (Class_wise : moyenne de tel-00624085, version 1 - 15 Sep 2011 la diagonale de la matrice, cf. Figure 6-3). Ainsi, les scores de dtection ne dpendront pas de la distribution de lensemble de test et pour les meilleurs modles, le taux de reconnaissance par motion est peu prs celui donn par le CL score. Une autre mesure intressante est la prcision par motion, le nombre de fois o une motion est correctement identifie divis par le nombre de fois o elle est identifie (bien ou mal). Score
RR (Recognition Rate) CL (Class wise) FF score Prcision (par motion i) Recall (par motion i)

formule

Matrice de confusion :
Reconnue comme E1 Ei En m11 m1i m1n

ii

Total
mii 1 n mi
C l a s s e

RR + CL 2
mii mi + mi . mii mi

E1 . . . . . . . . Ei mi1 mii min . . . . . . . . En mn1 mni mnn Total m1. mi. mn.

Total m1 mi mn

Figure 6-3. Diffrentes mesures de performances se dduisant de la matrice de confusion.

En prenant le cas extrme o la distribution des motions correspond celle des motions dans des donnes relles, avec en gnral 80% de donnes neutre , un modle qui classerait tout en Neutre aurait un trs bon pourcentage de bonne dtection, mais ne prsenterait pas un grand intrt.

- 129 -

Chapitre 6_ Apprentissage pour la dtection des motions

Evaluer la fiabilit des rsultats


Certaines de nos expriences comparent les performances de diffrents classifieurs sur un mme ensemble de test, mais dautres comparent les performances de diffrentes tches (Colre/Neutre vs. Peur/Colre par exemple). Pour ce type dexprience, il est particulirement ncessaire de vrifier que les diffrences de performances sont bien significatives. Comme indiqu page 127, le logiciel Weka permet de faire de la validation croise et donne la moyenne et la dviation standard du RRscore des N expriences. La dviation standard informe sur la variabilit des performances 1 pour une tche et permet de voir si les diffrences de performances entre 2 tches diffrentes sont significatives. Cest ainsi que nous avons procd pour les premires expriences en utilisant Weka [Vidrascu et Devillers 2005a]. Comme nous nous intressons au score CL et que nous voulons contrler lquilibre des donnes de lapprentissage, nous navons plus utilis Weka pour les dernires expriences, mais nous avons procd de manire similaire en regroupant les donnes tel-00624085, version 1 - 15 Sep 2011 utilises pour lapprentissage et le test et en rptant N fois lexprience de choisir alatoirement 75% des donnes pour lapprentissage et le reste pour le test ; puis de regarder la moyenne et la dviation standard des scores RR et CL.
Peur.app Col.app Tris.app Soul.app Neutre.app TRAIN Peur.all Col.all Tris.all Soul.all Neutre.all Equilibrage des donnes en en slectionnant au hasard sans doublons

xN

Traini
Fonction random weka CL score SVM
Intervalle de confiance

Peur.test Col.test Tris.test Soul.test Neutre.test TEST

Testi

Figure 6-4. Cration de N classifieurs en faisant varier les ensembles dapprentissage et de test afin davoir un aperu de la variabilit des rsultats.

Pour une mme tche, les performances varient suivant les donnes utilises pour lapprentissage (pour celles du test galement, si on dispose de trop peu de donnes). Pour les tches simples pour lesquelles on dispose de beaucoup de segments, cette variation est infrieure 1%, mais elle peut tre plus importante lorsquon travaille sur beaucoup de classes et peu de donnes.

- 130 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.1.3. La slection des attributs


Le but est de diminuer le nombre de descripteurs (complexit) sans nuire la qualit des rsultats (performances) [Cornujols et Miclet 2002]. La diminution de la dimension de lespace des attributs permet damliorer la vitesse et les performances de modles de dtection des motions [Dellaert et al. 1996] car avec certains algorithmes, des attributs non pertinents peuvent faire baisser les performances [Lee et al. 2001]. La slection des attributs peut galement faciliter lintelligibilit des donnes. Deux types dapproches existent : llimination des attributs les moins pertinents lextraction dattributs qui rduit la dimension de lespace dentre en appliquant des transformations des attributs (analyse en composantes principales par exemple) Pour valuer les performances des attributs, on peut soit utiliser des wrappers , qui sappuient tel-00624085, version 1 - 15 Sep 2011 sur un algorithme dapprentissage ou des filters qui calculent des mesures dentropies indpendantes de la mthode de classification. Deux types de mthodes de slection des attributs existent : des mthodes qui valuent des sous ensemble dattributs, comme par exemple la Correlation based feature selection . Hall a montr dans sa thse quelle permettait davoir des performances souvent suprieures celles obtenues en gardant tout les attributs, lexception de certains cas lorsque des attributs taient limins qui taient trs bons prdicteurs dune toute petite partie de lensemble des donnes [Hall 1999]. dautres qui valuent la pertinence dun attribut individuellement [Hall et Holmes 2003], soit par calcul dun gain dinformation (GainRatio, InfoGain, Relief), soit laide dun wrapper (SVM predictif) et classent les attributs par ordre de mrite. Pour la slection des attributs, nous avons utilis les 4 mthodes (InfoGain, GainRatio, SVM, Relief) implmentes dans Weka. Nous avons compar pour diffrentes tches les performances de classification avec chaque mthode de slection dattribut et avons attribu un rang chaque attribut en moyennant les rangs obtenus pour chaque mthode. Le fait de moyenner les rangs obtenus avec chaque mthode donnait des performances identiques ou suprieures celles obtenues en nutilisant quune seule mthode et cest dons ainsi que nous avons procd par la suite. Les listes des meilleurs attributs sont diffrentes selon les donnes et les motions que lon cherche diffrencier comme lillustre le Tableau 6-2. - 131 -

Chapitre 6_ Apprentissage pour la dtection des motions


Colre/Neutre Peur/Neutre Peur/Colre Peur/Colre/Neutre nbmots nbmots pSlopeWithoutOctave maxhes debitm nbVoyelles moyenneF1 nbmots sdF1 Duree rangeEn meanhes moyenneEn Nbhes quartileEn debitm debVoy nbPhones medianF21 tquartileF0 tquartileF0 Debitm HNR moyenneF21 voisNonvois bb tquartileF0 pSlopeWithoutOctave quartileEn nbTrunc jitterLocal PI slopeMaxF0 minF1 jitterPpq5 nbhes coeffRegMinSegEn lengthmaxPhone minF32 moyenneF32 moyenneF21 slopeMaxF0 MSEMaxSegEn minF32 maxF21 sdBW3 minF3 debVoy coeffRegMaxSegEnn debVoy MSEMaxF0 medianF1 MSEMeanF0 debPhones Maxhes bb medianF21 medianF0 Nbmots MSEMeanF0 Bb sdBW2 moyenneEn HNR nbVoyelles rangeBW3 sdEn sdF1 HNR lengthmax nbVoyelles sdEn spkgRate spkgRate lVoyelles rangeF32 tquartileEn moyenneF32 maxF0 moyenneEn sdEn rangeBW2 interF0 coeffRegMinSegEn lengthmax PI sdF1 maxEn moyenneF1 Punvoiced MSEEn sdF0 MSEEn maxhes nbhes MSEMaxF0

tel-00624085, version 1 - 15 Sep 2011

Tableau 6-2. 24 meilleurs paramtres (sur 129) pour 4 tches diffrentes. Peur/Neutre, Colre/Neutre, Peur/Colre et Peur/Colre/Surprise. Nous avons galement compar la slection globale des paramtres (un algorithme de slection des paramtres est appliqu lensemble des paramtres) et la selection en faisant une slection spare pour chaque classe 1 : prosodie, nergie, formants, mais navons pas observ de diffrence significative dans les performances, bien que celles avec la slection globale semblent lgrement meilleures.

ce qui permet les meilleurs paramtres de chaque classe. - 132 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.2. Quel

algorithme

utiliser ?

Premiers

rsultats :

Transaction boursires / CEMO


Dans un premier temps [Vidrascu et Devillers 2005a], nous avons compar diffrents algorithmes frquemment utiliss dans la fouille de donnes sur les 2 corpus de centre dappels CEMO et les donnes boursires (Emotions trs contrles dans les donnes boursires et beaucoup moins dans CEMO) afin de vrifier que les performances taient bien comparables et de choisir lalgorithme utiliser pour la suite de nos recherches.

6.2.1. Comparaison de diffrents algorithmes sur les donnes


tel-00624085, version 1 - 15 Sep 2011

boursires et CEMO pour la classification de 2 classes.

Donnes boursires
Nos premires expriences (voir Tableau 6-3) comparaient : des arbres de dcision (C4.5 et ADTree), des SVM et un voting algorithme (Adaboost) [Freund et Shapire 1996] pour une tche de dtection Neutre/Ngatif en procdant par validation croise avec 50 paramtres.
C4.5 5best 10best 15best 20best Allatt 72,8 ( 5,2) 73,0 ( 5,3) 71,7 ( 6,4) 71,8 ( 5,3) 69,4 (5,6) AdaBoost 71,2 (4,5) 71,5( 4,8) 71,1( 4,7) 71,3( 4,3) 71,7 (4,3) ADTree 72,3(4,6) 73,0( 5,7) 71,6( 4,9) 71,8( 5,1) 71,6 (4,8) SVM 67,2(6,3 ) 69,5( 5,6) 70,8( 4,9) 71,0( 4,9) 69,6 (3,5)

Tableau 6-3. Algorithmes et slection des attributs : comparaison des performances Neutre/Ngatif (Peur et Colre); RR score avec les meilleurs attributs1 et Allatt : tous les attributs. Le tableau montre la moyenne de segments bien classifis pour 30 executions. Le nombre entre parenthses est la dviation standard. Ce type dexprience a t rpt pour diffrentes tches et nous navons pas constat de diffrences significatives entre les diffrents algorithmes, ni de dtrioration en ne slectionnant que peu de paramtres.

Pour cette tche, les paramtres les plus pertinents taient principalement des paramtres lis la F0 (plage F0, maximum F0, pente F0, F0 minimum, coefficient rgression F0 et son erreur quadratique moyenne, dviation standard de la F0, Inter-segment F,0 Intra-segment F0), lnergie (plage de lnergie, moyenne de lnergie, nergie maximum) aux formants et largeur de bande (moyenne F1 , moyenne F2, moyenne BW1, plage F2), des paramtres de disfluences(# hsitations (euh), #pauses) et des marqueurs affectifs (bruits de bouche, nombre de rires).
1

- 133 -

Chapitre 6_ Apprentissage pour la dtection des motions

Donnes CEMO
Les paramtres extraits taient les mmes que ceux extraits pour les donnes boursires avec en plus des disfluences. Sur ces donnes, nous avons compar un SVM et un LMT (Logistic Model Tree [Smith et Abel 1999], qui est un arbre de classification avec des fonctions de rgression au niveau des feuilles (voir Tableau 6-4 ci-dessous).
SVM 5best 10best 15best 20best Allatt 80,28 (3,71) 82,68 (3,17) 83,17 (2,94) 83,36 (3,02) 83,16 (2,74) LMT 80,69 (3,14) 82,65 (3,28) 83,49 (3,03) 83,42 (3,35) 82,85 (3,36)

tel-00624085, version 1 - 15 Sep 2011

Tableau 6-4. Algorithmes et slection des attributs : comparaison des performances de dtection Positif/Ngatif avec les meilleurs paramtres ; Allatt: tous les paramtres. Le tableau montre la moyenne de segments bien classifis pour 100 executions. Le nombre entre parenthses est la dviation standard.

Les mmes tendances sobservent pour les deux corpus : il ny a pas de diffrences significatives entre les diffrents algorithmes et la slection des paramtres na pas une incidence ngative sur les performances. En accord avec dautres tudes dans plusieurs domaines incluant celui des motions[Lee et al. 2002] [Schuller et al. 2005], les SVM, et en particulier ceux noyaux RBF savrent donner de bons rsultats quelle que soit la tche et sont assez simples entraner. La seule difficult est de trouver les coefficients C et Gamma, qui dpendent du type de donnes et de la tche. Comme il ny a pas de rgles ou de mthodes pour les choisir de manire optimale, nous les faisons varier afin de trouver les plus adapts.

- 134 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.2.2. Intrt de ne pas utiliser les mlanges : exemple Peur/Colre sur CEMO et donnes boursires.
Lannotation des donnes CEMO et lutilisation dun vecteur motion comme tiquette permettent de distinguer les segments simples et les motions complexes. Sur les donnes boursires, nous avions constat (voir chapitre Annotation) que les scores de dtection pour la classification Peur/Colre taient assez faibles (60% de bonne dtection environ) et que cela pouvait peut tre sexpliquer par le nombre lev de mlanges Peur/Colre parmi les segments utiliss pour lapprentissage[Vidrascu et Devillers 2005a]. Nous avons effectu des expriences similaires de classification Peur/Colre pour les donnes CEMO avec des SVM en utilisant ou non des mlanges pour lapprentissage. Les performances sont significativement meilleures 1 lorsque les mlanges sont retirs de lapprentissage avec un score tel-00624085, version 1 - 15 Sep 2011 CL de 82% de bonne dtection sans mlanges, contre 78% avec mlanges. Paralllement, un mme modle aura des meilleures performances sur un ensemble de test sans mlanges. Toutefois, les performances, mme avec les mlanges sont bien meilleures que pour les donnes boursires. Plusieurs raisons sont possibles. Tout dabord plus de segments sont utiliss pour lapprentissage (il y a plus de 800 segments par motion dans CEMO contre 192 Peur et 243 Colre dans les donnes boursires). De plus, les motions sont beaucoup plus contrles et moins intenses dans les donnes boursires. Le fait de ne pas utiliser de mlanges dmotions dans lapprentissage des modles permet ainsi d'avoir de meilleures performances et pour toutes les expriences dcrites dans ce chapitre, les segments correspondant des mlanges dmotions ne seront pas utiliss.

6.2.3. Combien de donnes pour lapprentissage ?


Pour des tches simples, peu de donnes suffisent pour pouvoir construire de bons classifieurs. Par exemple pour la dtection Peur/Neutre, on peut obtenir des scores CL de plus de 80% de bonne dtection avec une cinquantaine dinstances par classe pour lapprentissage. Toutefois, pour des tches plus complexes, il devient important davoir assez de donnes pour lapprentissage, comme lillustre la Figure 6-5.

Chaque exprience a t rpte 250 fois avec les mmes donnes en test et en faisant varier lensemble dapprentissage (avec et sans mlanges). Un t-test entre les 2 ensembles de rsultats donnait p<0.0001 (diffrence trs significative).

- 135 -

Chapitre 6_ Apprentissage pour la dtection des motions

score RR 80 75 70 65 60 55 50

score CL

50
1

100
2

150

200
4

250
5

300
6

350
7

(# de segments/Emotion)

tel-00624085, version 1 - 15 Sep 2011

Figure 6-5. Evolution des scores CL et RR sur un mme ensemble de test pour la classification Peur/Colre/Neutre en faisant varier le nombre de segments par motion pour lapprentissage. (Il ny a que 180 segments distincts pour la colre qui sont alatoirement dupliqus au dessus de 250 segments par motion. Les donnes de test ne sont pas quilibres (moins de Colre qui est la classe la moins bien reconnue). Dans beaucoup de cas, le fait de dupliquer les segments de la classe la moins reprsente permet damliorer les performances. Cest ce qui est illustr par Figure 6-5, qui donne les scores RR et CL pour une classification Peur/Colre/Neutre en fonction du nombre de segments par classe dmotion. Le nombre de segments distincts pour la classe Colre est de 180, mais le fait den dupliquer afin davoir plus de varits de Peur et de Neutre pour lentranement permet damliorer le modle

6.2.4. Quelle normalisation ?


Diffrents tests ont t faits pour comparer les normalisations (cf. p112) sur des tches de classification entre 2, 3 ou 4 motions en comparant les performances sans normalisation, avec la Z-normalisation et avec la normalisation de Nearey. Il ny avait pas de diffrences significatives dans les scores CL.

- 136 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.3. Sur les donnes CEMO


6.3.1. Informations contextuelles : Diffrences Agents/Appelants, Hommes/Femmes
Nous avons vu dans le chapitre 4 que les informations contextuelles pouvaient influer sur les motions exprimes. Bien quil soit intressant de regarder si elles influent sur la manire dont une mme motion va sexprimer, elles sont souvent difficiles voire impossibles extraire automatiquement dun nonc, quelques exceptions prs. En particulier, il est facile de distinguer entre agent et appelant et entre homme et femme.

Agent/Appelant
tel-00624085, version 1 - 15 Sep 2011 Nous avons tout dabord regard les diffrences suivant le rle du locuteur (Agent/Appelant) en comparant les performances de systmes de dtection entrans et tests uniquement sur des agents ou uniquement sur des appelants. Les motions exprimes par les agents et clients tant diffrentes, il est difficile de comparer les classifications avec beaucoup de classes.

SVM AdTree

Agent

Caller Appelant

Rle Agent Appelant

Tche Neutre/Colre Neutre/Ngatif Neutre/Ngatif Neutre/Peur

# Segments par motion 450 500 2500 3000

ADTree 70 (3.5) 72 (2.5) 83 (1) 82 (2)

SVM 75 (2.5) 73 (3) 83 (1) 84 (1)

Figure 6-6. Comparaison des performances(RR score avec des ensembles quilibrs) de la dtection Neutre/Ngatif entre les agents et les appelants. Le nombre entre parenthses est la dviation standard. Procdure de validation croise avec N = 10 sous-ensembles et 10 excutions.

- 137 -

Chapitre 6_ Apprentissage pour la dtection des motions La Figure 6-6 ci-dessus illustre le cas de modles 2 classes. Les expriences ont t ralises en dbut de thse avec 50 paramtres. Elles avaient t effectues avec une procdure de validation croise N = 10 sous-ensembles. Les scores donns dans le Tableau 6-7 sont des RR scores. Pour ces expriences, la rpartition des donnes tait quilibre par classe. Le rle des locuteurs semble avoir un impact sur les performances. Les appelants expriment plus clairement leurs motions ngatives que les agents (80 % vs 73 % de bonne dtection), ce qui est tout fait logique dans ce type de tche. Ces expriences effectues sur 20h confirmaient des premires expriences ralises sur un sous corpus de 10 heures [Devillers et Vidrascu 2006b] alors que toutes les donnes ntaient pas transcrites

Hommes/Femmes
tel-00624085, version 1 - 15 Sep 2011 Encore une fois cause du nombre insuffisant de segments pour certaines motions, les expriences ont t faites avec peu de classes et Peur, Colre et Soulagement pour la Figure 6-7 cidessous. Les expriences ont t faites en utilisant soit uniquement des hommes, soit uniquement des femmes pour lapprentissage et en testant galement sparment sur des hommes et des femmes.
test_Hommes 90 85 80 75 70 65 60 0 test_Femmes

train_F train_H 1 2 Peur/Neutre

train_F train_H 4 5 Peur/Neutre/Soulagement

Figure 6-7. Comparaison des performances pour des classifieurs entrains seulement soit sur des hommes (train_H), soit sur des femmes (train_F). Dans le cas Peur/Neutre, les performances sont relativement comparables quelles que soient les donnes dentranement et de test. Ce nest pas le cas pour la classification Peur/Neutre/Soulagement o les scores de bonne dtection sont meilleurs lorsque le systme a t - 138 -

Chapitre 6_ Apprentissage pour la dtection des motions entran sur des locuteurs du mme sexe. Il faudrait faire dautres expriences pour vois si ces diffrences se manifestent pour des tches de dtection complexes (beaucoup de classes ou des classes trs proches) ou pour certaines classes dmotions spcifiques. Des tudes ont dailleurs montr des diffrences hommes/femmes dont lexpression des motions, la colre tant par exemple plus passive chez les femmes [Fischer 1993], celles-ci pleurant plus que les hommes.

tel-00624085, version 1 - 15 Sep 2011

- 139 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.3.2. Variation du nombre de classes


Nous avons tudi la variation des performances lorsquon passe de 2 5 classes dmotions discriminer. Les rsultats sont indiqus Figure 6-8. Sans surprise, les performances sont inversement proportionnelles au nombre de classes avec plus de 80% de bonne dtection Peur/Neutre par exemple pour 2 classes et entre 50 et 55% de bonne dtection avec les 5 classes Peur/Colre/Tristesse/Neutre/Surprise. De plus, elles sont meilleures pour des classes plus disjointes (Peur/Neutre mieux que Peur/Colre ou Anxit/Stress), ce que nous avions dj constat en comparant les performances Peur/Surprise, Peur/Colre et Peur/Colre/Surprise [Devillers et Vidrascu 2006b].
90 85

tel-00624085, version 1 - 15 Sep 2011

80 75 70 65 60 55 50

Fe/N 1 Fe/Sd 2

Ag/N 3

Ax/St Fe/Ag 4 5

Sd/N 6

Fe/Ag/Sd/Re Fe/Ag/Sd/Re/N 7 Fe/Ag/N 8 Fe/Sd/N 9 10 11 12 13 14

Classe Neutre Soulagement Ngatif Tristesse Colre Peur Stress Anxit Total

Apprentissage #Segments/#Locuteurs 2000 (551 locuteurs) 189 (122 locuteurs) 500 (316 locuteurs) 250 (102 locuteurs) 180 (56 locuteurs) 2000 (555 locuteurs) 243 (138 locuteurs) 244 (180 locuteurs) 5850 (678 locuteurs)

Test #Segments /#Locuteurs 1448 (169 locuteurs) 108 (80 locuteurs) 993 (164 locuteurs) 101 (40 locuteurs) 50 (24 locuteurs) 808 (151 locuteurs) 83 (35 locuteurs) 243 (93 locuteurs) 4505 (209 locuteurs)

Figure 6-8. Rsultats de classification en passant de 2 5 classes dmotions ; Fe : Peur, N : Neutre, Sd : Tristesse, Ag : Colre, Ax : Anxit, St : Stress, Re : Soulagement. Le nombre de segments distincts utiliss par motion pour lapprentissage et le test est indiqu dans le tableau. Les barres verticales indiquent la dviation standard des performances lorsque lexprience est rpte 200 fois.

- 140 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.3.3. Le poids des diffrents types dattributs paralinguistiques : le cas de la dtection dans le cas des 5 classes Peur/Colre/Tristesse/Soulagement/Neutre
Pour des tches simples du type classification Ngatif/Neutre, on obtient facilement des scores de dtection de lordre de 80% en nutilisant que trs peu dindices et en se limitant une catgorie, voire sous catgorie de paramtres (par exemple seulement des indices dduits de la F0). Cependant, pour des tches plus complexes (motions moins distinctes, ou plus grand nombre de classes Emotion), il devient utile de mlanger des indices les plus varis possibles afin de tenir compte de la grande variabilit des expressions vocales dans le discours spontan. Nous nous sommes intresss diffrentes catgories de paramtres pertinents pour la dtection des motions en nous intressant particulirement au cas de la classification en 5 classes tel-00624085, version 1 - 15 Sep 2011 motions[Vidrascu et Devillers 2007]. Les paramtres ont t diviss en plusieurs types, similaires ceux utiliss dans les tudes CEICES (voir p150) avec une distinction entre ceux qui peuvent tre extraits automatiquement sans intervention humaine ( blind : paramtres prosodiques, spectraux, microprosodie) et les autres (dures obtenues aprs alignement phonmique, paramtres extraits de la transcription) La liste des paramtres est rsume dans le Tableau 6-5.

Type de paramtres

Description F0 (normalise par locuteurs) position sur laxe temporaire o F0 est maximum (resp. minimum) Energie (normalise) Dures : dbit, silences ratio du nombre de segments voiss et non voiss 3 premiers formants et leurs bandes passantes, F3-F2, F2-F1 (normaliss) jitter, shimmer, NHR, HNR inspiration, expiration, bruits bouche, rires, pleurs, mots tronqus. Disfluences : euh Longueur des phonemes debit phonmique taille des hsitations

# params

Paramtres prosodiques

45

Paramtres spectraux Microprosodie Indices et disfluences (transcription) Dures (alignement phonmique)

48 14 11

11

Tableau 6-5. Les diffrents types dindices extraits et leur nombre.

- 141 -

Chapitre 6_ Apprentissage pour la dtection des motions

Slection des attributs


Pour slectionner les meilleurs attributs, un classifieur SVM a t utilis et les rsultats ont t compars en utilisant les 15, 25, 40, 50, 70 et 80 meilleurs paramtres. Les meilleures performances taient obtenues avec 25 paramtres. Cet ensemble peut encore contenir des attributs redondants et pourrait tre encore optimis.
Type de paramtre F0 Energie Microprosodie Formants Paramtres dduits de la transcription Dures dduites de lalignement phonmique # parmi les 25 meilleurs 4 5 4 2 6 4

Tableau 6-6. Nombre de paramtres slectionns pour chaque classe de paramtres. tel-00624085, version 1 - 15 Sep 2011 Le Tableau 6-6 ci-dessus indique le nombre dattributs slectionns par classe dattributs. Limportance de combiner diffrentes classes est reflte par le fait que des attributs de chaque classe ont t slectionns. Parmi les plus utiles, on trouve des marqueurs affectifs (pleurs, voix inintelligible), des disfluences (nombre et longueur des hsitations), des dures (dbit (#mots/dure du signal ; #phonmes/dure du signal, 1/dure moyenne des segments voiss)) et des paramtres de microprosodie (jitter, shimmer, HNR). Ceci sexplique aussi par le fait que ces paramtres sont peu prsents dans le corpus bien quils soient des marqueurs extrmement utiles lorsquils sont prsents. Le traitement dun grand nombre de paramtres est ncessaire mme si pour certains ils sont plus exceptionnels (tout le monde ne pleure pas quand il est triste, mais si ce paramtre est prsent on a une grande chance que la personne soit triste). Peu de paramtres lis aux formants ont t retenu.

- 142 -

Chapitre 6_ Apprentissage pour la dtection des motions

Rsultats avec les paramtres en mode blind, c'est--dire sans aucune connaissance du contenu
La Figure 6-9 indique les diffrentes performances en utilisant seulement les paramtres blind Les rsultats sont au dessus du taux de hasard (20% avec 5 classes galement distribues) et les performances sont comparables pour F0, Energie et Formants. Le fait de les combiner amliore de manire significative les performances.
CL (%)
50

45

tel-00624085, version 1 - 15 Sep 2011

40

35

30 0

MFCC

En

Figure 6-9. Score CL (5 classes) avec F0 : seulement des paramtres relies la F0, Fts: Formants et leur bande passante, En: nergie, MFCC, All* (107 paramtres) : tous les paramtres blind . Les barres verticales indiquent la dviation standard des rsultats. Contrairement aux rsultats obtenus avec des donnes de magicien dOz par [Vogt et Andre 2005], pour nos donnes tlphoniques, les MFCCs, mme sils donnent des rsultats au dessus du hasard ne sont pas aussi performants que les paramtres prosodiques ou les formants.

F0

Fts*

All*
5

- 143 -

Chapitre 6_ Apprentissage pour la dtection des motions

Indices Blinds vs indices semi-automatiques


La Figure 6-10 montre limpact des paramtres dduits de la transcription et de lalignement phonmiques. Avec seulement 11 paramtres chacun, ils permettent dobtenir dassez bonnes performances avec peu prs 45% de bonne dtection. Le mlange des indices (129 au total) augmente de manire significative le score CL. Il ny a pas de diffrence significative entre les performances avec tous les attributs et les 25 meilleurs.
CL (%) %CL 60

55

50

tel-00624085, version 1 - 15 Sep 2011

45

40

35

Trans2 Trans

25att 25att

Trans1 Ali

All All

Acc Blind*

5,5

Figure 6-10. CL score pour 5 classes Peur Colre Tristesse Soulagement et Neutre avec diffrents ensembles dindices. Blind : extraits automatiquement (F0, formants, nergie, prosodie), correspond au All* de la figure prcdente, trans1 : indices extraits de la transcription manuelle ; trans2: dures phonmiques, 25 best: 25 meilleurs paramtres.

- 144 -

Chapitre 6_ Apprentissage pour la dtection des motions

Rsultats par motion


Intressons nous maintenant aux performances par motion, toujours pour le cas de la classification des 5 classes Peur, Colre, Tristesse, Neutre, Soulagement. La plupart des confusions ont eu lieu entre Tristesse/Neutre, Soulagement/Neutre et Peur/Colre. Si on regarde pour chaque type dindice ( blind , paramtres extraits de la transcription et dures drives de lalignement phonmique) les taux CL de reconnaissance pour chaque motion (Figure 6-11), on remarque quun type de paramtre sera meilleur pour une motion spcifique. Dans lexemple de la Figure 6-11, le score de dtection de la peur est de 40% environ avec juste des indices de dures, mais de plus de 50% avec les indices blinds . Pour le soulagement, cest linverse avec moins de 50% de reconnaissance avec juste les indices blinds , et plus de 60% avec ceux issus de la transcription. Les performances avec les 25 meilleurs paramtres sont encore globalement tel-00624085, version 1 - 15 Sep 2011 suprieures celles par type dindice. Cest particulirement le cas pour la tristesse avec moins de 40% de bonne dtection pour chaque type dindice et prs de 60% lorsque les indices sont combins.

80 70 60 50 40 30 20 0.2
Peur Colre Tristesse Soulagement Neutre 1.2 2.2 3.2 4.2 5.2

blind

trans1

trans2

25best

Figure 6-11. CL score par motion (Peur, Colre, Tristesse, Soulagement + tat Neutre) pour les paramtres blind vs. paramtres dduits de la transcription (trans1) vs. paramtres dduits de lalignement phonmique (trans2) vs. 25meilleurs paramtres. La bonne reconnaissance du Soulagement avec les indices dduits de lalignement phonmique peut tre explique par le fait quil y a moins dhsitations et dallongement phonmiques que pour les autres motions. Pour ltat Neutre, il y a peu de marqueurs affectifs et dhsitations par rapport aux motions et le dbit (nombre de mots/dure du signal) est plus lent que pour la parole - 145 -

Chapitre 6_ Apprentissage pour la dtection des motions motionnelle, ce qui pourrait expliquer les bonnes performances en utilisant uniquement les indices dduits de la transcription manuelle. La Figure 6-12 est donne titre illustratif afin de montrer le poids des diffrents types dindices.
90 85 80 75 70 65 60 55 50 45 40 35 30

formants nergie F0 mfcc trans1 trans2 tout

tel-00624085, version 1 - 15 Sep 2011

NgNeu TrNeu

PeTr

ClNeu

PeCl

PeNeu

PeTr PeTrNeu PeClNe 4emots 5emots

10

11

12

Figure 6-12. Performances pour diffrentes tches de classification en nutilisant quun seul type dindice (formant : formants et leur bande passante, F0 :F0 et dures, trans1 : indices extraits de la transcription, trans2 : indices extraits de lalignement phonmique). Ng : Ngatif ; Neu : Neutre ;Pe :Peur ; Cl :colre ;Tr :Tristesse ; 4emots :Peur/Colre/Tristesse/Neutre ; 5emots :Peur/Colre/Tristesse/Soulagement/Neutre.

- 146 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.3.4. Combinaison indices lexicaux et prosodiques


Dans le paragraphe prcdent, nous nous sommes intresss aux apports des diffrents types dindices paralinguistiques. Les informations obtenues grce ces diffrents indices peuvent tre enrichies par des informations lexicales. Deux expriences ont t faites avec un systme de dtection des motions bas sur un modle unigramme dvelopp au LIMSI. La premire, sur le corpus de transactions boursires combinait les prdictions lexicales et acoustiques pour les 2 motions Neutre/Ngatif [Devillers et al. 2005b]. La deuxime sur le corpus CEMO comparait les performances pour 4 classes des 2 modles [Devillers et Vidrascu 2006a].

Description du modle lexical


Le systme de dtection des motions bas sur un modle uni-gramme est dtaill dans [Devillers tel-00624085, version 1 - 15 Sep 2011 et al. 2003a]. Le modle lexical est un uni-gramme, o la similarit dune phrase et dune motion est le log du ratio de la probabilit entre un modle spcifique une motion et un modle gnral spcifique la tche (quation. 1). (Equation. 1)
log P(u / E)= 1

u wu

tf(w,u)log

P(w/ E)+(1)P(w)
P( w )

L'motion d'une phrase inconnue est dtermine par le modle obtenant le score le plus haut pour la phrase u tant donn le modle d'motions E bas sur les N motions tiquetes dans le corpus ; o P(w/E) est la probabilit maximale estime de la probabilit d'un mot w tant donn le modle d'motions, P(w) est la probabilit gnrale dpendant de la tche du mot w dans le corpus d'entranement, tf(w,u) sont les frquences des termes dans la phrase inconnue u, et Lu est la longueur de la phrase en mots. Le modle gnral a t estim sur tout le corpus d'entranement. Les scores de dtection augmentent de manire significative lorsqu'on considre deux classes principales d'motions, Positives vs Ngatives.

Combinaison linaire entre les modles lexicaux et prosodiques pour les donnes boursires
Les donnes ont t divises en 10 sous-ensembles de 50 tours de parole. Neuf taient utiliss pour lapprentissage et 1 pour le test ; lexprience tait rpte pour chaque sous ensemble [Vidrascu et Devillers 2005a]. - 147 -

Chapitre 6_ Apprentissage pour la dtection des motions Un score de prdiction par motion tait obtenu avec le modle lexical uni-gramme et un autre avec un arbre de dcision (AdTree, 39 indices extraits). Le pourcentage de bonne dtection est de 71% peu prs avec le modle lexical et avec le modle prosodique. Pour chaque ensemble de test, les prdictions par motions avec les 2 modles ont t combines linairement et les rsultats sont donns Figure 6-13. Le score moyen de reconnaissance aprs mlange est de 76,6%, soit un gain de plus de 5%. Ce rsultat, mme sil nest pas gnralisable car obtenu sur peu de donnes, va dans le sens dautres expriences [Forbes-Riley et Litman 2004] [Narayanan 2002], et montre que le lexical apporte de nouvelles informations utiles pour la dtection des motions.
Combining Lexical and Paralinguistic scores

tel-00624085, version 1 - 15 Sep 2011

80 70 60 1 2 3 4 5 6 7 8 9 10
Lexical Paralinguistic Lexical + Paralinguistic

Figure 6-13. Combinaison des scores lexicaux et prosodiques.

- 148 -

Chapitre 6_ Apprentissage pour la dtection des motions

Expriences sur le corpus CEMO


Une exprience galement t mene sur le corpus CEMO afin de comparer les performances entre un modle lexical et un modle paralinguistique pour les 4 classes Peur, Colre, Tristesse, Soulagement. Le corpus utilis pour cette exprience est dcrit ci-dessus dans le Tableau 6-7. Les locuteurs du test sont diffrents de ceux du corpus dapprentissage.
Corpus #Segments #Locuteurs Colre Peur Soulagement Tristesse Apprentissage 1618 501(182 H, 319F) 179 1084 160 195 Test 640 179(60H, 119F) 49 384 107 100

tel-00624085, version 1 - 15 Sep 2011

Tableau 6-7. Sous-corpus utilis pour les tests avec un modle lexical et paralinguistique. Les scores obtenus avec le modle lexical et avec le modle paralinguistique ont t compars. Avec le modle lexical aprs normalisation, les quatre motions sont dtectes avec environ 67,2% de bonne dtection. Le Tableau 6-8 compare les scores de dtection obtenus par classe avec le modle lexical et le modle paralinguistique.
Total Colre Peur Soulagement Tristesse #Segments % rec. modle lexical % rec. modle acoustique 640 78 61 49 59 43 384 90 58 107 86 71 100 34 68

Tableau 6-8. Rpartition pour les 4 classes avec les modles lexicaux et prosodiques. Avec le modle lexical, le meilleur score est obtenu pour la classe Peur et le pire pour la classe Tristesse. Le score lev obtenu pour Soulagement est li aux marqueurs lexicaux spcifiques de cette classe (tels que merci, daccord). A linverse, la tristesse serait ici plus lie des marqueurs syntaxiques et prosodiques que lexicaux. Les principales confusions ont lieu entre Peur et Tristesse dune part et Peur et Colre dautre part. Comme pour le modle lexical, la classe la mieux reconnue avec le modle paralinguistique est la peur (64%) et la pire est la colre (39%), mais le score reste au dessus de la chance. Cela peut tre du au fait que la Peur (Inquitude/Stress) est souvent en arrire plan de tous les appels et que la colre est souvent mlange. Ltape suivante serait de combiner plus astucieusement quavec une combinaison linaire le rsultat des deux modlisations.

- 149 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.4. Utilisation

de

nos

mthodes

sur

des

donnes for

diffrentes :

CEICES

(Combining

Efforts

Improving Classification of Emotional user State)


6.4.1. Coopration dans le cadre du rseau dexcellence humaine
CEICES est une collaboration entre plusieurs quipes impliques dans le rseau Humaine tudiant la classification des tats motionnels transmis par la voix : UKA-US, Universit dErlangenAllemagne, ITC-Italie, TAU-Isral, Universit dAugsburg-Allemagne et LIMSI-CNRS-France. Cette collaboration est ne dune volont damliorer les performances de classification des tats motionnels pour des donnes naturelles et de rpondre plusieurs problmatiques en partageant les comptences des diffrents sites. tel-00624085, version 1 - 15 Sep 2011 Les performances de classification pour des donnes naturelles sont beaucoup plus faibles que pour des donnes actes parce que la tche est plus difficile et cause de la difficult annoter de manire fiable, extraire les paramtres appropris et. De plus, comme indiqu dans ltat de lart, il est souvent difficile de comparer les performances de diffrentes expriences et les paramtres extraits peuvent tre assez obscurs 1. Le site dErlangen, linitiative du projet, a fourni les fichiers audio et leur transcription manuelle, ainsi quune annotation par mot, par tout de parole, et par cluster motionnel et une correction manuelle de la F0. Les diffrents sites ont dans un premier temps compar les paramtres extraits et les diffrentes mthodes de classification en utilisant les mmes ensembles dapprentissage et de test. Ils se sont galement runis pour rflchir une dnomination plus explicite des paramtres. Des expriences ont galement t menes en particulier en comparant les performances avec la F0 manuellement corrige ou non et les impacts respectifs des diffrents types de paramtres. Cette coopration a conduit plusieurs publications.

6.4.2. Le corpus AIBO


Le corpus est compos dinteractions en allemand entre des enfants de 11-12 ans et le chien robot AIBO de Sony (51 interactions, 9,2 heures de parole, 51393 mots). Il tait demand aux enfants de faire accomplir un parcours au robot en lui parlant comme ils parleraient un ami. Ils pensaient

1 Par exemple, on peut sattendre avoir de meilleurs rsultats avec des paramtres calculs manuellement que automatiquement.

- 150 -

Chapitre 6_ Apprentissage pour la dtection des motions que le robot leur rpondait, alors quil tait en fait contrl par un oprateur humain. AIBO pouvait ainsi dsobir et provoquer des ractions motionnelles du type colre. Le corpus a t annot au niveau du mot par 5 tudiants en linguistique avec un choix de 11 tiquettes motion . A cause de linsuffisance des donnes pour certaines classes, un sous corpus a t conserv avec les tiquettes Motherese (valence positive, ton maternel), Neutral (neutre : classe par dfaut), Emphatic (insistance, situation pr-ngative ) Angry (colre) (Tableau 6-11). Le corpus peut tre tudi plusieurs niveaux et en particulier le mot, la phrase et le chunk (les rgles syntactiques et prosodiques pour le dcoupage sont dtailles dans [Batliner et al. 2007])
Motherese Neutral Emphatic Angry 586 1998 1045 914

Tableau 6-9. Frquence des motions dans le corpus AIBO pour le dcoupage en chunks. tel-00624085, version 1 - 15 Sep 2011

6.4.3. Schma dencodage des paramtres.


Un workshop a t organis Erlangen en dcembre 2006 afin de se mettre daccord sur des descripteurs de paramtres les plus complets possibles et a abouti un schma avec N champs cods sur des dizaines de bits et donnant des informations diverses comme le type de micro utilis, les units sur lesquels un paramtre est calcul, son type (linguistique, prosodique, ), si le paramtre est extrait de manire automatique ou manuelle et les diffrentes fonctions appliqus un paramtre. Par exemple pour le coefficient de rgression de la F0, le champ F0 est mis 1 et diffrents codes indiquent que le coefficient de rgression est calcul pour chaque partie voise puis que au niveau du chunk, on garde le minimum. Un exemple de codage de paramtres LIMSI est donn Figure 6-14.
S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F000200.N00.X1000000000.T0000000000PMaxF0 S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F000500.N00.X1000000000.T0000000000PRangeF0 S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F002100.N00.X1000000000.T0000000000PMedianF0 S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F001000.N00.X1000000000.T0000000000PMeanF0 S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F003000.N00.X1000000000.T0000000000PSdF0 S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F002000.N00.X1000000000.T0000000000PFirstQuartileF0 S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F002200.N00.X1000000000.T0000000000PThirdQuartileF0 S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C1000010000.F016301.N00.X1000000000.T0000000000PCoeffF0min S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F016302.N00.X1000000000.T0000000000PCoeffF0max S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F016314.N00.X1000000000.T0000000000PCoeffF0mean S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F016101.N00.X1000000000.T0000000000PMinSlopeF0 S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F016102.N00.X1000000000.T0000000000PMaxSlopeF0 S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F016114.N00.X1000000000.T0000000000PMeanSlopeF0 S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F016002.N00.X1000000000.T0000000000PF0MseRegMax S2.I.M1.D3.R5111.L000000.A00.00.10.00.00.00.00.00.00.00.C0000010000.F016014.N00.X1000000000.T0000000000PF0MseRegMean S2.I.M1.D3.R5111.L000000.A10.00.00.00.00.00.00.00.00.00.C1000010000.F003410.N00.X1000000000.T0000000000PSpeakingRate S2.I.M1.D3.R5111.L000000.A10.00.00.00.00.00.00.00.00.00.C1100010000.F003447.N00.X1000000000.T0000000000PPercentVoicedUnvoiced

Figure 6-14. Exemple de codage de paramtres LIMSI lissu du workshop Erlangen. Malgr laspect complexe de ce protocole, il permet disoler facilement des types de paramtres afin de pouvoir les comparer. - 151 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.4.4. Comparaison des performances par site


La premire exprience a t de comparer les performances de chaque site en utilisant les mmes ensembles dapprentissage et de test. Le type et le nombre des paramtres utiliss ainsi que les techniques dapprentissage taient libres. Les types de paramtre/classifieur/performances par site sont donns Tableau 6-10. Les rsultats obtenus par les diffrents sites sont trs proches (entre 54 et 57% de bonne dtection).
# paramtres selection (381) prosodic original (40204) Site # par type de paramtre spectral genetic MFCC lexical POS domaine Tour mot Classification Classifier NN SVM Random Forest (RF) Rgression linaire Naive Bayes SVM Rule-based RR 55.8 59.3 57.6 59.1 50.9 54.9 48.9 CL 55.3 56.4 55.8 54.8 52.3 56.6 46.6 ROVER

FAU TUM ITC

303 980 32 1320 1289 76 24

87 103 32 25 84 26 24

19 9 26 6 10 9 24

17 1 9 -

22 5 73 -

6 2 6 5 -

62 50 14 3 -

3 -

tel-00624085, version 1 - 15 Sep 2011

UKA UA LIMSI TAU

Tableau 6-10. Paramtres et classifieurs : par site, # de paramtres avant/aprs la slection des attributs ; # par type de paramtres, et par domaine; classifieur utilis, RR et CL scores, utilis ou non pour le ROVER ; de [Batliner et al. 2006] En mlangeant les meilleurs paramtres de chaque site et en re-slectionnant les meilleurs dentre eux (Tableau 6-11), les performances ont t amliores ; chaque site contribuant cette amlioration. Lorsque les classifications sont combines par ROVER, les scores CL et RR atteignent les 62% (voir [Schuller et al. 2007a] pour plus de dtails)
Classifieur LDA SVM RF RR 58.8 61.8 60.8 CL 56.3 57.9 58.7

Tableau 6-11. Classification en combinant les meilleurs paramtres parmi les 381 de tous les sites avec 3 classifieurs.

6.4.5. Impact des erreurs dextraction du pitch


La F0 a t manuellement corrige pour les donnes AIBO. Des expriences ont t faite avec et sans F0 corrige [Batliner et al. 2007] et bien que les rsultats soient meilleurs avec la F0 manuellement corrige, les diffrences sont peu prononces.

- 152 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.4.6. Impact de diffrents types de paramtres


Les paramtres ont t spars en diffrents types, tous sites confondus (cf.[Schuller et al. 2007a]). Les performances respectives des diffrents types de paramtres ont t values et sont donnes Tableau 6-12.
feature set type voice quality F0 spectral/formants cepstral wavelets energy duration all acoustic disuencies non-verbals part of speech 77 higher semantics bag of words all linguistic all full FSVM 51.5 56.1 54.4 52.7 56.0 58.5 55.1 57.7 26.8 24.8 54.7 57.6 62.6 62.6 61.0 reduced FSVM FRF 51.6 50.8 55.1 55.1 56.0 56.6 57.1 56.3 56.3 56.7 60.0 60.0 60.0 59.8 61.2 60.9 62.6 58.6 62.4 59.0 63.1 61.7

tel-00624085, version 1 - 15 Sep 2011

# 153 333 656 1699 216 265 391 3713 4 8 31 12 476 531 4244

FRF 51.1 56.6 57.1 55.7 56.5 59.3 60.1 62.5 25.2 24.2 54.1 57.7 60.2 60.2 64.0

Tableau 6-12. Rsultats de la classification, # : nombre de paramtre par type dattributs ; F-scores pour tous les paramtres (full) ou un ensemble avec un nombre rduit de paramtres ( reduced) en utilisant SVM ou random forrest ( RF)[Schuller et al. 2007a]. Dans cette tude, le paramtre acoustique le plus important sest avr tre lnergie et le moins important la qualit vocale. Les paramtres lexicaux avaient un impact trs important et en particulier les Part of Speech (pour les donnes AIBO, 6 classes comprenant: nom, verbe, auxiliaire et dcrites en dtail dans [Batliner et al. 1998] ).

77Part

of speech : catgorie lexicale

- 153 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.4.7. Conclusions gnrales sur les donnes AIBO


Les donnes motionnelles semblent moins sensibles au bruit que dautres tches lies au traitement de la parole. Les erreurs de dtection des algorithmes de dtection du pitch font peu baisser les performances. Lnergie est pour cette tche le paramtre acoustique le plus important et la qualit vocale le moins, ce qui ne sera pas forcment vrai pour dautres donnes. Les paramtres linguistiques ont un impact trs important, mais il faudrait encore les comparer la sortie de la reconnaissance automatique de la parole, ce qui devrait amener de nombreuses autres erreurs. Les performances sont meilleures lorsquon combine plusieurs types dattributs. Elles sont galement meilleures pour le dcoupage en chunks . Les meilleures performances obtenues pour la dtection de 4 classes sont suprieures 60%, ce qui est cohrent avec ltat de lart. Cependant il reste rpter ces expriences sur dautres donnes. Par ailleurs, il faut se mfier des tel-00624085, version 1 - 15 Sep 2011 performances de classification qui peuvent tre tuned par des rglages transparents pour un lecteur normal (dcoupage de lunit motionnel, ensemble de prototypes ou de donnes actes )

- 154 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.5. Portabilit sur des donnes diffrentes


Nous avons vu que notre mthodologie dextraction des paramtres et de classification tait efficace pour traiter des donnes diffrentes, indpendamment de la manire dont les donnes ont t enregistres et pour diffrentes langues : franais et allemand. Une deuxime question qui se pose est celle de la portabilit des modles . Quelles sont les performances des modles entrans sur les donnes CEMO sur dautres donnes ? Deux expriences ont t ralises, lune sur le corpus 1 de transaction boursire (call center, donnes tlphoniques avec situation et comportements diffrents, mme langue) et une autre sur des donnes actes, en franais, mais pas en interaction. Parmi les paramtres extraits pour les donnes de CEMO, certains nont pas t calculs sur dautres donnes (alignement phonmique.). tel-00624085, version 1 - 15 Sep 2011

- 155 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.5.1. Sur les donnes boursires


Les donnes boursires sont comparables aux donnes CEMO en ce quelles proviennent dinteractions tlphoniques. Les expriences ont t ralises avec des SVMs et 116 attributs extraits par segments (F0, formants, nergie, microprosodie, marqueurs affectifs).

Tche simple Colre/Neutre


Une exprience dabord t effectue pour la classification Neutre/Colre. Un ensemble dapprentissage et un ensemble de test avec des locuteurs distincts ont t constitus pour respectivement les agents du corpus CEMO, les appelants du corpus CEMO et les appelants du corpus de donnes boursires. Les classifieurs entrans sur chaque ensemble dapprentissage ont t tests sur chacun des ensembles de test. Les rsultats sont reprsents Figure 6-15. tel-00624085, version 1 - 15 Sep 2011

Classification Colre/Neutre
85

test_CEMO_Ag test_CEMO_App test_Corpus1

80

75

70

65
Majorit des segments reconnus comme

60 0.5

train_CEMO_Ag

1.5

train_CEMO_App

2.5

train_Corpus1

3.5

Reconnu comme Classe

Colre 77% 48%

Neutre 23% 52%

Reconnu comme Classe

Colre 63% 31%

Neutre 37% 69%

Colre Neutre

Colre Neutre

Figure 6-15. Score CL pour la classification Colre/Neutre avec diffrentes donnes en apprentissage et en test : train_CEMO_Ag : agents du corpus CEMO, train_CEMO_App : appelants du corpus CEMO, train_Corpus1 : appelants du corpus de donnes boursires. Les matrices de confusion sont donnes en gris pour les cas o le corpus 1 est en test avec les agents ou appelants de CEMO en apprentissage. - 156 -

Chapitre 6_ Apprentissage pour la dtection des motions On voit sur la Figure 6-15 que lorsque lapprentissage et le test sont effectus sur les mmes donnes, plus de 80% de bonne reconnaissance est obtenue sur les donnes CEMO et environ 75% sur les donnes boursires. Comme nous lavions vu avec nos premires expriences (p 137), la colre des agents et des appelants dans CEMO sexprime diffremment, non seulement en intensit, mais aussi en qualit (colre froide contre colre chaude). Ainsi la colre des agents est mieux reconnue par un classifieur entran sur des agents que par un classifueur entran sur des appelants et inversement pour les appelants. Il semblerait que la colre des appelants CEMO soit mieux reconnue avec un modle agent que celle des agents avec un modle appelant . Toutefois, les scores sont suprieurs 75% de bonne reconnaissance dans touts les cas. Par contre, les scores de reconnaissance pour la colre des appelants des donnes boursires avec les modles CEMO sont assez bas (de lordre de 65%), mme sils sont suprieurs au hasard. On peut remarquer dans lexprience represente Figure 6-15 quavec le modle Agent CEMO , la tel-00624085, version 1 - 15 Sep 2011 plupart des segments des donnes boursires sont reconnus comme de la colre alors que pour le modle Appelant CEMO , on est plus proche du point dgale erreur, ce qui semblerait indiquer que le modle appelant CEMO est meilleur que celui agent CEMO pour reconnatre la colre des appelants donnes boursires . Dailleurs, si on fait lexprience inverse en entranant un systme sur les donnes boursires et en testant sur les agents et appelants CEMO, la colre des appelants CEMO est bien mieux reconnue que celle des agents CEMO. Qui plus est, elle est mme mieux reconnue que lensemble de test des donnes boursires. On peut noter galement que dans lexprience, la colre des appelants CEMO est mieux reconnue par un modle Appelant donnes boursires que par un modle agent CEMO , malgr les diffrences certaines dans lenregistrement des donnes. Nous avons voulu vrifier que ces tendances observes sur les appelants CEMO et appelants de donnes boursires sobservaient galement pour dautres tches (nombre dmotions et classes dmotions diffrentes). Les rsultats sont donnes Figure 6-16 avec la dtection Peur/Neutre et Peur/Colre/Neutre pour les appelants CEMO ou BOURSE. L encore, pour les classifieurs entrans sur les donnes CEMO, les scores sont bien meilleurs sur les donnes CEMO que sur les donnes boursires, bien que suprieures au taux du hasard et pour les classifieurs entrans sur les donnes boursires, les scores sont peu prs identiques pour les donnes boursires et les donnes CEMO. Dans tous les cas, les performances sont meilleures quand lapprentissage et le test sont raliss sur les mmes donnes.

- 157 -

Chapitre 6_ Apprentissage pour la dtection des motions

test_CEMO

90 85 80 75 70 65 60 55 50

test_Corpus1

tel-00624085, version 1 - 15 Sep 2011

45
train_Corpus1 0 train_CEMO 1 2 PEUR/NEUTRE

train_CEMO train_Corpus1 4 5 6 PEUR/COLERE/NEUTRE

Figure 6-16. Score CL pour la classification Peur/Neutre et Peur/colre/Neutre avec des classifieurs entrans et tests sur les appelants CEMO ou sur les appelants du corpus de donnes boursires : train_CEMO : appelants du corpus CEMO, train_Corpus1 : appelants du corpus de donnes boursires. Ces expriences semblent indiquer quil est tout fait envisageable dutiliser un classifieur sur des donnes issues dapplication diffrentes que les donnes ayant servies lentraner. Il faut toutefois tre alors trs prcis sur la dfinition des motions que lon cherche reconnatre et prendre en compte galement leur intensit. On aura de meilleures performances en utilisant un classifieur entran sur des donnes moins intenses que plus intenses. Cependant, mme en ne tenant pas compte de toutes ces variations (intensit, dfinition des motions, etc.), les scores restent suprieurs au niveau du hasard.

- 158 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.5.2. GEMEP (GEneva Multimodal Emotion Portrayals)


Nous nous intressions la portabilit des rsultats entre donnes actes et naturelles. Avec cette exprience issue dune collaboration entre le NCCR in Affective Sciences (UNIGE) et le LIMSICNRS au sein de HUMAINE, nous voulions tester nos modles obtenus partir de donnes naturelles sur des donnes actes.

Description des donnes


Les donnes sont dcrites dans [Bnziger et Scherer. 2007]. Il a t demand 10 comdiens professionnels (5 hommes et 5 femmes) de jouer 18 motions (admiration, amusement, attendrissement, colre chaude, dgot, dsespoir, fiert, honte, inquitude, intrt, irritation, joie exalte, mpris, peur panique, plaisir, soulagement, surprise, tristesse) (Tableau 6-13) dans tel-00624085, version 1 - 15 Sep 2011 diffrentes conditions et avec diffrents degrs dintensit.
Emotion admiration amusement colre chaude dgot dsespoir fiert honte inquitude intrt irritation joie exalte mpris peur panique soulagement surprise tristesse Dfinition merveillement devant les qualits extraordinaires d'un personnage, d'un paysage ou d'une uvre d'art hilarit dbordante face quelque chose d'extrmement drle mcontentement violent caus par l'action stupide ou malveillante de quelqu'un rpulsion face un objet ou un environnement rpugnant Dtresse face un problme existentiel sans issue, coupl d'un refus d'accepter la situation raction triomphante suite une russite ou une performance personnelle (ou celle d'une personne proche) Amour-propre mis en cause par une maladresse ou une erreur dont on se sent responsable crainte des consquences (d'une situation) qui pourraient tre potentiellement nfastes pour moi ou mes proches tre attir, fascin, ou captiv par quelqu'un ou quelque chose tre confront quelque chose ou quelqu'un qui me contrarie fortement, sans me faire perdre totalement mon sang-froid tre transport par une chose magnifique qui nous arrive de manire inattendue Aversion pour le comportement moralement ou socialement rprhensible d'autrui Se sentir menac par un danger imminent mettant en cause la survie ou l'intgrit physique Se sentir rconfort et rassur suite la rsolution ou la fin d'une situation inconfortable, dsagrable ou mme dangereuse tre confront, souvent de manire brusque, un vnement inattendu et insolite (sans connotation positive ou ngative) Se sentir dprim et dcourag par la perte irrvocable d'un tre proche ou d'un objet ou d'un environnement familier

attendrissement tre mu par un comportement touchant

Tableau 6-13. Dfinition des motions exprimes dans GEMEP. - 159 -

Chapitre 6_ Apprentissage pour la dtection des motions Les diffrentes conditions incluaient : deux phrases pseudo-linguistiques (sans contenu linguistique) labores laide dun phonticien, la premire ralise comme une affirmation, la seconde comme une question une expression prononce sur une voyelle soutenue A de la parole improvise avec un contenu lexical libre. Le projet GEMEP tant en cours, la qualit expressive des squences navait pas t value au moment de lexprience (pas de test perceptif pour vrifier que les motions joues par les acteurs taient bien reconnues). Dans un premier temps, nous avons slectionn les tiquettes comparables celles du corpus CEMO. Elles correspondent aux grandes classes Peur (inquitude peur-panique), Colre (irritation, colre chaude), Tristesse (tristesse/dsespoir) et Soulagement (soulagement) 78. Les caractristiques des donnes que nous avons utilises sont indiques Tableau 6-14.
Emotion Inquitude Peur-panique Irritation Colre chaude Tristesse Dsespoir Soulagement Mode Normal Moins intense Plus intense Masqu Contenu Phrase 1 : N kal ibam soud moln ! Phrase 2 : Koun s mina lod blam ? Jouer de manire naturelle avec contenu verbal libre Expression vocale base sur une voyelle soutenue AAA

tel-00624085, version 1 - 15 Sep 2011

Tableau 6-14. Les donnes GEMEP (5 hommes/5 femmes).

En utilisant les mmes outils que pour les donnes CEMO, nous avons extraits avec Praat les indices acoustiques 79 (F0, formants, microprosodie) pour chaque segment GEMEP. Nous avons slectionnes les donnes correspondant aux deux phrases et au contenu verbal libre et les avons testes sur les classifieurs Peur/Colre/Tristesse/Soulagement et Peur/Colre entrans sur le corpus CEMO avec uniquement des indices acoustiques. (Il na pas t demand aux acteurs de jouer un tat neutre, bien que lintrt dans GEMEP corresponde un tat affectif dintensit relativement faible qui pourrait sen rapprocher. Cependant, comme la valence est positive et que nous avons une tiquette Intrt dans CEMO, nous ne pouvions pas assimiler la classe Intrt de GEMEP au Neutre de CEMO et navons donc pas test avec des classifieurs Neutre/Ngatif).

Nous navons pas regard la surprise et lintrt car ces motions ont t peu tudies dans CEMO. Lnergie dpendant des conditions denregistrement, nous ne lavons pas extraite pour les expriences dcrites ici. Les mmes expriences avec extraction de lnergie en plus donnaient peu prs les mmes rsultats.
78 79

- 160 -

Chapitre 6_ Apprentissage pour la dtection des motions

Classification Peur/Colre/Tristesse/Soulagement
Apprentissage sur CEMO/Test sur GEMEP Sur les donnes CEMO (voix dappelants) testes avec des locuteurs diffrents de ceux utiliss par lapprentissage (cf. matrice de confusion Tableau 6-15), les performances sans indices lexicaux ntaient pas trs leves bien que suprieures au niveau du hasard (taux de reconnaissance CL de lordre de 51% cf. Tableau 6-15) Peur Peur ( 808 sgts) Colre (79 sgts) Tristesse (105 sgts) Soulagement (106 sgts) tel-00624085, version 1 - 15 Sep 2011
58 19 20 5

Colre
21 44 17 16

Tristesse Soulagement
12 19 49 25 9 18 14 55

Tableau 6-15. Matrice de confusion pour le classifieur Peur/Colre/Tristesse/Soulagement (avec uniquement des indices acoustiques) pour des segments du corpus CEMO(appelants) en apprentissage et en test avec des locuteurs diffrents de ceux utiliss pour lapprentissage ; sgts indique le nombre de segments classifis. Les rsultats sont donns en pourcentage par motion. Par exemple, 21% des segments Peur ont t reconnus comme de la colre. Les pourcentages de reconnaissance par motion pour les donnes GEMEP (en ne gardant que les phrases 1 et 2 et les phrases improvises) avec le mme classifieur sont donnes Tableau 6-16. Globalement, les classifieurs entrans sur CEMO ne fonctionnent pas du tout sur les donnes GEMEP. Pour les modes peu intense et masqu, toutes les motions GEMEP sont principalement reconnues comme de la tristesse. Cest quasiment le cas galement pour le mode normal et intense, lexception de la colre qui est assez bien reconnue (presque mieux que la colre des donnes CEMO). La colre semble tre encore mieux reconnue pour les donnes plus intenses (2/3 des segments colre reconnus contre 44% pour les donnes normales), mais il faudrait plus de segments pour pouvoir le vrifier. Par contre lirritation nest absolument pas reconnue comme de la colre. La peur-panique et linquitude ne sont reconnues non plus comme de la peur, ce qui peut tre du en partie aux grandes variations dans lexpression de la peur dans le corpus CEMO assez loignes de son expression prototypique. De mme, ltiquette soulagement avait t utilise pour dcrire un type de raction motionnel trs spcifique dans le corpus CEMO (tat de lappelant en fin de conversation lorsquil sait quune aide va lui tre apporte), qui peut tre assez loigne de la manire dont les acteurs vont lexprimer. Nous avons finalement dcid de nous focaliser sur les donnes normales et intenses. La question sest pose de savoir si les mauvaises performances taient dues aux diffrentes conditions denregistrement. - 161 -

Chapitre 6_ Apprentissage pour la dtection des motions


normal: CL=20% Peu inq (518) peu (276) irr (370) col (261) tris (317) des (269) soul (391) 3 8 6 11 8 11 14 Col 8 34 6 44 4 31 9 Tris 80 45 79 19 76 51 71 Soul 9 14 9 26 13 7 7 Inq (59) Peu (47) irr (28) col (52) Tris (34) Des (39) Soul (41) Peu intense CL=13% Peu 5 13 0 8 15 3 12 Col 0 6 4 23 3 0 2 Tris 95 70 96 52 79 77 66 Soul 0 11 0 17 3 21 20

intense: CL=28% Peu inq (94) 2 19 23 17 4 4 25 peu (42) irr (39) col (29) tris (49) des (46) soul (57) Col 23 45 13 66 4 26 9 Tris 52 21 64 7 92 48 63 Soul 22 14 0 10 0 22 4

masqu: CL=10% Peu inq (102) Peu (82) irr (69) col (53) Tris (73) Des (47) Soul (76) 15 20 32 21 3 11 16 Col 17 9 6 4 0 0 3 Tris 45 55 55 45 90 72 68 Soul 24 17 7 30 7 17 13

tel-00624085, version 1 - 15 Sep 2011

Tableau 6-16. Matrices de confusion pour les segments du corpus GEMEP (inq : inquitude ; peu : peur ; irr : irritation ; col : colre ; tris : tristesse ;des :dsespoir ; soul : soulagement ; le nombre entre parenthses donne le nombre de segments par motion) avec le mme classifieur que le Tableau 6-15 entrain sur les donnes CEMO. Les rsultats sont donns en pourcentage par motion pour chaque mode (normal, peu intense, intense, masqu). Par exemple en mode normal, 8% des segments inquitude ont t reconnus comme de la Peur.

Transformation des signaux GEMEP Les signaux audio GEMEP ont t transforms afin de pouvoir tre compar des donnes tlphoniques : rchantillonnage pour passer de 44kHz 8Hz limination des basses frquences avec un filtre passe bande (bande tlphone 300Hz3.4kHz) ajout dun bruit de fond tlphonique (obtenu partir dun fichier CEMO) Cette transformation na pas eu dincidence sur les rsultats.

- 162 -

Chapitre 6_ Apprentissage pour la dtection des motions Elimination des mauvais acteurs Comme le remarquent dautres chercheurs ayant travaill sur les donnes GEMEP 80, les performances varient significativement suivant les acteurs. Nous avons regard les performances par acteur toujours avec le classifieur entran sur les donnes CEMO, et retir 3 acteurs pour qui aucune motion ntait reconnue. Cela peut tre du de mauvaises performances ou un prototype de la colre diffrent de la colre exprime dans les donnes CEMO. Les rsultats pour les donnes normales et intenses sont donns Tableau 6-17.

7 meilleurs locuteurs Peu Col Tris Soul Inq (394) peu (135) Irr (216) col (127) tris (201) des (157) soul (250)
Phrase 1 Peu Col Tris Soul inq (130) peu (51) irr (66) col (38) tris (79) des (74) 5 15 9 13 9 0 3 74 31 70 3 84 66 8 8 6 8 8 11 4 inq (64) peu (40) irr (49) col (36) tris (41) des (38) soul (74) 18 43 26 63

4 9 6 20

11 7 2 6

71 38 75 9 81 45 70

13 15 8 17 10 8 4
Phrase libre Peu Col Tris Soul inq (200) peu (44) irr (101) col (53) tris (81) des (45) 4 7 5 10 66 8 6 6 74 11 74 66 20 34 11 28 15 7 10 5 25 36 9 51 0 2 6 11 7 3 1

10 37 13 61 11 36

tel-00624085, version 1 - 15 Sep 2011

Phrase 2 Peu Col Tris Soul 2 8 6 6 2 8 9 14 84 42 48 4 72 0 9 84 11 90 80

14 42 34

37 53

11 24 58

soul (114) 28

soul (62) 18

Tableau 6-17. Matrices de confusion pour les donnes (normales + intenses) du corpus GEMEP aprs avoir retir 3 mauvais locuteurs (inq : inquitude ; peu : peur irr : irritation ; col :colre ; tris :tristesse ; des :dsespoir ; soul : soulagement ; le nombre entre parenthses donne le nombre de segments par motion) avec le mme classifieur que le Tableau 6-15 entrain sur les donnes CEMO. Les rsultats sont donns en pourcentage par motion puis en dtaillant par rapport au type de contenu. Par exemple pour la phrase 1 N kal ibam soud moln ! , 5% des segments prononcs avec inquitude ont t reconnus comme de la Peur.

80

3me cole t humaine :www.emotion-research.net/ws/HPirker_featuring_GEMEP_1.pps

- 163 -

Chapitre 6_ Apprentissage pour la dtection des motions Seule la colre est reconnue 81 61%. Elle semble dailleurs tre mieux reconnue avec les phrases sans contenu linguistique, peut-tre parce que tout doit tre cod dans la prosodie (plus de 60% de reconnaissance de la colre pour les 2 phrases, contre 51% pour limprovisation). Apprentissage sur GEMEP/Test sur CEMO Nous avons tout dabord regroup {inquitude et peur-panique} en une classe Peur, {irritation et colre chaude} en une classe Colre et {tristesse et dsespoir} en une classe Tristesse. Nous avons gard 7 acteurs pour lapprentissage et 3 pour le test. Les rsultats de classification Peur/Colre/Tristesse/Soulagement taient trs bas, peut tre cause des diffrences entre des tiquettes traditionnellement appartenant la mme catgorie (peur vs. inquitude, colre vs. irritation). Cela confirme dailleurs les observations du paragraphe prcdent sur les diffrences entre les taux de reconnaissance pour la colre et lirritation de GEMEP avec un classifieur tel-00624085, version 1 - 15 Sep 2011 entran sur les donnes CEMO. Finalement, nous avons conserv les tiquettes peur-panique, colre, tristesse82 et soulagement et un SVM a t utilis pour entraner les donnes 83 en suivant exactement la mme procdure que pour les donnes CEMO. La matrice de confusion sur les 3 locuteurs du test est donne Tableau 6-18. Y figurent galement les performances pour les motions inquitude, irritation et dsespoir, qui ne sont pas utilises dans lapprentissage.
Peur Colre Tristesse Soulagement

inquitude (171)
peur (75)

9
69

39
31

21
0

30
0

irritation (95)
colre (64) tristesse (104)

4
19 2

35
73 4

17
0 66

44
8 28

dsespoir (93)
soulagement (123)

59
6

38
11 CL=69%

2
14

1
69

Tableau 6-18. Rsultat en pourcentage par motion pour la classification Peur/Colre/Tristesse/Soulagement sur les donnes GEMEP en apprentissage et en test. Les donnes ont t entraines avec un SVM sur les motions peur, colre, tristesse et soulagement de 7 locuteurs et testes sur les 3 locuteurs restants. Les nombres entre parenthses correspondent au nombre de segments tests. On pourrait sattendre ce que lirritation soit majoritairement reconnue comme de la Colre et linquitude comme de la Peur, mais ce nest pas du tout le cas.

Il nest pas possible de tirer de conclusion pour la tristesse cause du nombre important de fausses dtections. Nous avons galement essay avec dsespoir la place de tristesse en pensant que lmotion serait mieux reconnue tant plus forte , mais ce ntait pas le cas. 83 Mmes donnes que pour lexprience prcdente : phrases 1,2 et libre dans les modes normal et intense
81 82

- 164 -

Chapitre 6_ Apprentissage pour la dtection des motions

Le score CL pour GEMEP, en ne comptabilisant que les motions utilises pour lapprentissage, est de lordre de 70% (pas doptimisation tel que slection des meilleurs locuteurs, attributs). Lexprience a t rpte en slectionnant des locuteurs diffrents pour le test et lapprentissage et le score CL restait autour de 70% de bonne dtection. Nos outils et paramtres extraits semblent donc se transposer assez facilement pour des donnes actes. Les performances de dtection sont dailleurs bien meilleures avec les donnes actes. Lorsque les donnes CEMO sont utilises en test pour ce mme modle (Tableau 6-19), rien nmerge. La majorit des motions semblent reconnus comme de la colre.
Peur peur (1168) 1 3 5 8 colre (382) tristesse (334) soulagement (295) Colre 47 59 45 59 Tristesse 6 6 11 10 Soulagement 45 33 39 23

tel-00624085, version 1 - 15 Sep 2011

Tableau 6-19. Matrice de confusion en pourcentage par motion pour les donnes CEMO testes avec un modle entran sur GEMEP.

Classification Peur/Colre
Aucun rsultat concluant na t obtenu en testant les donnes GEMEP sur un modle Peur/Colre CEMO. Nous avons essay deux modles, un entran sur des clients CEMO qui classifiait 80% des donnes comme de la colre, et un entran avec la colre des agents (colre froide), o cette fois-ci tout tait class comme de la peur. La peur exprime dans les donnes GEMEP semble ne rien avoir en commun avec celle exprime dans CEMO et la colre GEMEP pourrait correspondre la colre chaude CEMO.

- 165 -

Chapitre 6_ Apprentissage pour la dtection des motions

Conclusion pour les donnes GEMEP


Les problmes de portabilit dune tche une autre peuvent avoir de nombreuses causes : le jeu des acteurs : des tests perceptifs ont t fait par lquipe de Genve, mais nont pas encore t publis et ne sont pas encore disponibles la dfinition derrire une tiquette motion qui peut varier normment selon les applications. De plus, les dfinitions des motions dans CEMO sont plus homognes car elles ont t classes par les mmes annotateurs, alors que pour GEMEP, elles dpendent de lacteur et de son interprtation. le caractre multimodal des donnes GEMEP, qui fait que lmotion ne va pas ncessairement sexprimer par la voix. Il est intressant de noter que la colre (colre chaude) est la seule motion reconnue. tel-00624085, version 1 - 15 Sep 2011

- 166 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.6. Vers une modlisation plus fine et temporelle


Une maquette de dmonstration a t construite en java. Cette maquette est la fois un outil de recherche et un dmonstrateur. La premire version a t ralise sur des donnes actes (projet de TER sciences affectives, PXI). Elle a t ensuite adapte aux donnes CEMO. Elle permet deffectuer tout

le traitement dun ensemble de fichiers audio et ventuellement de leurs transcriptions soit en entranant des modles avec ou non slection de paramtre, soit en les utilisant en test de modles connus. Une capture dcran pour lextraction des paramtres est donne Figure 6-17.

tel-00624085, version 1 - 15 Sep 2011

Figure 6-17. Capture dcran de longlet dextraction des paramtres qui permet de calculer entre autre les paramtres acoustiques laide de Praat et ceux dduits de la transcription sils sont fournis. Par exemple, pour traiter les 20 heures de donnes CEMO (30 000 fichiers : ~147Go, soit en moyenne 4,9 Mo pour chaque fichier), il faut 30 heures pour extraire tous les paramtres acoustiques avec Praat (F0, energie, formants toutes les 10ms et marqueurs affectifs), puis 5 heures pour associer chaque fichier tous ses indices. Le temps dapprentissage dpend de la taille de lensemble dapprentissage et des algorithmes utiliss. Les rsultats pour un ensemble de fichier sont prsents sous la forme dune matrice de confusion. Linterface permet galement de voir les probabilits avec un modle donn de classe motionnelle pour un segment motion isol, le

- 167 -

Chapitre 6_ Apprentissage pour la dtection des motions temps de dcodage est alors 2 * TR et le rsultat peut tre prsent sous la forme dun histogramme (cf. Figure 6-18).

tel-00624085, version 1 - 15 Sep 2011

Figure 6-18. Exemple de fichier en test dun classifieur Colre/Neutre.

La maquette nous a permis de faire des premiers tests des modles entrans sur CEMO sur des segments provenant de donnes relles en anglais, ainsi que de donnes actes et relles en Franais et pour un classifieur Colre/Neutre, les rsultats semblaient trs prometteurs. Les donnes relles que nous voudrons tester ne seront pas toujours dcoupes en segments et dans le futur, il faudra pouvoir avoir une dtection temporelle dynamique des motions. Nous avons utilis linterface pour explorer deux dcoupages assez grossiers pour dcouper un flux audio, lun en choisissant une fentre de taille fixe rglable qui se dplace avec un pas galement rglable ; et lautre en dcoupant le signal au niveau des silences (partie non voise de dure suprieure un seuil dfini par lutilisateur). Un exemple est donn Figure 6-19 en dcoupant le signal laide des parties non voises de plus de 30ms. Ces expriences ont t ralises sur quelques signaux audio assez courts (quelques minutes) mais sont assez intressantes et montrent laspect dynamique des motions ainsi que les transitions rapides dune motion lautre. - 168 -

Chapitre 6_ Apprentissage pour la dtection des motions

tel-00624085, version 1 - 15 Sep 2011

Figure 6-19. Exemple de dcoupage en 3 segments motions pour un classifieur Neutre/Colre, chaque motion est reprsente par une couleur et il est possible dobtenir des prcisions pour chaque segment.

- 169 -

Chapitre 6_ Apprentissage pour la dtection des motions

6.7. Conclusion
Des expriences prliminaires ont permis de vrifier quil ny avait pas de diffrences significatives entre les diffrents algorithmes et que la slection des paramtres semblait amliorer les performances. Nous avons donc dcid dutiliser des SVM noyau radial pour la suite de nos expriences et de combiner les rsultats de diffrents algorithmes pour slectionner les attributs. Nous avons galement vrifi le bien-fond du retrait des segments complexes de lensemble dapprentissage et du test pour avoir de meilleurs systmes et de doubler certains segments de lensemble dapprentissage pour les classes peu reprsentes. Une fois arrt sur ces choix, nous avons dans un premier temps effectu une batterie dexpriences sur le corpus CEMO afin dtudier les diffrences de contexte facilement observable (homme/femmes, agents/appelants), les diffrentes classes dattributs et enfin les performances en tel-00624085, version 1 - 15 Sep 2011 faisant varier le nombre de classes discrimines (de 80% de bonnes dtection avec 2 classes 55% avec 5 classes). Nous avons galement vrifi limportance de lextraction dun grand nombre dindices, la fois lexicaux et paralinguistiques, les diffrents indices tant plus ou moins pertinents selon lmotion laquelle on sintresse. Notre participation CEICES nous a permis de vrifier que notre mthodologie fonctionnait bien sur des donnes diffrentes dans une autre langue et que les performances obtenues avec nos systmes taient comparables celles dautres sites sintressant la dtection des motions. Cette collaboration nous a galement amen aborder dautres sujets de rflexions et notamment le calcul des indices extraits et la manire de les nommer la plus explicite possible. Nous avons galement pu comparer la F0 obtenue par Praat avec une correction manuelle de la F0 84. Nous avons galement constat que les modles entrans sur nos donnes pouvaient donner de bonnes performances sur des donnes similaires, mais ne marchaient globalement pas sur des donnes actes. Certaines motions comme la colre semblent plus robustes au changement de contexte. Enfin, les donnes relles que nous voudrons tester ne seront pas toujours dcoupes en segment, aussi nous avons commenc rflchir une dtection des motions sur des sous-segments temporels. Une interface de dmonstration a permis dexplorer deux dcoupages assez grossiers pour dcouper un flux audio, lun en choisissant une fentre de taille fixe rglable qui se dplace

84

Cas particulier des voix denfants

- 170 -

Chapitre 6_ Apprentissage pour la dtection des motions avec un pas galement rglable ; et lautre en dcoupant le signal au niveau des silences . Une valuation de la dtection des motions sur ces sous-units est un de nos projets court terme.

tel-00624085, version 1 - 15 Sep 2011

- 171 -

Chapitre 7
tel-00624085, version 1 - 15 Sep 2011

Conclusion et Perspectives

- 172 -

Chapitre 7 _ Conclusions et perspectives

7. CONCLUSION ET PERSPECTIVES 7.1. Conclusions


Contrairement une majorit des tudes sur les motions ralises au commencement de la thse, nous disposions dune importante quantit de donnes spontanes avec une trs grande variabilit dans les locuteurs et dans les motions exprimes. Nous avons prsent un protocole dannotation original adapt la complexit des donnes relles avec une large palette dtiquettes motions et la possibilit dannoter plusieurs motions la fois, et nous avons adopt un vecteur motion pour reprsenter ces mlanges. Nous nous sommes galement particulirement interroges sur les mesures de validation des annotations et sur la notion dannotateur expert , avec notamment des mesures de cohrence intra-annotateur. tel-00624085, version 1 - 15 Sep 2011 Nous avons effectu plusieurs tests perceptifs sur les mlanges dmotions, qui ont t peu tudis empiriquement et avons constat par exemple que le seul niveau paralinguistique pouvait dans certains cas permettre de les percevoir, bien que le contexte soit galement important. Plus dune centaine de paramtres pertinents ont t extraits par segment, leur poids relatif a t tudi et des expriences ont t menes avec 2 5 classes dmotion sur nos donnes, en utilisant principalement des SVM aprs avoir essay dautres techniques. Nous avons montr limportance de mlanger les diffrents types dindices et montr galement que les indices les plus importants varient dune tche lautre et bien sr en fonction du type dmotions que lon veut dtecter. Dautres expriences ont montr que nos mthodes taient robustes au changement de langue (franais, allemand) et de type de donnes (actes/spontanes, adultes/enfants), bien que ce ne soit pas forcment le cas des classifieurs et paramtres. En particulier, les expriences de dtection sur des donnes actes avec des modles entrans sur des donnes relles et inversement donnaient peu de rsultats. Toutefois, certains classifieurs semblent pouvoir se gnraliser dautres tches. Les premiers essais avec un modle Neutre/Colre sur des donnes en anglais (centre dappel) et en franais (spontan mais pas en interaction) semblent probants, mais ncessitent videmment une phase rigoureuse de validation. Nous avons galement commenc explorer la dtection de sous-segments motionnels en dcomposant des segments tests en une succession dmotions. Laspect dynamique des motions est un des aspects importants trs rarement pris en compte par les systmes actuels.

- 173 -

Chapitre 7 _ Conclusions et perspectives

7.2. Perspectives
Les travaux raliss dans le cadre de cette thse peuvent tre prolongs dans plusieurs directions. Les schmas et expriences dannotation des motions sont rutilisables aprs adaptation aux diffrentes tches et ont contribu la dfinition des besoins en termes dannotation des motions au sein du groupe de travail W3C Emotion Incubator Group (http://www.w3.org/2005/Incubator/emotion/). Nous navons dailleurs pas pris en compte lannotation des dimensions continues dans nos travaux et il serait intressant de les exploiter, par exemple en les ajoutant lensemble dindices ou en tudiant les corrlations entre tiquettes et axes. Laspect multilingue est un des aspects qui nous intressent. Cependant, bien que nous ayons tel-00624085, version 1 - 15 Sep 2011 abord cet aspect multilingue travers nos expriences sur le corpus AIBO (corpus en allemand) et sur quelques donnes en anglais, il est probable que nos modles ne soient pas efficaces sur des donnes trs diffrentes comme par exemple pour les langues asiatiques ou les diffrences sont la fois culturelles et tonales. En plus, certains paramtres, comme les marqueurs affectifs peuvent avoir des significations compltement opposes dune langue lautre. Par exemple bah/boa qui serait un bon indicateur de dgot en franais ou en anglais exprime ladmiration en allemand. Nous visons galement un traitement compltement automatique de lextraction des indices. Si on peut envisager une dtection automatique de certains marqueurs comme le rire ou les hsitations, ce nest pas le cas pour dautres indices pourtant trs performants (longueur des phonmes, mots tronqus ou inintelligibles). Par contre, il pourrait tre intressant de prendre en compte, comme le font dj certaine tudes, le contexte dialogique et par exemple dajouter les actes de dialogue, qui eux commencent pouvoir tre dtects automatiquement [Rosset et al. 2007] et une perspective serait de comparer notre approche avec ces nouvelles tendances. Nous voudrions aussi poursuivre nos expriences afin de combiner au mieux un modle lexical et un modle paralinguistique. Il faudrait galement envisager une approche plus dynamique pour traiter les motions afin davoir une analyse en temps rel. Actuellement les segments sont considrs comme des units statiques desquels on extrait un ensemble de paramtre, mais on pourrait extraire des paramtres sur des fentres temporelles ainsi que nous avons commenc ltudier et prendre en compte les motions des segments prcdents, par exemple en utilisant des HMMs. Nous navons pas remis en cause lutilisation des SVM, mais des travaux rcents semblent montrer que des arbres du type random forest permettent dobtenir de meilleurs modles [Schuller et al. - 174 -

Chapitre 7 _ Conclusions et perspectives 2007] et la tendance est aux mta-algorithmes qui combinent les sorties de diffrents algorithmes dapprentissage. Une autre tendance est dannoter sur des axes abstraits, quitte les projeter ensuite dans un espace motionnel, ce qui a pour avantage de ne pas ncessiter de choisir un nombre dmotions dtecter et de ne pas ncessiter de dfinitions[Grimm et Kroschel 2007]. Une autre problmatique est de trouver la meilleure faon dexploiter les mlanges dmotions. Nous les avons analys et le fait de les annoter nous permet de filtrer les segments utiliss pour lapprentissage lors de la discrimination dmotions pures . Est-ce que ces mlanges sont spcifiques nos donnes. Peut on envisager de pouvoir les dtecter ? Enfin, pour ce qui est de savoir si un module de dtection des motions pourrait permettre damliorer les systmes de reconnaissance de la parole, un premier travail est en cours pour tel-00624085, version 1 - 15 Sep 2011 valuer les performances dun systme de reconnaissance de la parole sur des donnes motionnelles. Ce travail montre, en premier rsultat, que limpact des motions sur les performances du systme de reconnaissance va dpendre du type dmotion prsente. Certaines comme le soulagement dans le cas du corpus CEMO seront exprimes assez souvent par le canal linguistique avec des phrases assez simples (merci beaucoup) et sont susceptibles dtre bien reconnues, ce qui sera moins vident pour lexpression de la peur ou du stress. A plus long terme, nous nous interrogeons galement sur la dtection de laudio tlphonique compare celle de laudio dans la multimodalit. Les indices sont-ils diffrents. Comment prendre en compte les informations donnes par les autres modalits ? En conclusion, peu de travaux sur les motions portent sur ltude des corpus oraux spontans, tout dabord parce que la collecte de tels corpus est difficile pour des raisons de confidentialit lies aux donnes et galement parce quelle est trs coteuse. Comme les diffrentes tudes se font rarement sur un mme corpus, il nexiste pas encore de protocoles dvaluation des systmes de dtection des motions. Lexprience CEICES du rseau Humaine est pour linstant unique. Les rsultats obtenus dans cette thse sont principalement des schmas dannotation ainsi que des protocoles de validation, des tests perceptifs, des tudes sur les indices caractrisant certaines motions en majorit ngatives (comme peur, colre) dans des donnes spontanes et enfin la mise en uvre de systmes de dtection des motions pour diffrentes tches ainsi que des premires valuations sur leur robustesse. Nous avons galement mis en avant la prsence dmotions complexes mlanges dans des donnes orales relles. - 175 -

Chapitre 7 _ Conclusions et perspectives

De nombreuses tudes sur des donnes naturelles sont encore ncessaires pour dtecter les comportements motionnels complexes ou proches (par exemple diffrencier lirritation du stress ou de la colre) mme si sur peu de classes, par exemple 2 classes (colre, neutre), les scores de prdiction sont dj intressants pour imaginer dans un futur proche de premires applications notamment en fouille de donnes.

tel-00624085, version 1 - 15 Sep 2011

- 176 -

tel-00624085, version 1 - 15 Sep 2011

IV Annexes

- 177 -

Annexe1_Quelques dfinitions de lmotion

ANNEXE1: QUELQUES DEFINITIONS DE LEMOTION

http://www.alleydog.com/glossary/definition.cfm?term=Emotion: Emotion: Most people have little problem recognizing and identifying when we are having an emotion. However, emotion is one of the most difficult concepts in Psychology to define. In fact, emotion is such a difficult concept to define adequately that there are at least 90 different definitions of emotions in the scientific literature. A simple definition of emotion is that it is a response by a whole organism, involving (1) physical arousal, (2) expressive behaviors, and (3) conscious experience. tel-00624085, version 1 - 15 Sep 2011

[Lang et al. 1997 p173]: "For the layman the basic datum of an emotion is a state of feeling, i.e.., a direct experience or internal apprehension, requiring no further definition. [Averill 1996]: emotion is derived from the latin e + movere. It originally means to migrate or to transfer from one place to another. It also was used to refer to states of agitation and perturbation, both physical and psychological. [Gellhorn et Loofbourrow 1963 p409]: "emotion is a fact upon which all introspection agrees. Anxiety, depression, elation, indifference, anger, fear, pleasurable anticipation and dread, for example, are undeniable because there are states which we have experienced personnaly." [Caffi et Janney 1994] : phnomne empiriquement investigable, gnralement transitoire et dune certaine intensit qui se manifeste au niveau linguistique de diffrentes manires par le choix des mots, lintonation, les exclamations [Caffi et Janney 1994 p327]: Western psychologists commonly distinguish between feelings, a broad, complex class of subjective personal sensations or states of inner physiological arousal; emotions, a restricted subset of empirically investigable phenomena within this general class that are relatively transitory, of a certain intensity, and are attached to, or triggered by, particular objects, ideas, or outer incentive events; moods, which are said to be of longer duration than emotions, and not necessarily attached to specific inner states or definite objects; and attitudes, or - 178 -

Annexe1_Quelques dfinitions de lmotion transitory feeling states with partly uncontrollable subconscious psychobiological components and partly controllable expressive components, which are said to be instrumental in maintaining social and psychological equilibrium and adapting to different situations. The term affect is usually reserved for feeling states that are ascribed to others on the basis of their observable behaviour in different situations. In cognitive psychology, notions of affect range from hot to cold extremes. At the hotter end, affect is used almost synonymously with emotion as defined above. At the cooler end, it is used to refer simply to human preferences, attitudes, or likes and dislikes, and to adaptive choices related to these. [] In linguistics, on the other hand, the term affect is often simply used as a broad synonym for feeling. (Scherer 1999, http://emotion-research.net/restricted/contract/technical_annex.pdf). tel-00624085, version 1 - 15 Sep 2011 We consider emotion in an inclusive sense rather than in the narrow sense of episodes where a strong rush of feeling briefly dominates a persons awareness we have called those fullblown emotions [Scherer 1993] : "Episode of temporary synchronisation of all major subsystems of organismic functioning represented by five components (cognition, physiological regulation, motivation, motor expression and monitoring/feeling) in response to the evaluation of an external or internal stimulus event as relevant to central concerns of the organism" [Schachter et Singer 1962 p380] cit dans [Cornelius 1996]: "[A]n emotional state may be considered a function of a state of physiological arousal and of a cognition appropriate to this state of arousal" Toates dans [Hamilton et al. 1988]: p15: "Emotion is seen as an evolutionary development that accompanied the emergence of flexibility and learning skills in relatively advanced animals. It serves motivation and learning. In the present model, emotion is triggered in part by comparison between an expectation based upon a goal set by the motivation system ('Sollwert') and the actual state that prevails ('Istwert'). Emotion can be positive (outcome equal to or better than expected) or negative (outcome worse than expected, as assumed by Grey, 1971)

- 179 -

Annexe1_Quelques dfinitions de lmotion p16 : "I would suggest that what we call 'emotion' in everyday speech refers to subjective feelings arising from a compound of the stimuli that impinge upon us, their appraisal, the memories that they evoke and the course of goal directed activity that is investigated, or at least suggested, by their appraisal." [Plutchik et Kellerman 1990 p4]: "A major element in both the implicit and explicit views of emotion is that an emotion is a subjective feeling of a certain kind -- the kind for which labels such as angry, disgusted, and afraid are appropriate. However, there is considerable evidence to suggest that this is too narrow a way to define emotions" [Lazarus et al. 1980 p198]: "Emotions are complex, organized states consisting of cognitive appraisals, action impulses, and patterned somatic reactions. Each emotion quality (e.g. anger, tel-00624085, version 1 - 15 Sep 2011 anxiety, joy) is distinguished by a different pattern of components, which is what urges the analogy to a syndrome. Moreover, the three components of emotion are subjectively experienced as a whole, that is, as a single phenomenon as opposed to separate and distinct responses. When one component is missing from the perception the experience is not a proper emotion although it may contain some of the appropriate elements" action impulse : the action is set in motion internally (psychophysiologically ) need not be carried out, can be suppressed, denied, transformed. ___________________________________________________________________________ [Averill 1980 p313] "An emotion is a transitory social role (a socially constituted syndrome) that includes an individual's appraisal of the situation and that is interpreted as a passion rather than as an action"

- 180 -

Table des figures

TABLE DES FIGURES


FIGURE 1-1: LE MODELE DE BRUNSWIK ADAPTE PAR SCHERER. .................................................................................. 10 FIGURE 1-2. "SOLIDE EMOTION" DE PLUTCHIK. (DE [PLUTCHIK 1984]). ................................................................... 20 FIGURE 1-3. METHODOLOGIE POUR CONSTRUIRE UN SYSTEME DE DETECTION DES EMOTIONS. .................................... 25 FIGURE 2-1. METADONNEES LIEES A LACOUSTIQUE. (GAUCHE) TYPE DE TELEPHONE; (DROITE) LIEU DAPPELS (BAS) TYPE DE VOIX NORMALE, ACCENTUEE (ACCENTS ETRANGERS ET REGIONAUX) ET ALTEREE. ........................ 42 FIGURE 2-2. METADONNEES. 1A AGE ET SEXE DES LOCUTEURS ET APPELANTS; 1B REPARTITION DES APPELANTS, 1C REPARTITION DES APPELS AVEC SEULEMENT LE PATIENT OU 1 TIERS, 15% DES APPELS ON PLUS DE 2
INTERLOCUTEURS (11% PATIENT+TIERS, 3% 2 TIERS). ...................................................................................... 43

FIGURE 3-1. EXEMPLE DAFFICHAGE DE FEELTRACE, EXTRAIT DE [COWIE ET AL. 2000]. ........................................... 48 FIGURE 3-2. REPARTITION DES SEGMENTS ANNOTES PRECEDEMMENT PEUR ET COLERE APRES LA RE-ANNOTATION. .... 54 FIGURE 3-3. LISTE DE TERMES EMOTIONNELS PERTINENTS POUR DES INTERFACES DU FUTUR SENSIBLES AUX EMOTIONS,
ETABLIE PAR COWIE.......................................................................................................................................... 57

tel-00624085, version 1 - 15 Sep 2011

FIGURE 3-4. LE SCHEMA D'ANNOTATION : RECAPITULATIF, LANNOTATION EST FAITE EN CONTEXTE, CHAQUE TOUR
POUVANT ETRE COUPE EN SEGMENT. POUR CHAQUE SEGMENT SONT ANNOTES : UNE OU DEUX ETIQUETTES, AINSI QUE LINTENSITE ET LE CONTROLE. LANNOTATEUR PEUT AUSSI INDIQUER SI LA PERSONNE REPETE CE QUELLE A DEJA DIT OU CE QUE SON INTERLOCUTEUR A DIT ET SI ELLE PEROIT DE LIRONIE OU DU MENSONGE. ................. 61

FIGURE 3-5. UN EXTRAIT DU PROTOCOLE DANNOTATION. ......................................................................................... 62 FIGURE 3-6. LOGICIEL TRANSCRIBER AVEC UNE DTD EMOTION UTILISEE POUR L'ANNOTATION. L'EXTRAIT SE SITUE A LA
FIN D'UN DIALOGUE ASSEZ LONG ENTRE UN AGENT ET LA FILLE D'UNE PATIENTE QUI APPELLE POUR LA DEUXIEME FOIS EN QUELQUES JOURS. LA FOIS PRECEDENTE, UNE AMBULANCE AVAIT ETE ENVOYEE, MAIS LA SITUATION AVAIT ETE CONSIDEREE COMME NON CRITIQUE ET LA PATIENTE AVAIT ETE RAMENEE CHEZ ELLE. L'AGENT N'ARRIVANT PAS A DETERMINER PRECISEMENT LE MOTIF DE L'APPEL EST UN PEU AGACE PAR LA SITUATION, MALGRE SA COMPASSION POUR LA PATIENTE. ...................................................................................................................... 63

FIGURE 3-7. EXEMPLE DE TOUR DE PAROLE COUPE DIFFEREMMENT PAR LES 2 ANNOTATEURS. T1T7 SONT LES TIMECODES CORRESPONDANT AU DEBUT DES DONNEES TRANSCRITES A DROITE.

........................................................ 65

FIGURE 3-8. EXEMPLE 2 : TOUR DE PAROLE COUPE DIFFEREMMENT PAR LES 2 ANNOTATEURS. ................................... 66 FIGURE 3-9. EXEMPLE DE CREATION DUN VECTEUR DEMOTIONS PONDEREES. .......................................................... 69 FIGURE 3-10. DENDROGRAMMES ISSUS DU CLUSTERING AGGLOMERATIF UTILISANT UNE DISTANCE EUCLIDIENNE. ...... 70 FIGURE 4-1. REPARTITION DES EMOTIONS ENTRE POSITIF, NEGATIF ET NEUTRE POUR LES AGENTS. DANS LES DONNEES
RECOLTEES, 3 AGENTS INTERVIENNENT BEAUCOUP F_1, F_2 ET H_1. LES NOMBRES INDIQUENT LE NOMBRE DE SEGMENT POUR CHAQUE CAS. ........................................................................................................................... 74

FIGURE 4-2. REPARTITION DES MELANGES DEMOTION POUR CHAQUE ANNOTATEUR. LAB1 AND LAB2 SONT LES 2
ANNOTATEURS; MELANGE: 2POS SIGNIFIE QUE LES 2 ETIQUETTES SONT CHOISIES DANS DES CLASSES DIFFERENTES DEMOTIONS POSITIVES ('AMUSEMENT', 'SOULAGEMENT, 'COMPASSION/INTERET' ); MELANGE: 2NEG SIGNIFIE QUE LES 2 ETIQUETTES SONT CHOISIES DANS 2 CLASSES NEGATIVES DIFFERENTES ('PEUR', 'COLERE', 'TRISTESSE' ET

'DOULEUR' ). .............................................................................................................................................. 75

FIGURE 4-3. EXEMPLE DE SEGMENT REANNOTES........................................................................................................ 78

- 181 -

Table des figures


FIGURE 4-4. REPARTITION DES INDICES LEXICAUX ET PROSODIQUE ENTRE LE MAJEUR ET LE MINEUR POUR LES EMOTIONS CONFLICTUELLES , (APPELANTS ET AGENTS). ................................................................................ 79 FIGURE 4-5. INTRODUCTION ET INSTRUCTIONS DU TEST PERCEPTIF. ........................................................................... 81 FIGURE 4-6. INTERFACE DU TEST PERCEPTIF. ............................................................................................................ 82 FIGURE 4-7. LE ROLE DU CONTEXTE DANS LES DIFFERENCES ENTRE LES ANNOTATIONS. LES ANNOTATIONS DES SUJETS
SONT REGROUPEES EN UN VECTEUR EMOTION (ETIQUETTES LARGES) AVEC UN POIDS DE 1 PAR ETIQUETTE. POUR DEDUIRE LETIQUETTE FINALE, ON A CHOISI DE NE GARDER QUE CELLES CHOISIES PAR PLUS DE 1/3 DES SUJETS

(POIDS>10). .................................................................................................................................................... 84 FIGURE 4-8. RESULTATS DU CHOIX LIBRE DINDICES AYANT MOTIVE LES ANNOTATIONS. .............................................. 88 FIGURE 5-1. LAPPAREIL PHONATOIRE. ..................................................................................................................... 93 FIGURE 5-2. LA PROSODIE SELON [HIRST ET DI CRISTO] ........................................................................................... 95 FIGURE 5-3. LES PARAMETRES ACOUSTIQUES (EXTRAIT DE HTTP://AUNE.LPL.UNIV-AIX.FR/~GHIO/DOC/DOCVOICEPARAMETERS.PDF) ................................................................................................................................. 98 FIGURE 5-4. LE MEME CONTENU LEXICAL JE SAIS PAS ET LE MEME LOCUTEUR DE MANIERE NEUTRE PUIS AGACEE.

tel-00624085, version 1 - 15 Sep 2011

...................................................................................................................................................................... 103 FIGURE 5-5. JE SAIS PAS : PLUSIEURS LOCUTEURS, PLUSIEURS EMOTIONS (NEUTRE, STRESS, DESESPOIR, DESESPOIR )..................................................................................................................................................................... 104 FIGURE 5-6. EXEMPLE DEXTRACTION DE F0 AVEC PRAAT : LA COURBE DE LA F0 EST INDIQUEE EN BLEU ET DES
INFORMATIONS SONT DONNEES SUR LES DIFFERENTS TRAITEMENTS EFFECTUES. ............................................... 106

FIGURE 5-7. EXEMPLE DE VOIX TREMBLANTE (VARIATION DE F0), EXTRAIT ANNOTE DETRESSE/DESESPOIR/TRISTESSE.107 FIGURE 5-8. EXEMPLE DUNE VOIX CHUCHOTEE AVEC TRES PEU DINDICES. ............................................................ 108 FIGURE 5-9. RESUME DES PARAMETRES ACOUSTIQUES EXTRAITS AUTOMATIQUEMENT . ........................................ 108 FIGURE 5-10. LALIGNEMENT PHONEMIQUE. ........................................................................................................... 109 FIGURE 5-11. QUELQUES PARAMETRES ISSUS DE LALIGNEMENT PHONEMIQUE POUR LES CLASSES EMOTIONNELLES PEUR/COLERE/TRISTESSE/NEUTRE/SOULAGEMENT ; A. : DEBIT PHONEMIQUE ET #VOYELLES/DUREE DU SEGMENT
POUR LES 5 EMOTIONS EN REGARDANT LES HOMMES ET LES FEMMES SEPAREMENT

;, B. : DUREE MOYENNE DES

PHONEMES, C. : DUREE MAXIMUM DES PHONEMES........................................................................................... 110

FIGURE 5-12. COMPARAISON ENTRE LES COURBES DE F0 SANS NORMALISATION, EN UTILISANT LA Z-NORME, LA
NORMALISATION DE SHRIBERG ET CELLE DE NEAREY. ...................................................................................... 113

FIGURE 5-13. TRIANGLE VOCALIQUE DES FEMMES POUR LES EMOTIONS NEUTRE/PEUR/COLERE/TRISTESSE (NORMALISATION DE NEAREY. ......................................................................................................................... 115 FIGURE 5-14.TRIANGLE VOCALIQUE DES HOMMES POUR LES EMOTIONS NEUTRE/PEUR/COLERE/TRISTESSE (NORMALISATION DE NEAREY). ........................................................................................................................ 116 FIGURE 5-15.TRIANGLE VOCALIQUE POUR LES EMOTIONS NEUTRE/PEUR/COLERE/TRISTESSE (NORMALISATION DE NEAREY). ....................................................................................................................................................... 117 FIGURE 6-1. HYPERPLAN OPTIMAL DE MARGE 1/||W|| (SCHEMA TIRE DE L'ARTICLE DE CORNUEJOLS [CORNUEJOLS 2002]). .......................................................................................................................................................... 125 FIGURE 6-2. OBTENIR DES DONNEES EQUILIBREES POUR LAPPRENTISSAGE : UN EXEMPLE POUR UNE CLASSIFICATION PEUR/COLERE/TRISTESSE/SOULAGEMENT/NEUTRE AVEC DES DONNEES NON EQUILIBREES POUR LAPPRENTISSAGE
ET EN UTILISANT DES SVM .............................................................................................................................. 128

- 182 -

Table des figures


FIGURE 6-3. DIFFERENTES MESURES DE PERFORMANCES SE DEDUISANT DE LA MATRICE DE CONFUSION. .................. 129 FIGURE 6-4. CREATION DE N CLASSIFIEURS EN FAISANT VARIER LES ENSEMBLES DAPPRENTISSAGE ET DE TEST AFIN
DAVOIR UN APERU DE LA VARIABILITE DES RESULTATS. ................................................................................. 130

FIGURE 6-5. EVOLUTION DES SCORES CL ET RR SUR UN MEME ENSEMBLE DE TEST POUR LA CLASSIFICATION PEUR/COLERE/NEUTRE EN FAISANT VARIER LE NOMBRE DE SEGMENTS PAR EMOTION POUR LAPPRENTISSAGE. (IL
NY A QUE 180 SEGMENTS DISTINCTS POUR LA COLERE QUI SONT ALEATOIREMENT DUPLIQUES AU DESSUS DE 250 SEGMENTS PAR EMOTION. LES DONNEES DE TEST NE SONT PAS EQUILIBREES (MOINS DE

COLERE QUI EST LA

CLASSE LA MOINS BIEN RECONNUE). ................................................................................................................ 136

FIGURE 6-6. COMPARAISON DES PERFORMANCES(RR SCORE AVEC DES ENSEMBLES EQUILIBRES) DE LA DETECTION NEUTRE/NEGATIF ENTRE LES AGENTS ET LES APPELANTS. LE NOMBRE ENTRE PARENTHESES EST LA DEVIATION
STANDARD. PROCEDURE DE VALIDATION CROISEE AVEC N

= 10 SOUS-ENSEMBLES ET 10 EXECUTIONS. ............. 137

FIGURE 6-7. COMPARAISON DES PERFORMANCES POUR DES CLASSIFIEURS ENTRAINES SEULEMENT SOIT SUR DES
HOMMES (TRAIN_H), SOIT SUR DES FEMMES (TRAIN_F).

.................................................................................. 138

FIGURE 6-8. RESULTATS DE CLASSIFICATION EN PASSANT DE 2 A 5 CLASSES DEMOTIONS ; FE : PEUR, N : NEUTRE, SD :

tel-00624085, version 1 - 15 Sep 2011

TRISTESSE, AG : COLERE, AX : ANXIETE, ST : STRESS, RE : SOULAGEMENT. LE NOMBRE DE SEGMENTS DISTINCTS


UTILISES PAR EMOTION POUR LAPPRENTISSAGE ET LE TEST EST INDIQUE DANS LE TABLEAU. LES BARRES VERTICALES INDIQUENT LA DEVIATION STANDARD DES PERFORMANCES LORSQUE LEXPERIENCE EST REPETEE 200 FOIS. .............................................................................................................................................................. 140

FIGURE 6-9. SCORE CL (5 CLASSES) AVEC F0 : SEULEMENT DES PARAMETRES RELIES A LA F0, FTS: FORMANTS ET LEUR
BANDE PASSANTE, EN: ENERGIE, MFCC, ALL* (107 PARAMETRES) : TOUS LES PARAMETRES BLIND

. LES BARRES

VERTICALES INDIQUENT LA DEVIATION STANDARD DES RESULTATS. .................................................................. 143

FIGURE 6-10. CL SCORE POUR 5 CLASSES PEUR COLERE TRISTESSE SOULAGEMENT ET NEUTRE AVEC DIFFERENTS
ENSEMBLES DINDICES. BLIND : EXTRAITS AUTOMATIQUEMENT (F0, FORMANTS, ENERGIE, PROSODIE), CORRESPOND AU ALL* DE LA FIGURE PRECEDENTE, TRANS1 : INDICES EXTRAITS DE LA TRANSCRIPTION MANUELLE ; TRANS2: DUREES PHONEMIQUES, 25 BEST: 25 MEILLEURS PARAMETRES. ....................................... 144

FIGURE 6-11. CL SCORE PAR EMOTION (PEUR, COLERE, TRISTESSE, SOULAGEMENT + ETAT NEUTRE) POUR LES
PARAMETRES BLIND

VS. PARAMETRES DEDUITS DE LA TRANSCRIPTION (TRANS1) VS. PARAMETRES DEDUITS DE

LALIGNEMENT PHONEMIQUE (TRANS2) VS. 25MEILLEURS PARAMETRES. .......................................................... 145

FIGURE 6-12. PERFORMANCES POUR DIFFERENTES TACHES DE CLASSIFICATION EN NUTILISANT QUUN SEUL TYPE
DINDICE (FORMANT : FORMANTS ET LEUR BANDE PASSANTE, F0

:F0 ET DUREES, TRANS1 : INDICES EXTRAITS DE LA : NEGATIF ; NEU :

TRANSCRIPTION, TRANS2 : INDICES EXTRAITS DE LALIGNEMENT PHONEMIQUE). NG

NEUTRE ;PE :PEUR ; CL :COLERE ;TR :TRISTESSE ; 4EMOTS :PEUR/COLERE/TRISTESSE/NEUTRE ; 5EMOTS :PEUR/COLERE/TRISTESSE/SOULAGEMENT/NEUTRE. .......................................................................... 146 FIGURE 6-13. COMBINAISON DES SCORES LEXICAUX ET PROSODIQUES...................................................................... 148 FIGURE 6-14. EXEMPLE DE CODAGE DE PARAMETRES LIMSI A LISSU DU WORKSHOP A ERLANGEN........................... 151 FIGURE 6-15. SCORE CL POUR LA CLASSIFICATION COLERE/NEUTRE AVEC DIFFERENTES DONNEES EN APPRENTISSAGE
ET EN TEST : TRAIN_CEMO_AG : AGENTS DU CORPUS CEMO, TRAIN_CEMO_APP : APPELANTS DU CORPUS

CEMO, TRAIN_CORPUS1 : APPELANTS DU CORPUS DE DONNEES BOURSIERES. LES MATRICES DE CONFUSION SONT
DONNEES EN GRISE POUR LES CAS OU LE CORPUS 1 EST EN TEST AVEC LES AGENTS OU APPELANTS DE CEMO EN APPRENTISSAGE. ............................................................................................................................................. 156

- 183 -

Table des figures


FIGURE 6-16. SCORE CL POUR LA CLASSIFICATION PEUR/NEUTRE ET PEUR/COLERE/NEUTRE AVEC DES CLASSIFIEURS
ENTRAINES ET TESTES SUR LES APPELANTS CEMO OU SUR LES APPELANTS DU CORPUS DE DONNEES BOURSIERES TRAIN_CEMO : APPELANTS DU CORPUS CEMO, TRAIN_CORPUS1 : APPELANTS DU CORPUS DE DONNEES BOURSIERES. .................................................................................................................................................. 158

FIGURE 6-17. CAPTURE DECRAN DE LONGLET DEXTRACTION DES PARAMETRES QUI PERMET DE CALCULER ENTRE
AUTRE LES PARAMETRES ACOUSTIQUES A LAIDE DE PRAAT ET CEUX DEDUITS DE LA TRANSCRIPTION SILS SONT FOURNIS. ........................................................................................................................................................ 167

FIGURE 6-18. EXEMPLE DE FICHIER EN TEST DUN CLASSIFIEUR COLERE/NEUTRE. .................................................. 168 FIGURE 6-19. EXEMPLE DE DECOUPAGE EN 3 SEGMENTS EMOTIONS POUR UN CLASSIFIEUR NEUTRE/COLERE, CHAQUE
EMOTION EST REPRESENTEE PAR UNE COULEUR ET IL EST POSSIBLE DOBTENIR DES PRECISIONS POUR CHAQUE SEGMENT........................................................................................................................................................ 169

tel-00624085, version 1 - 15 Sep 2011

- 184 -

Liste des tableaux

LISTE DES TABLEAUX


1-1. ETATS AFFECTIFS (ADAPTE DE [SCHERER 2003]). ................................................................................................. 8 1-2. DES ARGUMENTS CONTRE LE SELF REPORT DES EMOTIONS (ADAPTE DE [PLUTCHIK ET KELLERMAN P4]). ...... 12 1-3. QUATRE THEORIES DES EMOTIONS EN PSYCHOLOGIE (D'APRES [CORNELIUS 1996] P12). .................................... 14 1-4. LES NEUF CARACTERISTIQUES DES EMOTIONS DE BASE SELON [EKMAN 1992]. ..................................................... 16 1-5. EMOTIONS & THEIR CORE RELATIONAL THEME (D'APRES L : [LAZARUS 1998] ,B : [BRENNER P345] S :SHAVER ET
AL). .................................................................................................................................................................. 17

1-6. LES EMOTIONS DE BASE, D'APRES [ORTONY ET TURNER 1990]. ............................................................................ 18 1-7. CRITERES DEVALUATION DES SEQUENCES DE TRAITEMENT DANS LE MODELE DE SCHERER (EXTRAIT DE [SCHERER
ET SANGSUE 2006 P20]) . ................................................................................................................................. 23

1-8. LES EVALUATIONS PREDITES POUR LES EMOTIONS LES PLUS ETUDIEES. ENJ/HAP, CONTENTEMENT/BONHEUR;

tel-00624085, version 1 - 15 Sep 2011

ELA/JOY, JOIE; DISP/DISG, DEPLAISIR/DEGOUT ;CON/SCO, MEPRIS; SAD/DEJ, TRISTESSE/ABATTEMENT; IRR/COA, IRRITATION/COLERE FROIDE; RAG/HOA, RAGE/COLERE CHAUDE; BOR/IND, ENNUI/INDIFFERENCE;
DE[SANDER ET AL. 2005 P. 326]. ..................................................................................................................... 24

1-9.

RECAPITULATIF DETUDES SUR LA DETECTION DES EMOTIONS : REFERENCE DE LAUTEUR, STYLE DE CORPUS DE TRAVAIL (ACTE, WOZ, DHH, DHM), SIZE (TOURS DE PAROLE) ET NOMBRE DE LOCUTEURS, LES REPRESENTATIONS DES EMOTIONS. CORPORA EMOTION LABELS, TYPE DINDICES (SPECTRAUX, PROSODIQUE (FREQUENCE

FONDAMENTALE, ENERGIE, DEBIT), DISFLUENCES, LEXIQUES, LANGAGE (N-GRAM), SYNTAX/SEMANTIC (ETIQUETTES : PART-OF-SPEECHS) ET ENFIN DIALOGIQUE), MODELE DAPPRENTISSAGE (MLB: MAXIMUM LIKELIHOOD BAYES CLASSIFIER, KR: KERNEL REGRESSION , LDC: LINEAR DISCRIMINANT CLASSIFIER,
KNN: K NEAREST-NEIGHBORS, SVM: SUPPORT VECTOR MACHINE, HMM: HIDDEN MARKOV MODEL, NNS:

NEURAL NETWORKS, DECISION TREES, ADABOOST, ETC),

ET FINALEMENT LE TAUX DE DETECTION..................... 28

2-1. DES DONNEES NATURELLES. ............................................................................................................................... 36 2-2. CARACTERISTIQUES DES DEUX CORPUS : CORPUS 1: 100 DIALOGUES AGENT-CLIENT D'ENVIRON 3 HEURES (H:
HOMME, F: FEMME), CORPUS 2: 688 DIALOGUES AGENT-CLIENT DENVIRON 20H (H : HOMME, F : FEMME) DANS

96

DIALOGUES, DES TIERS INTERAGISSENT. ....................................................................................................... 40

2-3. CARACTERISTIQUES DU CORPUS. ........................................................................................................................ 41 2-4. MARQUEURS AFFECTIFS INDIQUES PAR LA TRANSCRIPTION SUR LES 20 HEURES. ................................................... 41 3-1. EXEMPLE DE MATRICE DINTER ANNOTATION. LES CHIFFRES SONT FICTIFS. ......................................................... 49 3-2. PEXP REPRODUIT DE [ZWICK 1988] AVEC PI+
LA SOMME DES PROPORTIONS DE LA LIGNE I DE LA MATRICE ET P+I

LA SOMME DES PROPORTIONS DE LA COLONNE I. ................................................................................................ 50

3-3. DEGRE D'ACCORD SUIVANT LA VALEUR DU COEFFICIENT KAPPA .......................................................................... 51 3-4. NOMBRE DE FICHIERS POUR CHAQUE ETAT EMOTIONNEL DANS LE CORPUS DE DONNEES BOURSIERES. .................. 53 3-5. HIERARCHIE DES CLASSES D'EMOTION. ............................................................................................................... 58 3-6. RESULTATS DUNE ANALYSE PAR CLUSTERING HIERARCHIQUE DE 135 NOMS DEMOTIONS. ................................... 59

- 185 -

Liste des tableaux


3-7. MESURE DE FIABILITE DUN ANNOTATEUR : % ACCORD ENTRE DEUX ANNOTATIONS PAR UN MEME ANNOTATEUR A
DEUX MOMENTS DIFFERENTS. DEC-FEV SIGNIFIE UNE PREMIERE ANNOTATION EN DECEMBRE ET UNE DEUXIEME EN FEVRIER, (14 DIALOGUES), JAN-FEV PREMIERE ANNOTATION EN JANVIER,DEUXIEME EN FEVRIER (11 DIALOGUES),

MAR-AVR (16 DIALOGUES), AVR-MAI (16 DIALOGUES). LES 2 LIGNES POUR AGENT ET CLIENT CORRESPONDENT
AUX 2 ANNOTATEURS. ....................................................................................................................................... 68

3-8. REPARTITION DES ETIQUETTES FINES (5 MEILLEURES CLASSES) AVEC LE MEME MAJEUR. (688 DIALOGUES), AUTRE
DONNE LE POURCENTAGE DE SEGMENTS ANNOTES AVEC LES 19 ETIQUETTES RESTANTES. .................................... 69

4-1. POURCENTAGES DEMOTIONS SIMPLES ET COMPLEXES DES 33 SUJETS FRANAIS AYANT EFFECTUE LE TEST
PERCEPTIF. ...................................................................................................................................................... 83

4-2. DIFFERENTS NIVEAUX DINFORMATION. .............................................................................................................. 85 4-3. POURCENTAGE DACCORD EN NE CONSIDERANT QUE LE PLUS GRAND COEFFICIENT DES VECTEURS, EXPERT :
ANNOTATION INITIALE, NAF : ANNOTATION DES SUJETS DU TEST PERCEPTIF, AUTOMATIQUE : DETECTION AUTOMATIQUE. ................................................................................................................................................. 85

tel-00624085, version 1 - 15 Sep 2011

4-4. LES RESULTATS DU CHOIX LIBRE POUR LEMOTION PERUE. ................................................................................ 86 4-5. POURCENTAGE DE CAS OU LA VALENCE EST EN CONTRADICTION AVEC LES ETIQUETTES EMOTIONS PAR
EMOTION.

POUR TOUS LES SEGMENTS , LA VALENCE EST COMPAREE A CELLE DE LEMOTION MAJEUR ET POUR

SANS MINEUR , ON NE REGARDE QUE LES SEGMENTS ANNOTES AVEC UNE SEULE ETIQUETTE. LE NOMBRE TOTAL
DE SEGMENTS EST INDIQUE ENTRE PARENTHESES).

............................................................................................ 87

5-1. SYNTHESE DES RESULTATS EMPIRIQUES POUR L'EFFET DES EMOTIONS SUR LES PARAMETRES VOCAUX (EXTRAIT [SCHERER ET AL. 2003], [JUSLIN ET LAUKKA 2003],,[JUSLIN ET SCHERER 2005] ) < "PLUS PETIT/ LENT/
PLAT/ETROIT"; > "PLUS GRAND/HAUT/RAPIDE/PENTU/LARGE" ;=EGAL AU "NEUTRE"; <>

: DES ETUDES ONT

REPORTE A LA FOIS DES RESULTATS PLUS GRAND ET PLUS PETITS. LES RESULTATS SURLIGNES EN GRIS CONCERNENT LES DONNEES NATURELLES OU INDUITES. ........................................................................................................ 101

5-2. RESUME DES DIFFERENTS PARAMETRES PARALINGUISTIQUES EXTRAITS. ............................................................. 111 5-3. COMPARAISON ENTRE LA REVIEW DE SCHERER (CF. 5-1) ET LES DONNEES CEMO. LES CONCLUSIONS PARTAGEES
SONT SURLIGNEES EN JAUNE ET CELLES DIFFERENTES BARREES EN ROUGE. ...................................................... 114

6-1. FONCTIONS NOYAUX LES PLUS UTILISEES. R, D ET SONT DES PARAMETRES DES FONCTIONS NOYAUX. ................. 126 6-2. 15 MEILLEURS PARAMETRES (SUR 129) POUR 4 TACHES DIFFERENTES. PEUR/NEUTRE, COLERE/NEUTRE, PEUR/COLERE ET PEUR/COLERE/SURPRISE. ................................................................................................... 132 6-3. ALGORITHMES ET SELECTION DES ATTRIBUTS : COMPARAISON DES PERFORMANCES NEUTRE/NEGATIF (PEUR ET COLERE); RR SCORE AVEC LES MEILLEURS ATTRIBUTS ET ALLATT: TOUS LES ATTRIBUTS. LE
DE SEGMENTS BIEN CLASSIFIES POUR 30 RUNS MONTRE LA MOYENNE

. LE NOMBRE ENTRE PARENTHESES EST LA DEVIATION STANDARD.

...................................................................................................................................................................... 133 6-4. ALGORITHMES ET SELECTION DES ATTRIBUTS : COMPARAISON DES PERFORMANCES DE DETECTION POSITIF/NEGATIF AVEC LES MEILLEURS PARAMETRES ; ALLATT: TOUS LES PARAMETRES. LE
DE SEGMENTS BIEN CLASSIFIES POUR 100 RUNS MONTRE LA MOYENNE

. LE NOMBRE ENTRE PARENTHESES EST LA DEVIATION

STANDARD. ..................................................................................................................................................... 134

- 186 -

Liste des tableaux


6-5. LES DIFFERENTS TYPES DINDICES EXTRAITS ET LEUR NOMBRE. ......................................................................... 141 6-6. NOMBRE DE PARAMETRES SELECTIONNES POUR CHAQUE CLASSE DE PARAMETRES. ............................................. 142 6-7. SOUS-CORPUS UTILISE POUR DES TESTS AVEC UN MODELE LEXICAL ET PARALINGUISTIQUE. ................................ 149 6-8. REPARTITION POUR LES 4 CLASSES AVEC LES MODELES LEXICAUX ET PROSODIQUES. .......................................... 149 6-9. FREQUENCE DES EMOTIONS DANS LE CORPUS AIBO POUR LE DECOUPAGE EN CHUNKS. ............................... 151 6-10. PARAMETRES ET CLASSIFIEURS : PAR SITE, # DE PARAMETRES AVANT/APRES LA SELECTION DES ATTRIBUTS ; # PAR
TYPE DE PARAMETRES, ET PAR DOMAINE; CLASSIFIEUR UTILISE, RR ET CL SCORES, UTILISE OU NON POUR LE

ROVER ; DE [SCHULLER ET AL. 2007A] ......................................................................................................... 152 6-11. CLASSIFICATION EN COMBINANT LES MEILLEURS PARAMETRES PARMI LES 381 DE TOUS LES SITES AVEC 3
CLASSIFIEURS. ................................................................................................................................................ 152

6-12. RESULTATS DE LA CLASSIFICATION, # : NOMBRE DE PARAMETRE PAR TYPE DATTRIBUTS ; F-SCORES POUR TOUS
LES PARAMETRES (FULL) OU UN ENSEMBLE AVEC UN NOMBRE REDUIT DE PARAMETRES

( REDUCED) EN UTILISANT

SVM OU RANDOM FORREST ( RF)[SCHULLER ET AL. 2007A]............................................................................ 153

tel-00624085, version 1 - 15 Sep 2011

6-13. DEFINITION DES EMOTIONS EXPRIMEES DANS GEMEP.................................................................................... 159 6-14. LES DONNEES GEMEP (5 HOMMES/5 FEMMES). ............................................................................................. 160 6-15. MATRICE DE CONFUSION POUR LE CLASSIFIEUR PEUR/COLERE/TRISTESSE/SOULAGEMENT (AVEC UNIQUEMENT
DES INDICES ACOUSTIQUES) POUR DES SEGMENTS DU CORPUS CEMO(APPELANTS) EN APPRENTISSAGE ET EN TEST AVEC DES LOCUTEURS DIFFERENTS DE CEUX UTILISES POUR LAPPRENTISSAGE ; SGTS INDIQUE LE NOMBRE DE SEGMENTS CLASSIFIES. LES RESULTATS SONT DONNES EN POURCENTAGE PAR EMOTION. PAR EXEMPLE, 21% DES SEGMENTS

PEUR ONT ETE RECONNUS COMME DE LA COLERE. .................................................................... 161

6-16. MATRICES DE CONFUSION POUR LES SEGMENTS DU CORPUS GEMEP (INQ : INQUIETUDE ; PEU : PEUR IRR :
IRRITATION ; COL : COLERE ; TRIS : TRISTESSE ;DES :DESESPOIR ; SOUL : SOULAGEMENT ; LE NOMBRE ENTRE PARENTHESES DONNE LE NOMBRE DE SEGMENTS PAR EMOTION) AVEC LE MEME CLASSIFIEUR QUE LE

6-15

ENTRAINE SUR LES DONNEES CEMO. LES RESULTATS SONT DONNES EN POURCENTAGE PAR EMOTION POUR CHAQUE MODE (NORMAL, PEU INTENSE, INTENSE, MASQUE). PAR EXEMPLE EN MODE NORMAL, 8% DES SEGMENTS INQUIETUDES ONT ETE RECONNUS COMME DE LA PEUR. .................................................................................. 162

6-17. MATRICES DE CONFUSION POUR LES DONNEES (NORMALES + INTENSES) DU CORPUS GEMEP APRES AVOIR RETIRE 3 MAUVAIS LOCUTEURS (INQ : INQUIETUDE ; PEU : PEUR IRR : IRRITATION ; COL :COLERE ; TRIS :TRISTESSE ;
DES :DESESPOIR ; SOUL : SOULAGEMENT ; LE NOMBRE ENTRE PARENTHESES DONNE LE NOMBRE DE SEGMENTS PAR EMOTION) AVEC LE MEME CLASSIFIEUR QUE LE

6-15 ENTRAINE SUR LES DONNEES CEMO. LES RESULTATS SONT ! , 5% DES SEGMENTS PRONONCES AVEC INQUIETUDE ONT ETE

DONNES EN POURCENTAGE PAR EMOTION PUIS EN DETAILLANT PAR RAPPORT AU TYPE DE CONTENU. PAR EXEMPLE POUR LA PHRASE 1 NE KAL IBAM SOUD MOLEN

RECONNUS COMME DE LA PEUR. ..................................................................................................................... 163

6-18. RESULTAT EN POURCENTAGE PAR EMOTION POUR LA CLASSIFICATION PEUR/COLERE/TRISTESSE/SOULAGEMENT


SUR LES DONNEES GEMEP EN APPRENTISSAGE ET EN TEST. LES DONNEES ONT ETE ENTRAINEES AVEC UN SVM SUR LES EMOTIONS PEUR, COLERE, TRISTESSE ET SOULAGEMENT DE 7 LOCUTEURS ET TESTEES SUR LES 3 LOCUTEURS RESTANTS. LES NOMBRES ENTRE PARENTHESES CORRESPONDENT AU NOMBRE DE SEGMENTS TESTES. ................ 164

- 187 -

Liste des tableaux


6-19. MATRICE DE CONFUSION EN POURCENTAGE PAR EMOTION POUR LES DONNEES CEMO TESTEES AVEC UN MODELE
ENTRAINE SUR GEMEP. ................................................................................................................................. 165

tel-00624085, version 1 - 15 Sep 2011

- 188 -

Bibliographie

BIBLIOGRAPHIE
Abrilian, S., L. Devillers and J.-C. Martin (2006). Annotation of Emotions in Real-Life video Interviews: Variability between Coders. LREC. Adank, P. M.Vowel normalization : a perceptual-acoustic study of Dutch vowels. These de doctorat,2003Radboud University Nijmegen Adda-Decker, M., Lamel, L. (1999). Pronunciation variants across system configuration, language and speaking style. Speech Communication. 29: p. 83-98. Albrecht, I., M. Schrder, J. Haber and H.-P. Seidel (2005). Mixed feelings: Expression of nonbasic emotions in a muscle-based talking head. Virtual Reality. 8: p. 201-212. Ang, J., R. Dhillon, A. Krupski, E. Shriberg and A. Stolcke (2002). Prosody-Based Automatic Detection of Annoyance and Frustration in Human-Computer Dialog. International Conference on Spoken Language Processing, Denver. 3: p. 2037-2040. Arnold, M. B. (1960). Emotion and personality, New York: Columbia University Press. Austin, J. L. (1962). How to Do Things With Words. Cambridge, Paperback: Harvard University Press. Averill, J. R. (1975). A semantic atlas of emotional concepts. JSAS: Catalog of Selected Documents in Psychology. 5: p. 330. Averill, J. R. (1980). A Constructivist View of Emotion. Emotion theory, research and experience vol1. Theories of Emotion. R. Plutchik and H. Kellerman. New York, Academic Press: p: 849-855. Averill, J. R. (1994). In the eyes of the beholder. The nature of emotion. P. Ekman. Averill, J. R. (1996). An Analysis of Psychophysiological Symbolism and Its Influence on Theories of Emotion. The Emotions. Social, Cultural and Biological Dimensions. R. Harr and W. G. Parrott. Averill, R. J. (1989). A constructivist view of emotion. Emotion theory, research and experience vol1. H. Kellerman: p: 305-339. Ax, A. F. (1953). The physiological differentiation between fear and anger in humans. Psychosomatic Medicine. 15: p. 433-442. Banse, R. and K. R. Scherer (1996). Acoustic profiles in vocal emotion expression. Journal of Personality and Social Psychology. 70(3): p. 614-636. Bnziger, T., H. Pirker and K. S. Scherer (2006). GEMEP - GEneva Multimodal Emotion Portrayals: A corpus for the study of multimodal emotional expressions. Proceedings of LREC'06 Workshop on Corpora for Research on Emotion and Affect, Genoa: p. 15-19. Bnziger, T. , K. R. Scherer (2007). Using Actor Portrayals to Systematically Study Multimodal Emotion Expression: The GEMEP Corpus. ACII : p. 476-487 Barras, C., E. Geoffrois, Z. Wu and M. Liberman (2000). Transcriber : Development and Use of a Tool Assisting Speech Corpora Production. Speech Communication. 33 (1): p. 5-22. Batliner, A.; Warnke, V.; Nth, E.; BUCKOW, J.; HUBER, R.; NUTT, M.( 1998) How to label accent position in spontaneous speech automatically with the help of syntactic-prosodic boundary labels. Technical Report. Batliner, A., K. Fisher, R. Huber, J. Spilker and E. Noth (2003). How to Find Trouble in Communication. Speech Communication. 40: p. 117-143. Batliner, A., C. Hacker, S. Steidl, E. Nth, S. D'Arcy, M. Russell and M. Wong (2004). "You stupid ting box"- children interacting with the AIBO robot: A cross-linguistic emotional speech corpus. 4th internacional Conference on Language Resources and Evaluation: p. 171-174. Batliner, A., R. Kompe, A. Kieling, M. Mast, H. Niemann and E. Nth (1998). M = Syntax + Prosody: A syntactic-prosodic labelling scheme for large spontaneous speech databases. Speech Communication. 25: p. 193-222. Batliner, A., S. Steidl, B. Schuller, D. Seppi, T. Vogt, L. Devillers, L. Vidrascu, N. Amir, L. Kessous and V. Aharonason (2007). The Impact of F0 Extraction Errors on the Classification of - 189 -

tel-00624085, version 1 - 15 Sep 2011

Bibliographie Prominence and Emotion. Proceedings of the 16th International Congress of Phonetic Sciences (ICPhS), Saarbrcken: p. 2201-2204. Bergeri, I., R. Michel and J. P. Boutin (2002). Pour tout savoir ou presque sur le coefficient kappa... Mdecine tropicale. 62: p. 634-636. Boersma, P. and D. Weenink (2005). Praat: doing phonetics by computer (Version 4.3.14) [Computer program]. Retrieved May 26, 2005, from http://www.praat.org/. Boite, R., H. Bourlard, T. Dutoit, J. Hancq and H. Leich (1999). Traitement de la parole. Lausannes. Brenner, C. (1980). A psychoanalytic theory of affects. Emotion theory, research and experience vol1. R. Plutchik and H. Kellerman. New York, Academic Press: p: 341-348. Cacioppo, J. T., G. G. Berntson, J. T. Larsen, K. M. Poehlmann and T. A. Ito (2000). The psychophysiology of emotion. Handbook of emotions. R. Lewis and J. M. Haviland-Jones. New York: Guilford: p: 173-191. Caffi, C. and R. W. Janney (1994). Toward a pragmatics of emotive communication. Journal of pragmatics. 22. Campbell, N. and P. Mokhtari (2003). Voice Quality : the 4th Prosodic dimension. 15th ICPhS(Barcelona). Carver, C. S. (2001). Affect and the functional bases of behavior: On the dimensional structure of affective experience. Personality and Social Psychology Review. 5: p. 345-356. Chih, W. H., C. C. Chi and J. L. Chih (2003). A practical Guide to Support Vector Classification. http://www.csie.ntu.edu.tw/~cjlin/papers/guide/guide.pdf. Childers , D. G. (1978). Modern spectrum analysis, IEEE Press. Clavel, C.Analyse et reconnaissance des manifestations acoustiques des motions de type peur en situations anormales,2007-Doctorat Signal et Images, TSI Traitement du Signal et des Images, ENST, p.195 Clore, G. L. (1994). Why emotions are felt. The nature of emotion: Fundamental questions. P. Ekman and R. J. Davidson, New York: Oxford University Press: p: 103-111. Cohen, J. (1960). A coefficient of agreement for nominal scales. Educ Psychol Meas. 20: p. 27-46. Cohen, J. (1968). Weighted kappa : nominal scale agreement with provision for scaled disagreement or partial credit. Psychological Bulletin. 70: p. 213-220. Cornelius, R. R. (1996). The science of emotion : research and tradition in the psychology of emotions, Upper Saddle River, NJ: Prentice-Hall. Cornujols, A. (2002). Une introduction aux SVM. Bulletin n51 de l'AFIA (Association Franaise d'Intelligence Artificielle). Cornujols, A. and L. Miclet (2002). Apprentissage artificiel, Eyrolles. Cowie, R. (2000). Emotional states expressed in speech. In describing the emotional states expressed in speech. Proc ISCA ITRW on Speech and Emotion: Developing a Conceptual Framework for Research: p. 224-231. Cowie, R. (2007). Emotion: concepts and definitions(and perhaps a declaration). humaine Conceptualising emotion workshop, Haifa: http://emotionresearch.net/ws/conceptualizingemotion/concepts%20and%20definitions%203.ppt/view. Cowie, R., E. Douglas-Cowie, S. Savvidou, E. McMahon, M. Sawey and M. Schrder (2000). Feeltrace: an instrument of recording perceived emotion in real-time. Proc ISCA ITRW on Speech and Emotion: Developing a Conceptual Framework for Research: p. 224-231. Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika. 16: p. 297-334. Damasio, A. (1994). L'erreur de Descartes, New York: Grosset/Putnam. Darwin, C. (1872). The expression of emotions in man and animals. New York, Philosophical library. Dellaert, F., T. Polzin and A. Waibel (1996). Recognizing Emotion In Speech. ICSLP. - 190 -

tel-00624085, version 1 - 15 Sep 2011

Bibliographie Devillers L., (2006) Les motions dans les interactions homme-machine : perception, dtection et gnration. Thse d'Habilitation diriger des Recherches, Universit Paris-Sud/LIMSI . Devillers, L., S. Abrilian and J.-C. Martin (2005a). Representing real life emotions in audiovisual data with non basic emotional patterns and context features. ACII. Devillers, L., I. Vasilescu and L. Lamel (2002). Annotation and detection of emotion in a task oriented human-human dialog corpus. International Standards for Language Engineering, Edinburgh. Devillers, L., I. Vasilescu and L. Lamel (2003a). Emotion detection in task-oriented dialogs corpus. IEEE ICME(Baltimore). Devillers, L., I. Vasilescu and C. Mathon (2003b). Acoustic cues for perceptual emotion detection in task-oriented human-human corpus. 15th International Congress of Phonetic Sciences. Devillers, L., I. Vasilescu and L. Vidrascu (2004). Anger versus Fear detection in recorded conversations. Speech Prosody, Nara, Japon. Devillers, L. and L. Vidrascu (2006a). Real-life emotions detection with lexical and paralinguistic cues on Human-Human call center dialogs. Interspeech. Devillers, L. and L. Vidrascu (2006b). Reprsentation et Dtection des motions dans des donnes issues de dialogues enregistrs dans des centres d'appels : des motions mixtes dans des donnes relles. numro spcial " Interaction Emotionnelle ", Revue Des Sciences et Technologies de l'Information, srie Revue d'Intelligence Artificielle. 20(4-5) : p. 447-476. Devillers, L. and L. Vidrascu (2007). Positive and Negative emotional states behind the laugh in spontaneous spoken dialogs. workshop The phonetics of Laughter, Saarbrucken. Devillers, L., L. Vidrascu and L. Lamel (2005b). Challenges in real-life emotion annotation and machine learning based detection. Neural Networks. 18. Ekman, P. (1992). An argument for basic emotions. Cognition and Emotion. 6: p. 169-200. Ekman, P. and R. J. Davidson (1994). The nature of Emotion : Fundamental questions, New York: Oxford University. Ekman, P. and A. J. Fridlung (1987). Assessment of facial behavior in affective disorders. Depression and Expressive Behavior. J. D. Maser. Hillsdale: p: 33-56. Fehr, B. and J. A. Russell (1984). Concept of emotion viewed from a prototype perspective. Journal of experimental psychology : General. 113: p. 464-486. Fernandez, R. and R. Picard (2003). Modeling Drivers' Speech Under Stress. Speech Communication. 40. Fischer, A. (1993). Sex differences in emotionality: fact or stereotype. Feminism and Psychology. 3: p. 303-318. Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological Bulletin. 76: p. 378-382. Fnagy (1983). La vive voix. Essais de psycho-phontique. Forbes-Riley, K. and D. Litman (2004). Predicting Emotion in Spoken Dialogue from Multiple Knowledge Sources. Chapter of the Association for Computational Linguistics (HLT/NAACL). Freund, Y. and R. E. Shapire (1996). Experiments with a new boosting algorithm. 19th International Conference on Machine Learning: p. 148-156. Frick, R. W. (1986). The prosodic expression of anger: Differentiating threat and frustration. Aggressive Behavior. 12: p. 121128. Fridlund, A. J. (1991). The sociality of solitary smiles: Effects of an implicit audience. Journal of Personality and social psychology bulletin. 60: p. 229-240. Gauvain, J. L. (2002). The LIMSI broadcast news transcription system. Speech Communication. 37 no. 1-2: p. 89-108. . Gellhorn, E. and G. N. Loofbourrow (1963). Emotions and Emotional Disorders: A Neurophysiological Study. New York. Greasley, P., C. Sherrard and M. Waterman (2000). Emotion in Language and Speech: Methodological issues in Naturalistic Approaches. Languaga and Speech. 43: p. 355-375. - 191 -

tel-00624085, version 1 - 15 Sep 2011

Bibliographie Grimm, M. and K. Kroschel (2007). Emotion Estimation in Speech Using a 3D Emotion Space Concept. Robust Speech Recognition and Understanding. M. Grimm and K. Kroschel. Vienna, Austria, I-Tech Education and Publishing. Grimm, M., K. Kroschel, E. Mower and S. Narayanan (2007). Primitives-Based Evaluation and Estimation of Emotions in Speech. Speech Communication. 49(10-11). Gross, J. J. and R. W. Levenson (1995). Emotion elicitation using films. Cognition and Emotion. 9: p. 87108. Grossberg, J. M. and H. K. Wilson (1968). Physiological changes accompanying the visualization of fearful and neutral situations. Journal of Personality and Social Psychology. 10: p. 124-133. Hall, M. A.Master Thesis, Correlation based feature selection for Machine Learning,1999-Department of Computer Science, University of Waikato, Hall, M. A. and G. Holmes (2003). Benchmarking attribute selection techniques for discrete class data mining. IEEE Transactions on Knowledge & Data Engineering. 15: p. 1437-1447. Hamilton, V., G. Bower and N. Frijda (1988). Cognitive perspectives on emotion and motivation, Springer. Hardy, H., K. Baker, L. Devillers, L. Lamel, S. Rosset, T. Strzalkowski, C. Ursu and N. Webb (2002). Multi-layer Dialogue Annotation for Automated Multilingual Customer Service. International Standards for Language Engineering workshop. Hebb, D. O. (1972). Textbook of psychology, Philadelphia: Saunders. Hess, U. (2006). Emotion ressentie et simule. Cognition et motions, Kirouak, G.: p: 115-127. Hirst, D. and A. Di Cristo (1998). A survey of intonation systems. Intonation systems A survey in twenty languages. D. Hirst and A. Di Cristo. Cambridge, CambridgeUniversity Press: p: 1-45. Hochschild, A. R. (1979). Emotion work, Feeling rules, Social structure. American Journal of Sociology. 85: p. 551-575. Howell, D. C. (1999). Mthodes statistiques en sciences humaines. Izard (1972). Patterns of emotions : a new analysys of anxiety and depression. New York, Academic Press. James, W. (1884). What is an Emotion? Mind. 9: p. 188-205. Juslin, P. N. and P. Laukka (2003). Communication of emotions in vocal expression and music performance: different channels same code? Psychological Bulletin. 129 (5): p. 770-814. Juslin, P. N. and K. R. Scherer (2005). Vocal expression of affect. The New Handbook of Methods in Nonverbal Behavior Research. J. Harrigan, R. Rosenthal and K. R. Scherer. Oxford, UK, Oxford University Press: p: 65-135. Kappas, A., U. Hess and K. R. Scherer (1991). Voice and emotion. Fundamentals of nonverbal behavior. R. S. Feldman and B. Rim, Cambridge and New York: Cambridge University Press.: p: 200-238. Kaufman, L. and P. J. Rousseeuw (1990). Finding Groups in Data: An Introduction to Cluster Analysis. New York. Kleinginna, P. R. and A. M. Kleinginna (1981). A Categorized List of Emotion Definitions, with Suggestions for a Consensual Definition. Motivation and Emotion. 5 (4): p. 345-359. Kodratoff, Y. and M. Bars (1991). Base terminologique de l'intellingence artificielle. Paris. Landis, J. R. and G. G. Koch (1977). The measurement of observer agreement for categorical data. Biometrics. 33: p. 159-174. Landwehr, N., M. Hall and E. Frank (2003). Logistic Model Trees. ECML. Lang, P. J., M. M. Bradley and B. N. Cuthbert (1997). Motivated attention: Affect, activation, and action. Attention and orienting: Sensory and motivational processes. N. Mahwah, Lawrence Erlbaum.: p: 97-135. Larsen, R. J., E. I. Diener and p. (Ed.), 13. Newbury Park, CA: Sage. (1992). Promises and problems with the circumplex model of emotion. Review of personality and social psychology. M. S. Clark: p: 25-59. Lazarus, R. S. (1991). Emotion and Adaptation, New York: Oxford University Press. Lazarus, R. S. (1998). Fifty years of the research and theory of R.S. Lazarus. - 192 -

tel-00624085, version 1 - 15 Sep 2011

Bibliographie Lazarus, R. S., A. D. Kanner and S. Folkman (1980). Emotions: A cognitive-phenomenological analysis. Theories of emotion. R. Plutchik and H. Kellerman. New York: Academic Press: p: 189-217. Lee, C. M. and S. Narayanan (2004). Towards detecting emotions in spoken dialogs. IEEE Transactions on Speech and Audio Processing. Lee, C. M., S. Narayanan and R. Pieraccini (2001). Recognition of Negative Emotions from the Speech Signal. Automatic Speech Recognition and Understanding ASRU, Trento, Italy. Lee, C. M., S. Narayanan and R. Pieraccini (2002). Classifying Emotions in Human-Machine Spoken Dialogs. ICME. Lee, C. M., S. Yildirim, M. Bulut, A. Kazemzadeh, C. Busso, Z. Deng, S. Lee and S. S. Narayanan (2004). Emotion recognition based on phoneme classes. 8th International Conference on Spoken Language Processing (ICSLP 04), Jeju Island, Korea: p. 889-892. Levenson, R. W., L. L. Carstensen, F. W. V. and P. Ekman (1991). Emotion, physiology,and expression in old age. Psychology and Aging. 6(28-35). Levenson, R. W., P. Ekman and W. V. Friesen (1990). Voluntary facial action generates emotionspecific autonomic nervous system activity. Psychophysiology. 27: p. 363-384. Liberman, P. and S. B. Michaels (1962). Some aspects of fundamental frequency and envelope amplitude as related to the emotional content of speech. J.Acoustic. Soc. America. 34: p. 922927. Linard, J. S. (1977). Les processus de la communication parle. Introduction l'analyse et la synthse de la parole. Paris, Masson. Liscombe, J. (2006). Detecting Emotion in Speech: Experiments in Three Domains. Proceedings of HLT/NAACL, New York. Liscombe, J., G. Riccardi and D. Hakkani-T r (2005). Using Context to Improve Emotion Detection in Spoken Dialogue Systems. Interspeech, Lisbon, Portugal. Marchal, A. (1980). Les sons et la parole. Montral. Martin, L. L. (1986). Set/Reset: Use and Disuse of Concepts in Impression Formation. Journal of Personality and Social Psychology. 51 (3): p. 493-504. Narayanan, S. (2002). Towards modelling user behaviour in human-machine interactions: Effect of Errors and Emotions. ISLE Workshop(Edinburgh). Nass, C., I.-M. Jonsson, H. Harris, B. Reaves, J. Endo, S. Brave and L. Takayama (2005). Increasing safety in cars by matching driver emotion and car voice emotion. CHI 2005, Portland, Oregon, USA. Ortony, A., G. L. Clore and A. Collins (1988). The Cognitive Structure of Emotions, New York: Cambridge University Press. Ortony, A. and T. J. Turner (1990). What's basic about basic emotion? Psychological Review. 97: p. 315-331. Osgood, C., W. H. May and M. S. Miron (1975). Cross-cultural Universals of Affective Meaning. Urbana, University of Illinois Press. Osgood, C. E., G. J. Suci and P. H. Tannenbaum (1957). The measurement of meaning, Urbana: University of Illinois Press. Oudeyer, P. Y. (2003). The production and recognition of emotions in speech: features and algorithms. Int. J. Hum. Comput. Stud. 59(1-2): p. 157-183. Parrott, W. G. and R. Harr (1996). The social dimension of emotions. The Emotions. Social, Cultural and Biological Dimensions. London, Sage publications: p: 39-56. Petrushin, V. (1999). Emotion in Speech: Recognition and Application to Call Centers. Artificial Neural Net. In Engr. (ANNIE): p. 7-10. Philippot, P. (1993). Inducing and assessing differentiated Emotion-Feelind states in the laboratory Louvain. Cognition and emotion: p. 171-193. Picard, R. (1997). Affective computing. Cambridge, MIT Press. - 193 -

tel-00624085, version 1 - 15 Sep 2011

Bibliographie Plutchik, R. (1962). The Emotions: Facts, Theories and a New Mode. New York, Random House. Plutchik, R. (1984). Emotions: A General Psychoevolutionary Theory. Approaches to Emotion. K. R. Scherer and P. Ekman, Erlbaum Hillsdale NJ: p: 293-317. Plutchik, R. and H. Kellerman (1990). Emotion theory, research and experience vol1. Theories of Emotion. New York, Academic Press. Polzin, T. and A. Waibel (1998). Detecting Emotions in Speech. Cooperative multimodal communication, Tilburg Netherlands. Roesch, E. B., J. R. Fontaine and K. R. Scherer (2006). The world of emotions is two-dimensional .. or is it? Presentation at the 3rd HUMAINE Summer School, Genova: http://emotion-research.net/ws/summerschool3/. Rosenberg, A. and E. I. Binkowski (2004). Augmenting the kappa statistic to determine inter-annotator reliability for multiply labeled data points. Proceedings of the Human Language Technology Conference and Meeting of the North American Chapter of the Association for Computational Linguistics (HLT/NAACL). Rosset, S., D. Tribout and L. Lamel (2007). Multi-level Information and Automatic dialog Act Detection in Human-Human Spoken Dialogs. Speech Communication. Rossi, M., A. Di Cristo, D. Hirst, P. Martin and Y. Nishinuma (1981). L'intonation De l'acoustique la smantique. Russell, J. A. and A. Mehrabian (1977). Evidence for a three-factor theory of emotions. Journal of Research in Personality. 11: p. 273-294. Sander, D., D. Grandjean and K. R. Scherer (2005). A systems approach to appraisal mechanisms in emotion. Neural Networks(18): p. 317-352. Schachter, S. and J. E. Singer (1962). Cognitive, social and physiological determinants of emotional states. Psychological Bulletin. 69: p. 379-399. Scherer, K. R. (1986). Vocal affect expression: A review of research paradigms. Psychological Bulletin 99: p. 143-165. Scherer, K. R. (1989). Vocal correlates of emotion arousal and affective disturbance. Handbook of Psychophysiology: Emotion and social behavior. H. Wagner and A. Manstead. London: Wiley.: p: 165-197. Scherer, K. R. (1993). Neuroscience projections to current debates in emotion psychology. Cognition and Emotion. 7: p. 1-41. . Scherer, K. R. (1998). Analysing Emotion Blends. ISRE. Scherer, K. R. (2003). Vocal communication of emotions : A review of research paradigm. Speech Communication. 40: p. 227-256. Scherer, K. R., R. Banse, H. G. Wallbott and T. Goldbeck (1991). Vocal cues in emotion encoding and decoding. Motivation and Emotion. 15: p. 123-148. Scherer, K. R. and G. Ceschi (2000). Criteria for emotion recognition from verbal and nonverbal expression: Studying baggage loss in the airport. Personality and social psychology bulletin. 26: p. 327-339. Scherer, K. R., T. Johnstone and G. Klasmeyer (2003). Vocal expression of emotion. Handbook of the Affective Sciences. R. J. Davidson, H. Goldsmith and K. R. Scherer. Oxford/New York, Oxford University Press: p: 433-456. Scherer, K. R. and J. Sangsue (2006). Le systme mental en tant que composant de l'motion. Cognition et motions, Kirouac, G.: p: 11-37. Scherer, K. R., T. Wranik, J. Sangsue, V. Tran and U. Scherer (2004). Emotions in everyday life: Probability of occurrence, risk factors, appraisal and reaction pattern. Social Science Information. 43: p. 499-570. Schlosberg, H. (1941). A scale for the judgment of facial expressions. Journal of Experimental Psychology and Aging. 29: p. 497-510. Schrder, M. (2000). Experimental study of affect bursts. ISCA workshop "Speech and Emotion": p. 132-137. - 194 -

tel-00624085, version 1 - 15 Sep 2011

Bibliographie Schrder, M., E. Zovato, H. Pirker, C. Peter and F. Burkhardt (2007). W3C Emotion Incubator Group Final Report. Published online: http://www.w3.org/2005/Incubator/emotion/XGR-emotion-20070710. Schuller, B., D. Arsic, F. Wallhoff and G. Rigoll (2006). Emotion recognition in the noise applying large acoustic feature sets. Speech Prosody, Dresden, Germany. Schuller, B., A. Batliner, D. Seppi, S. Steidl, T. Vogt, J. Wagner, L. Devillers, L. Vidrascu, N. Amir, L. Kessous and V. Aharonson (2007a). The Relevance of Feature Type for the Automatic Classification of Emotional User States: Low Level Descriptors and Functionals. Interspeech. Schuller, B., S. Reiter, R. Mller, M. Al-Hames, M. Lang and G. Rigoll (2005). Speaker Independent Speech Emotion Recognition by Ensemble Classification. ICME , 6th International Conference on Multimedia and Expo, IEEE, Amsterdam, The Netherlands. Schuller, B., D. Seppi, A. Batliner, A. Maier and S. Steidl (2007b). Towards more Reality in the Recognition of Emotional Speech. ICASSP, IEEE International Conference on Acoustics, Speech, and Signal Processing, Honolulu, Hawaii: p. 941_944. Shafran, I., M. Riley and M. Mohri (2003). Voice Signature. IEEE Automatic Speech Recognition and Understanding Workshop: p. 31-36 Shaver, P., J. Schwartz, D. Kirson and C. O'Connor (2001). Emotion knowledge: Further Exploration of a Prototype Approach. Emotions in social psychology. W. Parrott. Philadelphia, Psychology Press: p: 26-56. Smith, C. A. and P. C. Ellsworth (1985). Patterns of cognitive appraisal in emotion. Journal of Personality and Social Psychology. 48: p. 813-838. Smith, C. A. and S. Kleinman (1989). Managing emotions in medical school: Students' contacts with the living and the dead. Social Psychology Quarterly. 52: p. 56-69. Smith, C. A. and R. S. Lazarus (1993). Appraisal Components, core relational themes, and the emotions. Cognition and Emotion. 7: p. 233-269. Smith, J. O. and J. S. Abel (1999). Bark and ERB Bilinear Transforms. IEEE Trans. Speech and Audio Proc. 7: p. 697-708. Soren, B. and N. Zacharov (2006). Perceptual Audio Evaluation - Theory, Method and Application. Chichester, John Wiley & Sons. Steidl, S., M. Levit, A. Batliner, E. Nth and E. Niemann (2005). "Of All Things the Measure is Man" Automatic classification of emotions and inter-labeler consistency. IEEE International Conference on Acoustics Speech and Signal Processing. Teukolsky, S. A., W. T. Vetterling and B. P. Flannery (1992). Numerical Recipes in Fortran 77, 2nd ed. Cambridge, U.K., Cambridge University Press. Traum, D. and P. Heeman (1997). Utterance Units Spoken Dialogue Processing in Spoken Language Systems. Lecture Notes in Artificial Intelligence. E. Maier, M. Mast and S. LuperFoy, Springer-Verlag Heidelberg: p: 125-14. Vapnik, V. N. (1998). The Nature of Statistical Learning Theory. Springer. Vidrascu, L. and L. Devillers (2005a). Annotation and Detection of Blended Emotions in Real Human-Human Dialogs Recorded in a Call Center. ICME. Vidrascu, L. and L. Devillers (2005b). Detection of Real-Life Emotions in Call Centers. In InterSpeech, Lisbon. Vidrascu, L. and L. Devillers (2005c). Real-life Emotions Representation and Detection in Call Centers. ACII, Bejing: p. 739-746. Vidrascu, L. and L. Devillers (2006). Real-life emotions in naturalistic data recorded in a medical call center. LREC, Genoa. Vidrascu, L. and L. Devillers (2007). Five emotion classes detection in real-world call center data: the use of various types of paralinguistic features. Paraling', Saarbrucken, p. 11-16. Vieru-Dimulescu, B. and P. Boula de Mareil (2006). Perceptual identification and phonetic analysis of 6 foreign accents in French. ICSLP. - 195 -

tel-00624085, version 1 - 15 Sep 2011

Bibliographie Vogt, T. and E. Andre (2005). Comparing Feature Sets for Acted and Spontaneous Speech in View of Automatic Emotion Recognition. ICME. Wagner, H. L. (1993). On measuring performance in category judgment studies of nonverbal behavior. Journal of Nonverbal behavior. 17. Wierzbicka, A. (1999). Emotions across Languages and Cultures: Diversity and Universals, Cambridge University Press. Williams, C. E. and K. N. Stevens (1972). Emotions and speech : Some acoustical correlates. Journal of the Acoustical Society of America. 52: p. 1238-1250. Witten, I. H. and E. Franck (2005). Data Mining: Practical machine learning tools and techniques, 2nd Edition. San Francisco. Wrede, B. and E. Shriberg (2003). Spotting "Hot Spots" in Meetings : Human Judgements and Prosodic Cues. Eurospeech, Geneva. Wundt, W. (1896). Grundrisse der Psychologie [Outlines of psychology]. Leipzig , Germany. Yacoub, S., S. Simske, X. Lin and J. Burns (2003). Recognition of Emotions in Interactive Voice Response Systems. Eurospeech. Zwick, R. (1988). Another Look ar Interrater Agreement. Psychological Bulletin. 103: p. 374-378.

tel-00624085, version 1 - 15 Sep 2011

- 196 -

PUBLICATIONS
Chapitre douvrages Laurence Devillers, Laurence Vidrascu, Emotion recognition in Speaker classification II , Christian Mller Susanne Schtz (eds.), Springer,-Verlag, p. 34-42. Revues Laurence Devillers, Laurence Vidrascu, Reprsentation et Dtection des motions dans des donnes issues de dialogues enregistrs dans des centres dappels : des motions mixtes dans des donnes relles, numro spcial Interaction Emotionnelle , Revue Des Sciences et Technologies de l'Information, srie Revue d'Intelligence Artificielle, Volume 20, n4-5/2006, p. 447-476. Laurence Devillers, Laurence Vidrascu, and Lori Lamel. Challenges in real-life emotion annotation and machine learning based detection. Journal of Neural Networks, 18/4, 2005, p.407-422. Actes de colloques internationaux Laurence Vidrascu, Laurence Devillers, Five emotion classes detection in real-world call center data: the use of various types of paralinguistic features, Paraling07, 2007, p. 11-16. Laurence Devillers, Laurence Vidrascu, Positive and Negative emotional states behind the laugh in spontaneous spoken dialogs The phonetics of Laughter, Saarland, 2007 Bjrn Schuller, Anton Batliner, Dino Seppi, Stefan Steidl, Thurid Vogt, Johannes Wagner, Laurence Devillers, Laurence Vidrascu, Noam Amir, Loic Kessous, Vered Aharonson., The Relevance of Feature Type for the Automatic Classification of Emotional User States: Low Level Descriptors and Functionals, Interspeech 2007, Anvers pp. 2253-2256 Batliner, Anton; Steidl, Stefan; Schuller, Bjrn; Seppi, Dino; Vogt, Thurid; Devillers, Laurence; Vidrascu, Laurence; Amir, Noam; Kessous, Loic; Aharonason, Vered. The Impact of F0 Extraction Errors on the Classification of Prominence and Emotion In: IPA (Eds.) Proceedings of the 16th International Congress of Phonetic Sciences (ICPhS 2007 Saarbrcken 2007, pp. 2201-2204 Anton Batliner, Stefan Steidl, Bjrn Schuller, Dino Seppi, Kornel Laskowski, Thurid Vogt, Laurence Devillers, Laurence Vidrascu, Noam Amir, Loic Kessous, Vered Aharonson: Combining Efforts for Improving Automatic Classification of Emotional User States, IS-LTC,2006 Laurence Vidrascu, Laurence Devillers, Real-life emotions in naturalistic data recorded in a medical call center, LREC,Genoa, 2006 Laurence Devillers, Laurence Vidrascu, Real-life emotions detection with lexical and paralinguistic cues on Human-Human call center dialogs, Interspeech 2006. Laurence Vidrascu and Laurence Devillers. Real-life Emotions Representation and Detection in Call Centers. In ACII, Bejing, October 2005 : p. 739-746. Laurence Vidrascu and Laurence Devillers. Annotation and Detection of Blended Emotions in Real Human-Human Dialogs Recorded in a Call Center. In ICME, June 2005. Laurence Vidrascu and Laurence Devillers. Detection of Real-Life Emotions in Call Centers. In InterSpeech, Lisbon, September 2005. Laurence Devillers, Iona Vasilescu, and Laurence Vidrascu. Anger Versus Fear Detection in Recorded Conversations. In Speech Prosody, Nara, March 2004. Actes de colloques franais Laurence Vidrascu, Laurence Devillers. Dtection de 2 5 classes d'motions sur des donnes naturelles enregistres dans un centre dappel, RJCP 2007. - 197 tel-00624085, version 1 - 15 Sep 2011