Vous êtes sur la page 1sur 11

Prosodie et motion

Vronique Auberg Institut de la Communication Parle UMR CNRS 5009 INPG/Universit Stendhal 38040 Grenoble cedex auberge@icp.inpg.fr http://www.icp.inpg/EMOTION
Rsum. Les thories cognitives des motions avancent que les traitements rationnels ne peuvent tre dissocis des traitements motionnels. Aussi les clones parlants et entendants auraient beaucoup gagner sils modlisent les affects et leurs expressions. La parole reoit lexpressivit linguistique, les attitudes pragmatiques et les expressions directes de motions, le vecteur central tant la prosodie. Un enjeu de la modlisation de la prosodie motionnelle, qui passe par une mthodologie exprimentale rigoureuse, est la construction de bases de donnes authentiques denses et reprsentatives. On peut attendre que cette thmatique merge certainement au centre des interactions personne-machine, et sera le champ de validation directe des avances thoriques en linguistique, phontique, psychologie et neurologie.

1 INTRODUCTION
Les avances de la phontique et phonologie, les nouvelles thories linguistiques nous montrent que la dichotomie langue et langage na pas de frontire claire. La parole, dans toutes ses motions, est la fois un ensemble de signaux de lappareil sensori-moteur et des vnements du langage. Produite pour/comme tre perue (perception-action), communicant les codes dans un systme inter-personnel, elle intgre la complexit de la machine biologique, du systme cognitif du langage et celle de linteraction motive. Un clone incarn parlant en situation relle de communication verbale face face rsulte dj dun tel casse-tte

264

Actes des deuximes assises nationales du GdR I3

thorique et technologique, que lon est en droit de se demander si le douer de la capacit de produire et percevoir des indices motionnels nest pas dune importance priphrique, en tout cas relve des problmes rsoudre lorsque ceux du code seront mieux matriss. Pourtant dans lAntiquit dj, la communication des motions dans le discours tait avanc comme un fait majeur. Aujourdhui, des hypothses fortes de la psychologie cognitive et de la neuropsychologie donnent aux motions un statut central : traiter les motions dans linteraction verbale personnemachine najoute pas seulement de la naturalit, mais peut permettre de ne pas perturber lefficacit mme de la communication. Un survol rapide de la parole motionnelle montre que la prosodie est le vecteur privilgi des motions dans la parole. En la situant comme un agent intgratif des principales fonctions du systme communicatif, elle est le sige de lexpression directe des motions, du codage des attitudes et des stratgies expressives pour un mme matriel acoustique. Enfin des problmes restent encore ouverts pour mener bien une mthodologie exprimentale de ltude de la parole motionnelle.

2 DES EMOTIONS POUR PARLER, PARLER DES


EMOTIONS
Apprendre la parole cest acqurir lhabilet du contrle multi-modal de figures imposes complexes, en composant avec les contraintes perceptuo-motrices de lappareil de production vocale pour atteindre les cibles phonologiques de sa langue lapparition du premier mot mergeant du babillage concide avec la matrise de lenveloppe prosodique. Cest mettre en place des processus cognitifs sophistiqus pour fabriquer des vnements de langage : un locuteur priv de son aire neurale de Broca, est rduit la production de proto-mots, figures simples de co-articulation de type tan-tan . Depuis les dbuts de la phontique et de la linguistique, les aspects du code sont centraux et les humeurs, motions, sentiments ou passions du sujet parlant sont traits en parallle comme des faits paralinguistiques ou extra-linguistiques selon les diffrentes approches phonostylistiques (voir Fonagy [7] ou Lon [9]), tout au plus, depuis la naissance de la thorie des actes du langage en 1960, les situe-t-on dans linteraction verbale travers les motivations et les intentions du locuteur. Cependant, et de plus en plus, lindpendance entre ce qui relve du conventionnel et ce qui est induit par le contexte est remis en question, que lon situe les motions dans linteraction pragmatique ou dans lcologie intra-personnelle du sujet.

Prosodie et motion

265

2.1 Un dfi thorique


Le courant cognitiviste de la psychologie des motions remet de plus en plus en question la dichotomie fonctionnelle entre traitement des motions et traitements. N. Frijda se sert de la notion de prparation laction pour dcrire les motivations dans lmotion. Emotion et raison fonctionnent mme comme les deux composantes dune seule entit psychologique mergente pour A. Damasio qui affirme dans Descarteserror. Emotion, reason, and the human brain, [6] p 9, que : La capacit dexprimer et ressentir des motions est indispensable la mise en uvre des comportements rationnels. . A. Damasio illustre sa proposition en revisitant ltude dun cas ancien : la suite dune lsion dlimite du cortex prfrontal ventro-mdian, (sige des processus de prise de dcisions et aussi de processus motionnels) auparavant trs sociable, il change radicalement de personnalit, devient grossier et instable, alors que ses comptences cognitives sont intactes. Simplement, il ne prend pas les bonnes dcisions, nutilise pas les processus cognitifs attendus. Exprimer et ressentir les motions est ainsi une base de lvaluation du choix des processus cognitifs de la raison : pour dclencher les traitements adquats la situation, le sujet doit tre dans des tats motionnels bien-forms . Cette hypothse est fondamentale si on veut bien la prendre au compte des actions de langage : le traitement cognitif rationnel quest la production dnoncs langagiers ne serait pas seulement porteur des motions du locuteur qui motivent ses noncs, il serait dcid invitablement en fonction de celles-ci.

2.2 Un enjeu technologique


Que lon essaie de comprendre les mcanismes de la parole ou quon essaie de la simuler dans des artefacts de synthse ou de reconnaissance, la ncessit simpose, si on accepte cette hypothse de dpendance, de prendre en compte les motions, cest--dire la morphologie vocale et langagire de ses expressions par le locuteur, et la perception consciente et inconsciente quen a lallocutaire. Les technologies des affects ne touchent plus simplement lenjeu ergonomique de la naturalit, mais trs directement celui des comptences des systmes dinteraction. Si les systmes de dialogue oral peuvent dans beaucoup dapplications actuelles se passer des motions cest peut-tre parce que ces applications ne ressemblent pas des cologies banales du dialogue homme-homme. On peut peut-tre mme avancer que la composante des affects sera dautant plus ncessaire que les systmes artificiels sinscriront dans des cologies

266

Actes des deuximes assises nationales du GdR I3

relles : comment ne pas perturber le mcanisme psychologique de lattention qui semble fortement li aux motions (laccs linformation est facilit motiv selon les variations motionnelles) ; comment lhumain ragit-il lorsque son mcanisme dempathie (qui commence tre dcrit en neurologie) est face un artefact communicant dont il ne peut viter de traiter des indices comme motionnels, mme si ceux-ci sont de simples biais non contrls ? On peut supposer par exemple que lessentiel du succs du dialogue avec un pilote davion en situation de danger sera dans la cohrence entre le contenu langagier et le contenu motionnel de la voix synthtique. Depuis une dizaine dannes, les avatars, les chatterbots, en interaction communicative avec lhumain commencent tre dous de Belief, Desire & Intention. Ainsi sont ns les Affective Agents, de R. Picard au Medialab-MIT, les Embodied Conversational Interface Agents de J. Cassel ou encore les Believable Social and Emotional Agents de B. Loyall, du projet Oz de lUniversit de Carnegie Mellon. Que doit-on modliser pour simuler les performances du vendeur qui sait vendre, avec des comptences langagires pourtant identiques au vendeur moins efficace? Tant que la modalit est celle de lcrit, les affects des agents prennent forme dans leurs stratgies interactionnelles et leur expressivit langagire. Mais ces technologies visent la communication face face : les clones sont incarns dans un corps et un visage, et prennent la parole synthtique, cest alors lexpression directe de leurs motions, verbale ou non-verbale, qui est galement concerne, et toute la complexit de la multi-modalit faciale (cf. Proceedings des ETRW AVSP), gestuelle (cf. les Actes du colloque Oralit et Gestualit, 2000) et parle des expressions, avec, au centre, une prosodie de la parole qui devra peut-tre aussi tre envisage comme globalement multi-modale.Les actes du premier Workshop International de la communaut scientifique des chercheurs en parole (cf. Proceedings ISCA ETRW on Speech and Emotion, 2000), tmoignent de lparpillement des travaux : il est encore difficile mthodologiquement de situer la technologie vocale dans lhistoire ancienne des thories des motions et dintgrer les connaissances accumules en phontique sur les modles de production de qualit de voix. De plus, si les systmes de parole (prosodique) synthtique ont pu tre tablis jusquici sur des critres dintelligibilit phontique et linguistique (le rythme et la prosodie sont calculs en gnral pour des situations de lecture dnoncs, qui accentuent la prdominance de la fonction de structuration syntaxique de lnonc, les systmes de dialogue oral personne-machine utilisent en gnral les synthtiseurs comme simple sortie pour les noncs oraux symboliques),

Prosodie et motion

267

la synthse dite adaptative qui intgre les structures situationnelles et les motions devra intgrer aussi les modles de linteraction verbale [4]. Un autre enjeu technologique suivi par ceux qui avancent lhypothse de la non optimalisation du systme de perception de lhumain par lhumain (comme D. Massaro par exemple) est quun systme de reconnaissance des motions pourrait augmenter le systme de jugement naturel de lhumain, partir des mmes signaux traits par lhomme et la machine. De toute faon, la communication personne-machine peut tre augmente de capteurs non accessibles dans la perception naturelle de lhumain, si lon suppose nouveau quil nont pas de redondances perues par le systme sensori-moteur humain. Cest le principe du dtecteur de mensonges (issu du courant physiologique des thories des motions), dont on sait de manire empirique quil est efficace lorsquil est interprt par un expert , mais quaucun modle objectif na pu jusqu prsent [14] tre tabli partir des marqueurs somatiques, mme plus complexes ou invasifs que ceux tirs des capteurs biophysiologiques dun dtecteur de mensonges.

3 LES EMOTIONS : UN CADRE THEORIQUE RICHE


Se poser le problme de l'expression des motions travers les vnements de la parole, c'est forcment situer d'abord l'motion dans son contexte thorique gnral : construire un systme automatique de reconnaissance ou de gnration des expressions des motions dpend fortement du sens que lon donne motion. Quels liens entre humeurs (e.g. le stress), motions, attitudes, sentiments, passions ? Une motion est-elle un tat du cerveau, un tat physiologique, psychologique, un processus cognitif, pourquoi et par quel processus est-elle exprime ? Les motions sont-elles catgorielles, finies, relies aux tiquettes communes des lexiques des langues, ou bien rparties dans un espace continu multidimensionnel ? Comment les expressions sont-elles situes dans le processus motionnel, quels types de contrle produit ces expressions ? Peut-on utiliser comme rfrence les marqueurs et les signaux physiologiques, existe-t-il des aires neurales des motions ? Ce dbat avant dtre trs tt celui de la science, en biologie, psychologie, neuropsychologie, linguistique ou sociologie, a t dabord bien sr celui de la philosophie. Il ne parat pas possible de traiter le problme de la parole motionnelle sans se placer dans un cadre thorique, car les technologies posent directement les problmes rsolus diffremment, selon les courants thoriques, de la catgorisation, du niveau dencodage,

268

Actes des deuximes assises nationales du GdR I3

de luniversalit et de la pertinence indicielle des motions. Outre la perspective cognitive introduite par Arnold en 1960, trois autres courants majeurs influencent encore les dbats actuels : la perspective volutionniste (depuis Darwin en 1884) qui tudie principalement les expressions faciales, la perspective physiologique ( la suite de James en 1884 et Lange en 1885) qui met en avant le rle de lactivation physiologique dans le dclenchement des processus motionnels (on se sent triste parce quon pleure), la perspective du constructivisme social (aprs Averill en 1980) qui considre les motions comme le produit de constructions sociales.

4 LA PROSODIE : UN AGENT INTEGRATIF


4.1 La prosodie : la croise des chemins
4.1.1 Dfinir la prosodie : matire ou fonctions ?
La prosodie est un objet complexe de la parole quil nest pas possible de la dfinir dans labsolu, hors de la thorie ou de lapproche exprimentale dans laquelle elle est aborde. Bien quen 1975 Di Cristo rfrenait dj plus de 4000 rfrences bibliographiques, son rle autant que sa structure, son fonctionnement cognitif et maintenant ses structures neurales, sont toujours fortement discuts (voir Actes des Journes Prosodie 2001, Grenoble), sans que se dgage de paradigme rellement objectif. Elle intgre la ralisation de multiples fonctions qui oprent dans les niveaux linguistique (structuration de lnonciation/dmarcation que beaucoup assimile lintonation, modalisation, focalisation), pragmatique (intentions et attitudes), motionnel et idiolectal (ge, sexe, identit). Sa ralisation phontique ne peut pas tre objectivement et strictement extraite du signal par tout ce qui ne fait pas la chane sonore , et est en soi objet de discussions. Un accord est tabli au niveau phontique sur trois paramtres acoustiques de la prosodie : frquence fondamentale, intensit et dure qui sous-tend de dfinir des vnements temporels de segments, objet nouveau de discussions). Mais si on accorde la prosodie la fonction idiolectale, et surtout la fonction motionnelle, on doit ajouter la prosodie les paramtres spectraux du timbre et plus gnralement de la qualit de voix, sauf si on dfinit la prosodie par ses trois paramtres classiques, auquel cas on est face une fonction motionnelle partage entre prosodie et qualit de voix : ainsi dfinir la prosodie par ses fonctions ou par sa nature phontique pose la problme

Prosodie et motion

269

des motions trs diffremment. Enfin, plusieurs thories sopposent ou se compltent quant lencodage phonologique de la prosodie [Rossi bouquin] : modles tonals (de type ToBI) vs. modles par concatnation de contours phontiques (comme celui de lIPO) vs.modles par concatnations de morphmes intonatifs [13] vs. modles de superposition de contours globaux [1].

4.1.2 Une architecture cooprative comme paradigme efficace des structures communicatives
Pour poser le problme de la prosodie dans son ensemble, en intgrant la fonction expressive et la fonctions des expressions au mme titre que toutes celles remplies par la prosodie, on peut situer les fonctions plus globalement, comme tant partages par lensemble des autres structures linguistiques et pragmatiques, et, pour les fonctions des expressions, par les autres modalits, faciale et gestuelle, Dans cette hypothse [1] les fonctions sont mergentes au systme de communication et rparties interactivement entre les diffrents agents du systme, dont la prosodie. Cette hypothse n'est pas modulaire au sens de Fodor puisqu'il n'y a pas de planification par un agent central, mais au sens des principes de l'autoorganisation dirige propose dans les modles de l'intelligence du vivant.

4.2 La prosodie de lexpressivit


Dans cette architecture, lexpressivit, telle quelle est dfinie par Lon [9] est une fonction indirecte des motions, une mta-fonction : cest la stratgie par laquelle se ralisent les fonctions (par exemple le choix lexique&morpho-syntaxe&prosodie pour focaliser). Dans cette optique, seul un modle linguistique global peut reprsenter et gnrer la prosodie expressive dans sa cohrence cooprative.

4.3 La prosodie des attitudes


Lattitude est la fonction directe par laquelle le locuteur informe de son point de vue, par une coopration entre lensemble des agents. Il existe des strotypes prosodiques attitudinaux [7, 9] dont on montre quils sattachent des units de discours et sont perues globalement sur lnonc [1l] et quils sont aisment capturables en synthse [10]. Mais on trouve certains items aussi bien dans les motions que les attitudes (la

270

Actes des deuximes assises nationales du GdR I3

surprise par exemple), et le locuteur possde une comptence, la simulation, qui lui permet de fabriquer intentionnellement des expressions normalement involontaires. Comment alors distinguer attitudes et motions ? Un enjeu majeur est de montrer que la morphologie prosodique des attitudes est toujours cale sur des vnements du discours, tandis que la prosodie des expressions est rgie par les vnements de lcologie du locuteur qui induisent chez lui des changements de son tats motionnels.

4.4 La prosodie des expressions


Lexpression motionnelle est la fonction directe des motions par un contrle involontaire (automatique) du locuteur. La phontique sintresse depuis longtemps aux caractristiques vocales des expressions (pour Laver modal, murmur, laryngalis et tendu ; pour un tat de lart voir Roach [12]) sans donner pour autant de modles qui relient ces caractristiques aux valeurs des motions. En stylistique du franais Lon, Fonagy ont propos des modles sparant clairement expressions et expressivit. Mais ce sont surtout les expressions faciales, aprs Ekman, qui ont fait lobjet de beaucoup dtudes et de beaucoup dapplications technologiques, alors que peu de travaux sont menes en prosodie de la parole (pour un tat de lart de la communication vocale, voir [8]). Le modle dvelopp par Scherer est de loin le plus abouti, bas sur des fondements psychologiques Il montre que les paramtres acoustiques de la prosodie sont des indices expressifs, spare le niveau de contrle de la qualit de voix et celle de la prosodie, et propose des mesures perceptives de cette dichotomie, posant ainsi nouveau le problme de la dfinition de la prosodie. Il dcrit acoustiquement un large panel dmotions dans des tudes multi-culturelles [3], mais reste principalement sur des caractristiques trs gnrales et ne propose que rcemment les pistes dune morphologie prosodique pouvant tre intgre aux autres fonctions prosodiques et valide en synthse [3.]. Mozziconnaci [11] montre quant elle quun modle de description de lintonation peut prendre en compte les indices des expressions. Quant lintgration audio-visuelle des expressions facio-orales, encore peu dtudes existent mais elles montrent que la composante parle des expressions ne peut pas tre nglige, et nest pas une simple redondance du facial [2]

Prosodie et motion

271

5 QUELLES PERSPECTIVES METHODOLOGIQUES POUR LA PAROLE EMOTIONNELLE ?


La mthodologie suivie dans la plupart des tudes sur les expressions vocales est exprimentale, base sur le recueil et ltude de corpus. Un corpus doit tre dense en indices observs pour les aspects stochastiques des tudes, et reprsentatifs pour els aspects phontiques. La plupart des travaux en parole motionnelle ont t menes sur des acteurs. On peut en synthse vocale dcider de simuler des caractristiques dacteurs, par contre on ne peut pas tre certains en reconnaissance que les observations des stimuli dacteurs soient transposables sur des productions spontanes, sachant que Damasio par exemple propose un paradigme de simulation perceptive qui ne met pas uvre le corps et quil a t montr, pour un corpus act spcifique, que les stimuli acts vs. spontans taient discrimins perceptivement [2]. La parole acte produite en laboratoire, est oppose la parole dite spontane ou authentique sur laquelle il est difficile de sentendre pour une dfinition claire. Les chantillons les moins contrls de parole spontane sont ceux recueillies dans des situations non provoques en laboratoire (de type talk-show, conversations vernaculaires). Entre les deux, llicitation permet aux acteurs de se prparer la production des stimuli et linduction est la seule mthode qui permet de contrler le contenu linguistique et phontique en capturant des expressions spontanes (par des tches de perturbation [2] ou de magicien dOz (cf. site ICP du projet ESP Emotion).

6 CONCLUSION
La qualit de la synthse vocale est aujourdhui trs bonne en terme dintelligibilit phontique et linguistique, mme si la prosodie reste le problme le plus difficile rsoudre. Depuis peu, un engouement certain est apparu en synthse de la parole motionnelle, et devrait permettre de douer de parole les agents affectifs des interactions personne-machine qui squipent galement de visages. Sur le plan technologique la manipulation de la parole est moins complexe que le traitement des visages. Il est facile de produire des effets sans les rattacher un cadre thorique [5]. Le danger est grand de laisser les artefacts technologiques prendre le pas sur la validation thorique des modles implments, seule lvaluation diagnostic pourra viter cet cueil. Pourtant, si lon en croit cette hypothse selon laquelle il est essentiel de traiter les motions dans

272

Actes des deuximes assises nationales du GdR I3

linteraction personne-machine, ce sont des motions intelligibles et anthropomorphiques qui doivent tre vises car les consquences des erreurs de cible motionnelle seront bien plus difficiles mesurer que les erreurs smantiques. Lamlioration des technologies dpendra srement grandement des avances thoriques de la psychologie cognitive et sociale et de la neurologie des motions.

7 REMERCIEMENTS
Les tudes menes lICP sont le fruit dune longue collaboration avec N. Campbell (ATR-Kyoto), et ESP/CREST, et de toute une quipe : A Rilliard, N. Audibert, C. Brichet, A. Fouard, F. Loyau et A. Noiray.

8 RFRENCES
Auberg V. (2002) : A Gestalt morphology of prosody directed by functions : the example of a step by step model developed at ICP. In Proceedings of the 1st Conf on Speech prosody,p. 151-155. [2] Auberg V. & Cathiard M. (2002) The prosody of smile, Speech Communication Review, Special Speech and Emotion. [3] Bnziger T., Grandjean D., Bernard P., Klasmeyer G. & Scherer K. (2001) Prosodie de lmotion : etude de lencodage et du dcodage, Cahiers de Linguistique franaise, 23, 11-37. [4] Campbell, N. (2000) : Databases of Emotional Speech. In Proceedings of ISCA 2000, Northern Ireland, p.34-38. [5] Cahn, J., 1990. The generation of Affect in Synthesised Speech. Journal of the I/O Voice American Society, 8, 1-19. [6] Damasio A. R. (1994) : Descarteserror. Emotion, reason, and the human brain. Putnam Books. [7] Fonagy Y. (1986) Les langages de lmotion, Quaderni di semantica, 7/2, M Alinei (ed), Bologne, 305-318. [8] Johnstone T. & Scherer K.. (1999) : The effects of emotions on voice quality. In Proceedings of the XIVth International Congress of Phonetic Sciences, San Fransisco, p.2029-2032. [8] Lon P. (1993) Prcis de Phonostylistique parole et expressivit, Paris, Nathan [10] Morlec, Y., G. Bailly, and V. Auberg (1999) Generating prosodic attitudes in French: data, model and evaluation. Speech Communication, 33(4): p. 357--371. [1]

Prosodie et motion

273

[11] Mozzicconnacci S. J. L. (1998b) : Speech Variability and Emotion : Production and Perception. PhD Thesis, Eindhoven University. [12] Roach P. (2000) : Techniques for the Phonetic Description of Emotional Speech. In Proceedings of ISCA 2000, Northern Ireland, p.53-59. [13] Rossi M. (1999) Intonation: past, present and future, in A. Botonis (ed). [14] Vernet-Maury, E. (2001) Capter et mesurer la qualit de la rponse motionnelle. Actes des Journes GRAME 2001 : lart, la pense & les motions, Lyon, France, 61-68