Vous êtes sur la page 1sur 288

UNIVERSIT DE TECHNOLOGIE COMPIGNE

RAPPORT DE THSE
Auteur : Atman KENDIRA

Spcialit Speciality : Technologie de lInformation et des Systmes


Prsent pour Presented for : Obtention du grade de Docteur de lUTC Date Date : Mercredi 27 janvier 2010 Nombre de pages (y compris la prsente) Number of pages, this one included : 288

Lanimation comportementale davatars comme support la communication dans les environnements virtuels informs

utc

Compigne

Universit de Technologie

N attribu par la bibliothque

THSE
pour obtenir le grade de

DOCTEUR DE LUNIVERSIT DE TECHNOLOGIE DE COMPIGNE

Spcialit : Technologie de lInformation et des Systmes

Prsente et soutenue publiquement par :

ATMAN KENDIRA
le 27 janvier 2010

Titre de la thse :

Lanimation comportementale davatars comme support la communication dans les environnements virtuels informs
Composition du jury :

Rapporteurs Examinateurs Directeur Co-encadrante

Mme Catherine PELACHAUD M. Pierre DE LOOR M. Jean-Paul BARTHS (Prsident) M. Vincent CORRUBLE Mme Indira MOUTTAPA THOUVENIN Mme Laurence PERRON

LTCI, TELECOM Paris CERV, ENIB Heudiasyc, UTC LIP6, UPMC Heudiasyc, UTC Orange Labs, Lannion

HEUristique & DIAgnostic des SYstmes Complexes UMR-CNRS 6599

tous les employs de France Telecom. mes parents. Laurence et Idriss.

Remerciements

Tout dabord, je tiens remercier tous les membres de mon jury de thse et plus particulirement Mme Catherine Pelachaud et Mr Pierre De Loor, pour avoir accept den tre rapporteurs. Je tiens galement adresser mes remerciements mon directeur de thse Mme Indira Mouttapa Thouvenin, enseignant chercheur de lUniversit de Technologie Compigne. Je tiens particulirement exprimer ma profonde gratitude et mes plus vifs remerciements Laurence Perron mon encadrante de thse Orange Labs Lannion, pour mavoir guid et soutenu durant ces annes de thse. Son support scientifique et surtout psychologique (pour le travail et en dehors) a permis la ralisation de cette thse. Je la remercie pour toute lattention quelle a apporte mes travaux, pour ses nombreux conseils et pour toutes les discussions que lon a pues avoir qui, sous fond de cafine et de Kouign-amann, ont toujours t trs ouvertes et conviviales. Je lui dois en grande partie cette thse.

vii

Remerciements Je remercie aussi trs vivement Arnaud Bouguet, Stphane Louis-dit-Picard et Pascal Le Mer pour leur soutien technique et lambiance quils ont ajouts au niveau du laboratoire TECH/IRIS/VIA1 dOrange Labs. Jaimerais remercier galement tous les membres de lancienne quipe IRIS France Telecom R&D Lannion ainsi que les membres de lquipe ICI2 du laboratoire Heudiasyc de lUniversit de Technologique Compigne, pour leurs changes scientifiques et pour mavoir accueilli chaleureusement au sein de leur unit. Enfin, jadresse mes remerciements les plus affectueux ma famille et mes amis, qui par leur amiti, leur soutien et leurs conseils ont contribu indirectement la ralisation de ce travail.

TECH/IRIS/VIA : Laboratoire Image Richmedia nouvelles Interactions et hyperlangageS / Vision par ordinateur, Interfaces coopratives, interactions en ralit mixte et Augmente (http://www.orange.com/rd) 2 ICI : Information, Connaissance, Interaction (http://www.hds.utc.fr)

viii

Rsum
Le sujet de cette thse s'inscrit dans le cadre des environnements virtuels informs, c'est--dire des environnements virtuels dots de modles base de connaissance sur lesquels il est possible dinteragir dynamiquement. Il porte particulirement sur la conception dun nouveau modle dcisionnel intgrant incertitude et incompltude des donnes. Ce travail se situe l'intersection de la ralit virtuelle et de lingnierie des connaissances. Le domaine applicatif est la communication interpersonnelle en environnement virtuel. Nous nous concentrons sur la communication non verbale. La situation choisie est de raconter une histoire plusieurs travers cet environnement. ce titre, lun des enjeux majeurs est de pouvoir assurer, via des avatars, un comportement non verbal crdible, lment qui tient une place importante dans cette communication interpersonnelle. Dans ce contexte, nous avons conu un module comportemental nomm BAYBE (BAYesian BEhavior), qui gre la reprsentation de lutilisateur dans ses interactions avec lenvironnement virtuel collaboratif. Le problme est dune part de dterminer les interactions pertinentes prendre en compte et dautre part de les traduire en animations gestuelles pour renforcer la collaboration entre utilisateurs mdiatiss par des avatars en sollicitant au minimum lintervention humaine, ceux-ci devant surtout se focaliser sur la tche : le travail collaboratif. Nous avons analys un corpus de donnes afin den extraire les connaissances pralables ncessaires llaboration dun modle dcisionnel. Celui-ci a conduit la cration dun nouveau module comportemental bas sur les probabilits en utilisant la technique des rseaux baysiens, puis la conception du module BAYBE, limplmentation dune plateforme technologique du travail collaboratif ddie au storytelling et une srie d'valuations pour valider notre modle.

ix

Rsum Les premiers rsultats montrent entre autres que la narration collaborative se droule dans la mme dure avec notre systme par rapport la situation relle. Une comparaison avec les systmes existants et utilisant des avatars sans module de comportement prouve que notre approche apporte une amlioration la collaboration.

Abstract
The subject of this thesis takes places within the context of informed virtual environments such as virtual environments with template-based knowledge on which it is possible to interact dynamically. It focuses particularly on the design of a new decision-making model which integrates the uncertainty and incompleteness of model data. This work is at the intersection of virtual reality and knowledge engineering. The application of this domain is interpersonal communication in a virtual environment. We focused on non-verbal communication. The selected scenario is to tell a story to an audience of many through this environment. One of the major goals of this work is to ensure, via avatars, realistic nonverbal behaviour, which has an important place in interpersonal communication. In this context, we have designed a behavioural module named as BayBe (Bayesian Behavior), which manages the representation of the user during their interactions with the collaborative virtual environment. The problem is on one hand to identify the relevant interactions taking place and on the other hand to translate them into gestural animations to strengthen collaboration between user profiles via avatars. work. We have analyzed a corpus of data to extract the prior knowledge necessary to develop a decision model. This led to the creation of a new behavioural module based on probabilities and by using Bayesian network techniques for constructing the BayBe module. This resulted in an implementation for a collaborative This also must be done by requiring the least amount of human intervention, who must remain primarily focused on the task at hand: collaborative

xi

Abstract

technological platform dedicated to storytelling, and series of assessments to validate our model. Initial results revealed that this collaborative narration takes place with the same speed with our system compared to the actual situation. A comparison with existing systems and using avatars without behavioural module proves that our approach provides better collaboration. This work has been realized with France Telecom R&D Lannion and laboratory Heudiasyc of University of Technology Compigne.

xii

Table des matires


Introduction gnrale ....................................................................................... 23 I tat de lart ....................................................................................................... 29
1 Les Environnements Virtuels Collaboratifs ...............................................................33 1.1 1.2 1.3 La communication .............................................................................................35 volution de la communication mdie ............................................................36 Les environnements virtuels collaboratifs .........................................................41 Dfinition ...................................................................................................41 Caractristiques des EVC ...........................................................................44

1.3.1 1.3.2 1.4

Exemples dEVC .................................................................................................49 Activeworlds : le prcurseur ......................................................................50 DIVE : la rfrence .....................................................................................52 Spin-3D : EVC de France Telecom R&D et du LIFL ......................................54 Second Life : le plus connu ........................................................................57

1.4.1 1.4.2 1.4.3 1.4.4 1.5

Conclusion .........................................................................................................58

2 Avatars et modles comportementaux.....................................................................61 2.1 Les avatars .........................................................................................................64 Les fonctions attribues lavatar .............................................................65 Quelques exemples de communauts mixtes ...........................................71

2.1.1 2.1.2 2.2

Les modles comportementaux ........................................................................83 Les modles cognitifs ................................................................................84

2.2.1 2.3

Conclusion .........................................................................................................95 xiii

Table des matires 3 La communication non verbale ................................................................................ 97 3.1 Multimodalit en communication Humain-Humain : quels gestes pour animer un avatar ?.................................................................................................................. 100 3.1.1 3.1.2 3.1.3 3.1.4 3.2 La communication non verbale dans les interactions sociales................ 100 Le geste comme composante du langage ............................................... 101 Structure temporelle des gestes ............................................................. 102 Le continuum de Kendon ........................................................................ 103

Les catgories gestuelles ................................................................................ 105 Les cinq catgories de gestes dEkman et Friesen .................................. 105 La catgorisation de Cosnier et Vaysse ................................................... 107 La catgorisation de McNeill .................................................................. 108 La catgorisation MAP dArgentin .......................................................... 109

3.2.1 3.2.2 3.2.3 3.2.4 3.3

Conclusion ...................................................................................................... 111

II Contributions .............................................................................................. 115


4 Analyses ergonomiques du comportement non verbal .......................................... 119 4.1 4.2 4.3 Modle du comportement non verbal en situation de collaboration............. 122 La catgorisation DAMP et son fonctionnement dans la communication ...... 123 Collaboration en petit groupe : exprimentation ........................................... 127 Il tait une fois : une exprience de privations sensorielles .......... 128

4.3.1 4.4

Rsultats ......................................................................................................... 139 Modle de collaboration : Analyse quantitative ..................................... 139 Modle de lutilisateur : Analyse multi-variable ..................................... 144 Modle de tche : Analyse temporelle ................................................... 151

4.4.1 4.4.2 4.4.3 4.5

Conclusion ...................................................................................................... 163

5 BAYBE : le module comportemental....................................................................... 167 5.1 5.2 5.3 5.4 5.5 Incompltude du monde ................................................................................ 169 Infrence probabiliste .................................................................................... 170 Lapproche nactive de BAYBE ....................................................................... 171 Fondements thoriques ................................................................................. 172 Les rseaux baysiens .................................................................................... 175 xiv

Table des matires 5.6 Le processus de diagnostic de BAYBE .............................................................. 177 Reprsentation des connaissances ..........................................................177 La dimension temporelle .........................................................................185 Les rsultats du diagnostic ......................................................................186

5.6.1 5.6.2 5.6.3 5.7 5.8 5.9

Le processus dcisionnel de BAYBE .................................................................187 Dtection dintention et interface de commande implicite ............................ 188 Conclusion .......................................................................................................190

6 VIRSTORIA ..............................................................................................................193 6.1 Description de lapplication VIRSTORIA ...........................................................196 Linterface................................................................................................ 196 Les avatars de VIRSTORIA ........................................................................197

6.1.1 6.1.2 6.2

Architectures ...................................................................................................199 Architecture rseau .................................................................................199 Architecture gnrale ..............................................................................200 Reconnaissance de la parole ...................................................................203 VoIP et spatialisation du son ...................................................................204

6.2.1 6.2.2 6.2.3 6.2.4 6.3

La synthse danimation des avatars............................................................... 208 Lanimation faciale ..................................................................................208 Acquisition et animation gestuelle ..........................................................210 Les gestes adresss..................................................................................212

6.3.1 6.3.2 6.3.3 6.4

Implmentation............................................................................................... 212 PNL Intel ..................................................................................................212 VIRTOOLS.................................................................................................213

6.4.1 6.4.2 6.5

Conclusion .......................................................................................................214

III Validation.................................................................................................... 219


7 valuations .............................................................................................................223 7.1 Lvaluation des avatars comportementaux dans les EVC .............................. 226 Mthode ..................................................................................................227 Rsultats de lvaluation .........................................................................233 Conclusion ............................................................................................... 235 xv

7.1.1 7.1.2 7.1.3

Table des matires 7.2 Comparaison avec dautres dispositifs de collaboration ................................ 235 VIRSTORY : Scnario avec des avatars statiques ..................................... 235 Rsultats ................................................................................................. 237

7.2.1 7.2.2 7.3

Discussions ..................................................................................................... 238

Conclusion gnrale........................................................................................ 239 Annexes ............................................................................................................... 243


A Les EVC par secteur d'activit ................................................................................ 245 B Exemple de transcription audio dans ANVIL........................................................... 249 C Notions de probabilit ........................................................................................... 253 D Algorithme d'Estimation et Maximisation (EM) ..................................................... 257 E Grammaire utilise pour la reconnaissance de parole ............................................ 259 F Exemple de fichier de trace dans VIRSTORIA .......................................................... 265 G Exemples de gestes dans VIRSTORIA ..................................................................... 269

Bibliographie..................................................................................................... 271

xvi

Liste des figures


Figure 1 : Illustration conceptuelle de la thse .....................................................................25 Figure 2 : L'application VIRSTORY ( gauche) et VIRSTORIA ( droite) ..................................27

I tat de l'art
Figure 3 : Correspondance Cinma - Phono Tlgraphique de Villemard [BNF, 1910].......36 Figure 4 : Principe de la communication face--face ............................................................37 Figure 5 : Principe de la communication tlphonique .........................................................37 Figure 6 : Principe de la communication textuelle ................................................................38 Figure 7 : Principe de la communication par vidoconfrence .............................................38 Figure 8 : Principe des environnements virtuels collaboratifs...............................................38 Figure 9 : L'EVC Freewalk [Nakanishi, 2004]..........................................................................44 Figure 10 : L'environnement 2D Habitat et le monde virtuel BlueMars HD ..............47 Figure 11 : EVC There ............................................................................................................49 Figure 12 : EVC par secteur dactivit [KZERO, 2009] ............................................................50 Figure 13 : Vue sur un monde d'Activeworlds .......................................................................51 Figure 14 : L'EVC DIVE dvelopp par SICS [SICS, 1998] ........................................................52 Figure 15 : Les diffrentes versions de SPIN-3D ....................................................................55 Figure 16 : Un exemple de runion dans Second Life [Liden Lab, 2009] ...............................58 Figure 17 : Matsya le poisson ( gauche) ; Kurma la tortue ( droite)...................................65 Figure 18 : Principe de l'Uncanny Valley (Valle Drangeante) .............................................68 Figure 19 : Interface crbrale pour piloter un avatar dans les mondes virtuels ..................69 Figure 20 : Slection d'une animation gestuelle partir d'un menu dans Second Life .........70 Figure 21 : Projet GestAvatar [Schreer et al., 2005] ..............................................................71 Figure 22 : Justine Cassell en interaction avec lagent REA [GNL ,1999] ...............................72 Figure 23 : L'architecture de REA [Cassell et al., 2000] .........................................................74 Figure 24 : la premire version de BodyChat (gauche) et la dernire version (droite)..........75 Figure 25 : Effet des avatars Manuels vs. Autonomes vs. Mixtes ..........................................76 Figure 26 : Planification ditinraire dans MapChat [Vilhjalmsson, 2003] .............................78 Figure 27 : Exemple d'interaction faciale dans le projet Amusement ...................................78 Figure 28 : Niveaux d'interaction dans le projet Amusement ...............................................79 xvii

Liste des figures Figure 29 : Relations entre les traits dun avatar .................................................................. 80 Figure 30 : Principe de la collaboration avec des avatars dans Spin-3D [Ding et al., 2009] .. 81 Figure 31 : Architecture des avatars de Spin-3D [Ding et al., 2009] ..................................... 82 Figure 32 : Une reprsentation conceptuelle des sciences cognitives ................................. 84 Figure 33 : La composition des modles cognitifs ................................................................ 85 Figure 34 : Exemple de simulation autonome ralise par un rseau SAN (droite) ............. 86 Figure 35 : Cratures-blocs volues pour la marche .......................................................... 87 Figure 36 : Apprentissage de la nage des dauphins via le systme NeuroAnimator ............ 88 Figure 37 : Simulation de vols d'oiseaux (le flocking) ........................................................... 89 Figure 38 : lagent pdagogique STEVE [VET, 1998] ............................................................. 92 Figure 39 : Principe de larchitecture des joueurs virtuels dans CoPeFoot ........................... 94 Figure 40 : Diffrents exemples dillustration des gestes *sources Internet, 2008] ............ 102 Figure 41 : Exemple de transcription des phases d'un geste [Kipp, 2004] .......................... 103 Figure 42 : Le continuum de Kendon [Kendon, 1988] ........................................................ 103

II Contributions
Figure 43 : Vision de notre modle du comportement non verbal .................................... 122 Figure 44 : Dictiques - Gestes de dsignation................................................................... 124 Figure 45 : Adaptateurs - Gestes dauto-contact ................................................................ 125 Figure 46 : Mtaphoriques - Gestes illustrant le contenu verbal ....................................... 126 Figure 47 : Ponctuateurs - Gestes qui fixent le rythme de la parole................................... 127 Figure 48: Gestes de manipulation..................................................................................... 127 Figure 49 : Exemple de cartes conte du jeu Il tait une fois ................................... 128 Figure 50 : Rpartition homme/femme au sein des groupes ............................................. 130 Figure 51 : Schma du dispositif exprimental (vue de dessus) ......................................... 131 Figure 52 : Les 4 conditions de l'exprimentation .............................................................. 132 Figure 53 : Schma d'annotation et d'analyse des enregistrements vido ........................ 134 Figure 54 : Interface du logiciel ANVIL................................................................................ 137 Figure 55 : Exemple de fichier XML extrait dANVIL ........................................................... 138 Figure 56 : Pourcentage de gestes DAMP par rapport au temps de jeu ............................. 139 Figure 57 : Nombre moyen de gestes DAMP ...................................................................... 141 Figure 58 : Nuage de point de la variable Homme/Femme dans le Plan 1-2...................... 150 Figure 59 : Nuage de points de la variable Ami/Pas ami dans le Plan 1-2 .......................... 151 Figure 60 : Une squence typique du formalisme de Propp .............................................. 154 Figure 61 : Modle actant gnrique de Greimas. ............................................................. 155 Figure 62 : Proportion de gestes DAMP dans chaque tape du modle de Bremond ........ 162 Figure 63 : Fondement thorique de BAYBE de lincompltude la dcision .............. 174 Figure 64 : Exemple dun rseau baysien ......................................................................... 177 Figure 65 : Structure gnrale du rseau de rfrence (gauceh) et RB BAYBE (droite)...... 181 Figure 66 : Exemple de tableaux de probabilits pour le nud Sexe et CNV ......... 182 xviii

Liste des figures Figure 67 : Principe de l'estimation des paramtres d'une base de donnes incomplte ..183 Figure 68 : La structure gnrale du rseau baysien du diagnostic ...................................186 Figure 69 : Exemple illustrant le processus de dcision par tirage au sort pondr ......188 Figure 70 : Algorithme du processus de dtection d'intention ...........................................189 Figure 71 : Point de vue dun utilisateur de l'interface de VIRSTORIA.................................197 Figure 72 : Trois exemples d'avatar utiliss dans VIRSTORIA ..............................................197 Figure 73 : L'utilisateur doit-il voir son avatar? [Les Simpson, 1994] ..................................198 Figure 74 : Architecture rseau de VIRSTORIA ....................................................................200 Figure 75 : Architecture gnrale de VIRSTORIA entre deux participants ...........................202 Figure 76 : Processus pipe de la reconnaissance de la parole .......................................204 Figure 77 : Schma gnral de fonctionnement de la chane audio ComIP/Virtools ..........207 Figure 78 : FaceEngine Authoring Tools dans 3ds Max .......................................................209 Figure 79 : Principe d'animation faciale avec FaceEngine dans VIRSTORIA .........................209 Figure 80 : Exemples d'animations faciales des avatars dans VIRSTORIA ...........................209 Figure 81 : Processus dacquisition des animations gestuelles ...........................................211 Figure 82 : Interface de dveloppement VIRTOOLS [3DVIA, 2009] .....................................214

III Validation
Figure 83 : Rpartition homme/femme au sein des groupes ..............................................228 Figure 84 : Photos du dispositif exprimental .....................................................................228 Figure 85 : Interface VIRSTORIA Salle de Profil ; Salle de Jeu ................................ 229 Figure 86 : Schma du dispositif exprimental ...................................................................231 Figure 87 : Rpartition des gestes DAMP gnrs par les avatars dans chaque groupe .....233 Figure 88 : Condition sans se voir........................................................................................236 Figure 89 : Proportion des gestes DAMP suivant le dispositif de collaboration ..................237

xix

Liste des tableaux


I tat de lart
Tableau 1 : Classification des diffrents types de mdia selon la classification ....................40 Tableau 2 : Rsum des caractristiques des modles comportementaux...........................95 Tableau 3 : Synthse des quatre classements des gestes co-verbaux .................................110

II Contributions
Tableau 4 : Pourcentages et temps dexcutions des gestes DAMP (ne parlent pas) .........143 Tableau 5 : Pourcentages et temps dexcutions des gestes DAMP (parlent) ....................144 Tableau 6 : Tableau de donnes de lACP ...........................................................................146 Tableau 7 : Tableau des valeurs propres .............................................................................147 Tableau 8 : Matrice de corrlation dans la condition contrle ...........................................149 Tableau 9 : Tableau des cartes conte et dnouement (en partie) et leurs indices ..158 Tableau 10 : Tableau de rpartition des cartes selon le modle narratif de Bremond .......160 Tableau 11 : Recommandations pour le module comportemental BAYBE .........................165 Tableau 12 : Variables Situation ..........................................................................................179 Tableau 13 : Variables Oprateur .......................................................................................180 Tableau 14 : Variable Contrle ............................................................................................ 180

III Validation
Tableau 15 : Rcapitulatif des rsultats ..............................................................................234

xxi

Introduction gnrale
Sujet
Notre histoire rcente est profondment marque par les progrs technologiques qui ont permis de rduire les distances entre les hommes. Nous avons la possibilit de joindre nimporte quelle personne travers le monde, de communiquer avec cette dernire pour raliser un travail commun. De nombreux domaines tirent profit de ces avances technologiques. En particulier, on assiste lessor des Environnements Virtuels Collaboratifs (EVC). Plusieurs utilisateurs situs aux quatre coins du monde se runissent virtuellement dans un monde alternatif commun dans le seul but de communiquer, de se divertir et/ou de collaborer. Dans ces EVC, les interactions entre les utilisateurs se font par lintermdiaire de personnages synthtiques gnralement reprsents en trois dimensions, que lon nomme avatars , et qui sont des reprsentations virtuelles des autres interlocuteurs. Les utilisateurs voluent dans les EVC avec les avatars respectifs des autres participants afin de communiquer, de co-manipuler et de co-construire. Lutilit des EVC est de permettre lamlioration des interactions collaboratives distance. Les interactions collaboratives impliquent que les utilisateurs dEVC peuvent raliser des tches en transformant lenvironnement quils ont en commun, en manipulant des objets et en interagissant les uns avec les autres. Ainsi lobjectif est de ne pas entraver ni la manipulation des objets de lenvironnement, ni les interactions entre les utilisateurs. Depuis plusieurs annes, les normes de conception dites pour structurer la conception des interfaces Humain-Machine
3

se

sont

stabilises

dans

leurs

recommandations. La norme ISO 9241-11 dfinit notamment les lignes directrices


3

http://www.iso.org/iso/fr/iso_catalogue/catalogue_tc/catalogue_detail.htm?csnumber=16883

23

Introduction gnrale concernant lutilisabilit des Interfaces Humain-Machine (IHM) en gnral. D'aprs cette norme, un systme est utilisable lorsqu'il permet l'utilisateur de raliser sa tche avec efficacit, efficience et satisfaction dans le contexte d'utilisation spcifi . Dans le cadre des EVC, lutilisabilit dpend beaucoup des mthodes employes pour animer les avatars. Une premire mthode consiste confier lanimation des avatars aux utilisateurs eux-mmes. Mais cela ne ferait quajouter une tche supplmentaire (que lon peut nommer tche parasite) la tche principale des utilisateurs. Cette mthode ne semble pas correspondre lobjectif principal qui est de favoriser lmergence de la collaboration distante entre les utilisateurs. La seconde mthode danimation consiste capturer en temps rel les activits, les comportements des utilisateurs derrire leur poste de travail et de les retranscrire lidentique dans lEVC par lintermdiaire des avatars. Cette technique prsente deux inconvnients. Les utilisateurs doivent tre quips de dispositifs parfois encombrants et trs intrusifs (exosquelette par exemple) pour lactivit en cours. Le second problme rside dans le clonage du geste entre lutilisateur derrire son poste de travail et son avatar dans lEVC. Les gestes de lutilisateur ne sont souvent pas pertinents retranscrire (par exemple la manipulation de la souris). Plusieurs recherches [Noriega et Bernier, 2007] [Schreer et al., 2005] sont en cours pour saffranchir de ces dispositifs mais ne sont pas encore matures. Pour permettre une meilleure symtrie de linteraction entre lavatar et son utilisateur humain, il semble donc intressant doffrir lavatar la possibilit de raliser luimme les comportements non verbaux en concordance avec les actions de lutilisateur. Lobjectif de cette thse consiste donc concevoir un dispositif informatique, un module comportemental que lon nommera BAYBE (pour BAYesian BEhavior). Ce module grera la reprsentation de lutilisateur dans ses interactions avec lEVC et notamment le comportement non verbal, travers un avatar et ceci en ne sollicitant jamais lintervention de lutilisateur, celui-ci devant se centrer sur sa tche principale : le travail collaboratif. Le travail effectu au cours de cette thse est une contribution la modlisation et la conception davatars comportementaux voluant dans les EVC. Pour cela, nous avons adopt principalement une mthodologie procdant de lErgonomie de lInteraction Humain-Machine, de la Psychologie Exprimentale et des techniques de Ralit Virtuelle et dIntelligence Artificielle. Cette thse sinscrit donc dans un contexte fortement pluridisciplinaire : Psychologie et Informatique.

24

Introduction gnrale Lavatar dans lEVC doit tre le miroir de lhumain donc sa conception mobilise toutes les connaissances que la psychologie a accumules sur le comportement humain, en particulier sur les comportements de communication. Du point de vue psychologique, il est ncessaire de savoir quels comportements non verbaux les individus mettent en jeux lorsquils collaborent et de savoir aussi ce qui les fait varier. Cela conduit la dfinition de modles comportementaux des utilisateurs pouvant faire lobjet dimplmentation informatique dans les avatars. Du point de vue informatique, la conception et limplmentation du module comportemental ncessite lemploi de techniques dintelligence artificielle. Ce module doit pouvoir raisonner partir de donnes incompltes et incertaines venant des analyses dexprimentation de situations de collaboration relles.

Figure 1 : Illustration conceptuelle de la thse

25

Introduction gnrale

Cadre applicatif : la conception collaborative dhistoire


Cette thse, finance par France Tlcom R&D, sinscrit dans le cadre des recherches de lquipe TECH/IRIS/VIA concernant le dveloppement des environnements virtuels collaboratifs. Deux EVC ont t dvelopps dans ce laboratoire : le premier, Spin-3D (Section 1.4.3) est le fruit dune collaboration avec le Laboratoire dInformatique Fondamentale de Lille et a fait lobjet de plusieurs versions suivant le contexte dapplication. Le second, VIRSTORY (Figure 2-gauche), fut le point de dpart de ma thse. Il a t conu par Alexandre BRAGANTI (apprenti ENST4 Bretagne France Telecom R&D Lannion en 2003) et est n par la volont de Laurence PERRON qui souhaitait disposer dun environnement virtuel collaboratif lui permettant de raliser des exprimentations sur lInteraction Humain-Machine [Carbini et al., 2006] et dtudier le comportement non verbal en situation de collaboration mdiatise [Perron, 2003a] [Perron, 2005] [Perron, 2007] [Lefebvre et al., 2007]. VIRSTORY (pour VIRtual STORYtelling) est un environnement de jeu de storytelling sous forme denvironnement virtuel collaboratif synchrone avec des avatars statique s pour reprsenter les utilisateurs distants. Il est inspir dun jeu de cartes trs populaire intitul Il tait une fois5 . Comme dans le jeu de cartes, il sagit dans VIRSTORY de concevoir de faon collaborative une histoire cohrente laide dlments narratifs fournis sous forme de cubes illustrs. Chaque utilisateur se connectant une session de jeu est reprsent par un avatar statique color par ce dernier et ne faisant quacte de prsence. Nanmoins, lorsquun joueur est en train de manipuler un cube, ses partenaires peuvent voir un cube qui grossit et se met clignoter entre les mains de lavatar. Enfin, bien quil sagisse dun environnement virtuel collaboratif, VIRSTORY ne pouvait fonctionner que dune manire locale, car aucun dispositif de communication verbale synchrone ou asynchrone (confrence audio, chat, etc.) navait tait mis en place pour raliser une communication distance. VIRSTORY a ensuite volu pour devenir VIRSTORIA (VIRtual STORytelling & Intelligent Avatars) au fur et mesure des nouveaux apports technologiques. La plateforme a t amliore dans un premier temps par la mise en place dun systme VoIP6 (Section 6.2.4), permettant de raliser des confrences audio avec un son spatialis. Un
4 5

cole Nationale Suprieure des Tlcommunications. http://www.atlas-games.com/onceuponatime/index.php 6 VoIP : Voice over Internet Protocol (Voix sur rseaux IP) est une technologie qui permet de communiquer par la voix travers Internet ou toute autre rseau utilisant le protocole TCP/IP.

26

Introduction gnrale dispositif de reconnaissance de la parole a permis ensuite didentifier en temps rel certains mots prononcs par les participants (Section 6.2.3). Enfin, dans le cadre de ma thse, llaboration du module comportemental BAYBE a permis damliorer la reprsentation des participants par des avatars anthropomorphiques et dynamiques, qui excutent des gestes et moindre mesure des expressions faciales suivant les dcisions du module comportemental.

Figure 2 : L'application VIRSTORY ( gauche) et VIRSTORIA ( droite)

Structure du rapport
Ce mmoire de thse est organis en trois parties. La premire partie, tat de lart, prsente le contexte gnral qui a donn naissance plusieurs de nos rflexions sur la reproduction de la communication non verbale des utilisateurs dEVC travers des avatars comportementaux. Cette partie se compose de trois chapitres traitant respectivement, des environnements virtuels collaboratifs (Chapitre 1), des avatars et de leurs animations comportementales (Chapitre 2), et enfin de la communication non verbale (Chapitre 3). La deuxime partie, qui traite de nos contributions, prsente nos propositions pour llaboration davatars comportementaux dans les EVC et interagissant avec lhumain. Cette partie se compose de trois chapitres traitant respectivement de lanalyse ergonomique dune exprimentation sur une situation de collaboration (Chapitre 4) permettant llaboration du module comportemental non verbal BAYBE pour les avatars dEVC (Chapitre 5) et de la description de la plateforme VIRSTORIA (Chapitre 6). Enfin la troisime partie, validation, se compose dun seul chapitre et traite dune valuation sur lefficacit

27

Introduction gnrale de la collaboration dans VIRSTORIA avec lutilisation davatars comportementaux en regard dautres dispositifs (Chapitre 7). Ce rapport sachve sur une conclusion gnrale.

28

Premire Partie

tat de lart

29

Introduction
Dans le monde du travail comme dans le cadre des loisirs, la socit ne cesse de rechercher les outils qui permettent de saffranchir des distances. Depuis une vingtaine dannes, une nouvelle catgorie doutils merge. Elle propose des individus loigns de partager un espace immatriel, au sein duquel ils peuvent communiquer et agir ensemble. Les outils regroups au sein de cette catgorie ont pour nom Environnements Virtuels Collaboratifs (EVC). Lenjeu majeur aujourdhui, est de rendre aussi naturel que possible lutilisation de ces outils et de nombreuses recherches traitent de ce vaste domaine. Nous allons nous attacher dans cette premire partie dresser un tat de lexistant concernant les Environnements Virtuels Collaboratifs et les sujets connexes sy rapportant. Dans un premier temps, nous prsenterons au Chapitre 1, une typologie des diffrents types doutils de collaborations synchrones pour se focaliser plus prcisment sur lapproche particulire des EVC. Nous y tudierons les diffrents moyens de communication entre les utilisateurs. Dans un deuxime temps, nous tudierons plus prcisment lapport des avatars 3D pour reprsenter les utilisateurs distants dans ces environnements. Cette tude permettra de mettre en vidence le dcalage entre la reprsentation de lutilisateur et les besoins de nouveaux concepts en vue damliorer la communication au travers doutils collaboratifs, et notamment par lanimation comportementale des avatars. Enfin nous terminerons par le Chapitre 3 en poussant nos investigations un peu plus loin concernant la communication non verbale et plus particulirement le geste de communication, modalit peu exploite dans le domaine de lanimation comportementale des avatars. Lobjectif est de mettre profit les travaux existant du domaine des sciences humaines, afin danalyser de faon plus thorique les faiblesses des outils actuels, bass pour la plupart sur des approches purement techniques.

31

Chapitre 1 Les Environnements Virtuels Collaboratifs

33

Non, la science n'est pas une illusion. Mais ce serait une illusion de croire que nous puissions trouver ailleurs ce qu'elle ne peut pas nous donner. (Sigmund Freud, 1927)

La mdiation du travail collectif tente de rpondre aux contraintes qui privent les oprateurs d'un contact sensoriel avec leurs collaborateurs. Ils ne se voient pas directement, ils ne s'entendent pas directement. Pour une grande partie, ces contraintes sont le fait de l'loignement gographique entre les oprateurs. Dans ces situations particulires, la distance est compense par l'ajout de dispositifs techniques dont l'objet est de pallier l'absence de contacts sensoriels. Dans ce chapitre, nous allons voquer plusieurs types de dispositifs techniques dont la vocation est de mdier le travail humain collectif. Cette prsentation se focalisera, avant tout sur les Environnements Virtuels Collaboratifs (EVC), ce qui nous donnera loccasion de les dfinir et den catgoriser les diffrents exemplaires.

1.1 La communication
Depuis lantiquit, la communication entre les tres a toujours t un sujet dtude passionnant pour les philosophes, les psychologues, les inventeurs, etc. Cependant ce nest

35

volution de la communication mdie que depuis peu de temps quelle est devenue une matire dinvestigation scientifique (Figure 3). La communication est la base de linteraction et de lorganisation sociale. Sans communication, nous sommes isols. La communication, cre la coopration, elle permet la relation et lenrichissement de nos connaissances. Elle est prsente sous diffrentes formes et a pour but de faire passer des informations, des messages laide dun langage. Lors de la communication, les informations vont circuler entre les communicants. Ces communicants apprennent ainsi de nouvelles informations, non seulement contenues dans linformation elle-mme, mais aussi dans le contexte de linformation. Lobjectif de la communication peut tre assimil une mise en commun des informations de chacun. Dans un monde qui se veut tre celui de la communication, la mise en commun de nos ides reste difficile. Nous sommes loin dtre performants. Pourtant la diversit des approches et les ouvrages sur le sujet ne manquent pas. Linformation au centre de la communication, reste un sujet complexe et difficile.

Figure 3 : Correspondance Cinma - Phono Tlgraphique de Villemard [BNF, 1910]

1.2 volution de la communication mdie


La communication a de tout temps suivi une volution parallle la technologie. Nombreuses ont t les technologies qui ont permis damliorer et dacclrer la communication entre des individus. ses dbuts, lHomme navait que la voix, les gestes et 36

Les Environnements Virtuels Collaboratifs les cinq sens pour parvenir communiquer et interagir, mais ces modalits avaient des contraintes importantes. La voix et les gestes ne peuvent tre porteurs dinformations quen de dune certaine limite de distance et par consquence, ne peuvent tre changs que de proche en proche (Figure 4).

Figure 4 : Principe de la communication face--face

La technologie voluant avec le temps, des dispositifs techniques sont venus palier le problme de perception visuelle et sonore inhrent la communication face--face. Le tlphone fut lun de ces premiers dispositifs permettre lchange dinformations sonores entre des individus loigns les uns des autres (Figure 5).

Figure 5 : Principe de la communication tlphonique

Aprs la seconde guerre mondiale sont donc apparues les nouvelles technologies de la toile : Internet dans un premier temps avec les premires messageries instantanes telles que le protocole IRC7 ou les SMS des tlphones portables. Cela a permis de nombreux individus de communiquer entre eux par lchange dinformation s textuelles et parfois graphiques (Figure 6). Mais cette technologie, comme la tlphonie, reste un outil de transmission limit dans le sens o il ne permet pas dchanger des informations multimodales telles que les gestes ou les expressions faciales.
7

IRC : Internet Relay Chat , protocole permettant de dialoguer de manire textuelle au sein de canaux

37

volution de la communication mdie

Figure 6 : Principe de la communication textuelle

La nature mme des informations sest amplement diversifie. Actuellement, la communication par visioconfrence sest largement diffuse notamment laide des messageries instantanes. Nimporte quel utilisateur connect au rseau Internet peut dialoguer laide de camra et voir son interlocuteur (Figure 7).

Figure 7 : Principe de la communication par vidoconfrence

Ces amliorations technologiques nous permettent de propager le son, des images, des impressions (avec des gestes, des expressions faciales, ). Il est possible deffectuer des actions collaboratives en temps rel laissant entrevoir de nombreuses possibilits tout aussi ludiques que professionnelles tel que les diagnostics collaboratifs. Toutes ces amliorations restent nanmoins limites car elles ne permettent pas la construction dun rfrentiel commun entre les utilisateurs. Et donc pour palier en partie ce problme, sont apparus rcemment les Environnements Virtuels Collaboratifs (Figure 8).

Figure 8 : Principe des environnements virtuels collaboratifs

38

Les Environnements Virtuels Collaboratifs La mdiation de la communication est un champ particulirement tudi dans de nombreuses disciplines. L'tude des communications mdies est le plus souvent fonde sur une comparaison avec la situation de communication en face--face qui prend valeur de rfrence [Riva et Galimberti, 1998]. De nombreuses tudes ont permis de classer ces diffrents modes de communication. Nous allons nous baser sur les tudes de Clark & Brennan [Clark et Brennan, 1991] qui identifient plusieurs caractristiques de la communication. Ils donnent pour chacune la faon dont elle affecte les contributions au discours : coprsence [copresence] : les utilisateurs sont proches les uns des autres et peuvent pointer des objets du terrain commun, visibilit [visibility] : les utilisateurs peuvent se voir, ce qui permet des gestes et des expressions faciales, audibilit [audibility] : les utilisateurs peuvent s'entendre, ils peuvent ainsi utiliser le langage naturel, cotemporalit [cotemporality] : les utilisateurs peuvent attendre une rponse immdiate, les retards et les interruptions font sens, simultanit [simultaneity] : les utilisateurs peuvent envoyer et recevoir en mme temps ce qui permet les interruptions et les feedbacks, squentialit [sequentiality] : les contributions des utilisateurs sont strictement ordonnes. historique [reviewability] : les utilisateurs ont accs aux moments prcdents de la conversation. dition [revisability] : les utilisateurs ont la possibilit d'diter leur contribution avant de l'envoyer. Cette liste de caractristiques permet de classer les situations de communication, ce que font Olson & Olson [Olson et Olson, 2000] sous la forme d'un tableau que nous avons reproduit ci-dessous :

39

volution de la communication mdie

Co-temporalit

Squentialit

Simultanit

Coprsence

Auditibilit

Historique

Visibilit

Face--face Tlphone Email Chat Vidoconfrence EVC

Tableau 1 : Classification des diffrents types de mdia selon la classification dOlson & Olson

travers cette grille, nous voyons que les EVC prennent en charge de faon comparable aux situations de face--face, quatre caractristiques de la communication. Les utilisateurs peuvent s'entendre, ce qui leur permet d'utiliser le langage naturel. Ils peuvent attendre une rponse ou une raction immdiate leur contribution, voire mme intervenir pendant la contribution d'un interlocuteur. Enfin, les contributions peuvent tre ordonnes. En revanche, les EVC synchrones ne permettent pas aux interlocuteurs de rviser et de corriger leur contribution avant de l'envoyer. Pour les trois caractristiques de la communication que nous n'avons pas encore voques, il y a bien une prise en charge par les EVC cependant les modalits sont diffrentes de celles d'une communication en coprsence physique. Dans les EVC synchrones, la dsignation d'un lment est possible puisque l'espace est partag. Ainsi les interlocuteurs peuvent appuyer leurs contributions en dsignant un rfrent visible par tous dans la scne virtuelle. C'est pour cette raison que dans le Tableau 1, la case coprsence est coche. En ce qui concerne la caractristique de visibilit, les diffrents choix de reprsentation de l'utilisateur dans l'environnement virtuel conditionnent les indices du comportement non verbal qui participeront la communication. Enfin, les EVC peuvent inclure un dispositif d'archivage des changes, par exemple par enregistrement audio/vido de la scne virtuelle. Les enregistrements permettant de rejouer ultrieurement les changes prcdents, la caractristique dhistorique peut tre considre comme prise en charge par lEVC. Selon le Tableau 1, les EVC offrent les mmes caractristiques que la situation de face--face mais, comme nous l'avons expliqu, par d'autres modalits que celles d'une situation de communication en co-prsence physique. Cette simple revue des caractristiques prises en charge, montre les avantages dutiliser un tel systme pour communiquer et interagir plusieurs dans des espaces diffrents. Nous allons dans la suite 40

Rvision

Les Environnements Virtuels Collaboratifs de cette section nous intresser plus particulirement aux EVC en spcifiant les singularits de tels dispositifs et prsenter quelques exemples de plateforme caractristiques.

1.3 Les environnements virtuels collaboratifs


1.3.1 Dfinition Les EVC sont fonds sur la notion de partage. C'est d'ailleurs pour cette raison que coexistent avec EVC les acronymes DVE pour Distributed Virtual Environment et SVE pour Shared Virtual Environment [Thie et Wijk, 1998]. Ces dernires annes sont galement apparu dautres synonymes tels que les mondes virtuels 3D , metavers et mondes persistants pour les environnements virtuels ddis la communication ou la socialisation ou MMOG (Massively Multiplayer Online Games) pour les jeux en ligne massivement multi-joueurs. Le principe fondamental des EVC rside dans le partage dun lieu de communication et d'action commun. L'expression environnement virtuel voque assez spontanment l'ide d'un espace calcul en trois dimensions, or le lieu partag peut revtir une grande varit de formes. D'ailleurs, le terme de virtuel dans EVC est trompeur. C'est en partie un contre-sens en regard de la traduction du terme anglais virtual . Virtual est polysmique. Dans l'usage courant de la langue anglaise, il prend le sens de quasi , pratiquement alors que dans le domaine scientifique et technique, il renvoie au terme virtuel . De fait, l'expression Virtual Reality peut se dcliner en Ralit virtuelle tel que nous le traduisons par convention ou bien en Quasi-Ralit . Cette polysmie fait toute la richesse de l'expression anglaise. D'une part, c'est le nom donn des techniques spcifiques de calcul. D'autre part, Virtual Reality introduit l'ambition de produire par ces techniques, un simulacre de cette ralit que nous ressentons dans notre environnement physique, non calcul. D'ailleurs, comme le rappelle Burkhardt [Burkhardt, 2003], la ralit virtuelle est ne au dbut des annes soixante dix avec l'ambition d'offrir une interaction plus naturelle aux utilisateurs de systmes informatiques. Cet cart la ralit, aussi minime puisse-t-il paratre, va tre au cur de toutes les recherches. En franais et dans le contexte qui nous proccupe, le terme virtuel est compris comme artificiel, qui s'oppose naturel. Ainsi, malgr leur terminologie, les EVC ne sollicitent pas systmatiquement les techniques de ralit virtuelle. Dire que ce lieu est virtuel signifie qu'il n'a pas de ralit physique. C'est un lieu calcul qui n'a pas d'ancrage gographique. C'est pour cette raison qu'il permet la runion d'individus qui ne sont pas dans le mme espace physique, dutilisateurs gographiquement distants.

41

Les environnements virtuels collaboratifs Comment des individus peuvent-ils tres runis dans un espace qui n'a pas de ralit physique ? Trois conditions doivent tre simultanment remplies : les individus doivent tre conscients du lieu virtuel. Ils doivent tre conscients de leur instanciation dans ce lieu et conscients de l'instanciation d'autres individus dans le mme environnement. Nous choisissons d'utiliser le terme d' instanciation au dtriment de celui de prsence . Bien que l'expression conscience de la prsence ft un candidat potentiel, elle a t mise de cot pour viter la confusion avec le sentiment de prsence , dont la problmatique est particulirement attache aux environnements virtuels. Nous partageons la dfinition du sentiment de prsence propose par Lombard & Ditton [Lombard et Ditton, 1997]. Ils dcrivent le sentiment de prsence comme l'illusion perceptive de non mdiation ressentie par l'utilisateur. C'est le sentiment subjectif d'tre dans un environnement virtuel que ressent un individu sans avoir conscience du dispositif technique qui rend cette exprience possible. La conscience du lieu virtuel est porte par son interface et les diffrentes modalits d'interaction disponibles. L'interface graphique est probablement la principale, il n'existe pas notre connaissance d'EVC ne proposant pas d'interface visuelle. La primaut de cette modalit ne doit pas occulter les autres, sonore, tactile voire olfactive. Qu'il prenne la forme d'une espace en trois dimensions ou d'une fentre de Chat , le lieu virtuel va tre peru par l'utilisateur. L'ensemble des perceptions du lieu virtuel en gnre la conscience. La gamme des perceptions provenant du lieu virtuel n'est pas la seule source de conscientisation de cet espace. Le degr d'interaction avec le lieu virtuel participe galement sa prise de conscience. Schuemie & Van Der Mast [Schuemie et VanDerMast, 1999] identifient cinq variables principales d'interaction avec un media : le nombre d'entres que peut faire l'utilisateur sur le systme et auxquelles ce dernier rpond ; la quantit et le type des caractristiques qui peuvent tre modifies par l'utilisateur ; l'importance du changement possible de chaque caractristique ; le degr de correspondance entre l'entre de l'utilisateur et la rponse du systme ; la vitesse de rponse du systme.

Ces variables dfinissent la ractivit d'un systme aux sollicitations de l'utilisateur. Elles sont tout fait applicables aux systmes EVC. Plus l'environnement virtuel sera ractif, plus l'utilisateur aura conscience de son existence. Le potentiel d'action exprim travers 42

Les Environnements Virtuels Collaboratifs les variables d'interaction ne suscite pas que la conscience du lieu virtuel. Il suscite du cot de l'utilisateur la conscience d'tre reprsent et de pouvoir agir dans cet environnement. La conscience qu'un individu peut avoir de son instanciation et de l'instanciation d'autrui dans le lieu virtuel est porte par les moyens de reprsentation de l'utilisateur et d'actions disponibles sur l'environnement. Classiquement, dans le cadre d'un change synchrone, deux solutions s'opposent pour reprsenter l'utilisateur dans la scne virtuelle : la premire consiste restituer l'image vido de l'utilisateur dans l'espace partag, la seconde consiste intgrer dans cet espace une reprsentation graphique de l'utilisateur. La solution vido s'apparente aux dispositifs de visioconfrence. Une vido de l'utilisateur apparat dans une fentre de l'environnement virtuel. Dans le cas de la solution graphique, l'utilisateur est reprsent de faon symbolique par un personnage synthtique 3D plus gnralement nomm avatar. Nous aurons l'occasion par la suite de dfinir en dtail le concept d'avatar. Quand le choix porte sur un mode de reprsentation graphique, le champ des possibilits est trs ouvert notamment en ce qui concerne l'aspect raliste ou symbolique de la reprsentation de l'utilisateur. La solution vido fournit une image relle de l'utilisateur et de son comportement non verbal. Elle fournit donc des informations sur l'utilisateur beaucoup plus directes que celles de la solution graphique. En revanche, les fentres vido n'ont pas de moyens d'interaction avec le lieu virtuel. C'est d'ailleurs ce qui ressort d'un sondage effectu par Tonnoir & Berenblit [Tonnoir et Berenblit, 2002] auprs de vingt utilisateurs. Plus cohrent avec l'environnement virtuel, l'avatar dispose de moyens d'interaction avec les objets. Il peut ainsi symboliser une action en cours sur un objet ou indiquer le centre d'intrt de l'utilisateur en s'orientant vers une zone d'activit particulire [Benford et al., 1996]. Un travail rcent [Nakanishi, 2004] sur la gamme d'EVC Freewalk propose de reprsenter l'utilisateur en sollicitant simultanment une vido et un lment graphique (Figure 9). Les concepteurs exploitent l'ide de faire du moniteur vido un avatar de l'utilisateur. La vido de l'utilisateur est affiche sur une sorte de poste de tlvision. Ce poste est un objet en trois dimensions qui possde une face avant plate o se projette la vido. Il constitue l'avatar de l'utilisateur. Le poste est mobile et affiche des informations sociales comme le nom de l'utilisateur. De par sa forme et ses capacits de dplacement, il permet aux utilisateurs de jouer avec les rgles de proxmie pour grer l'initiative des conversations entre les interlocuteurs de ce monde virtuel.

43

Les environnements virtuels collaboratifs

Figure 9 : L'EVC Freewalk [Nakanishi, 2004]

Le lieu virtuel comprend des ressources pour raliser la tche. Ces ressources sont les informations et les outils de transformation de ces informations. Les ressources peuvent tre totalement ou partiellement partages entre les collaborateurs [Benford et al., 1996] [Bowers et al., 1996] [Goebbels et Lalioti, 2001]. Les buts atteindre, les rles attribus aux utilisateurs, ainsi que le partage des ressources ne sont pas des invariants structurels des EVC, ils sont dtermins par la tche raliser. Pour conclure, nous pouvons proposer une dfinition synthtique des EVC. Il s'agit d'un lieu de communication et daction partag par plusieurs collaborateurs distants ayant raliser collectivement une tche commune. 1.3.2 Caractristiques des EVC Plusieurs points discriminants se dgagent de la littrature pour caractriser les diffrents outils de mdiation de l'interaction. Ils s'appliquent tous aux EVC. Nous allons aborder quatre critres pour former une typologie des EVC et, par la suite, nous ferons appel cette typologie pour illustrer quelques exemples dEVC significatifs. 1.3.2.1 Les EVC synchrones vs. asynchrones Les outils synchrones permettent un change immdiat entre les individus. Le systme ragit de faon immdiate l'activit des diffrents collaborateurs. Les collaborateurs interagissent entre eux en temps rel.

44

Les Environnements Virtuels Collaboratifs l'inverse, les outils asynchrones instaurent un dlai entre les contributions respectives des diffrents utilisateurs. Ainsi les utilisateurs n'attendent pas de la part des collaborateurs de rponse immdiate leur action ou leur message. La synchronisation des changes est un critre de classification choisi par Johansen [Johansen, 1988] pour distinguer les outils daide la dcision. Les EVC sont-ils considrs comme appartenant au champ des systmes daide la dcision de groupe (GDSS pour Group Decision Support Systems) ? Grudin [Grudin, 1994] rappelle que dans les annes quatre-vingt, la frontire entre GDSS et CSCW8 (Computer Supported Cooperative Work) dont dpendent directement les EVC tait pour le moins floue. Parce quils regroupaient les mmes applications, en particulier les systmes de messagerie lectronique, les termes taient le plus souvent considrs comme synonymes. Puis les deux champs se sont distingus. Nous avons relev dans la littrature deux critres susceptibles de distinguer les outils de chaque champ. Le premier critre est le nombre de collaborateurs concerns par loutil. Selon Grudin, les outils de CSCW impliquent au maximum cinq six personnes alors que les outils de GDSS impliquent un plus grand nombre. Cet argument nous semble aujourdhui fragile tant sur le point thorique (quest ce qui distingue fondamentalement les processus de collaboration cinq et sept personnes ?) que sur le plan pratique (de nombreux EVC sont des outils destins plus de six personnes). Le second critre est le caractre interventionniste du systme sur le processus de collaboration. Hayne et Pendergast [Hayne et Pendergast, 1994] relvent que les outils de GDSS impliquent la structuration du problme alors que les outils de CSCW nont pas vocation dorganiser le processus. Comme nous le verrons au fil de ce mmoire, les EVC cherchent dsormais organiser le processus pour davantage defficacit dans la collaboration. Malgr une distinction historique, il est donc difficile actuellement de ne pas considrer les EVC et en particulier les EVC synchrones comme des outils de GDSS. 1.3.2.2 Les EVC immersifs vs. non immersifs Le terme immersif prsente une certaine ambigut dans la littrature. Le sens gnral de ce terme renvoie au fait que l'utilisateur est coup des stimuli de son environnement physique au profit de ceux de l'environnement virtuel, or il existe deux modalits d'immersion. Dans la premire, l'utilisateur est matriellement coup des perceptions de son environnement physique proche par le dispositif ncessaire l'EVC. C'est le cas par exemple quand l'utilisateur chausse des lunettes, des casques de ralit
8

TCAO en franais : Travail Coopratif/Collaboratif Assist par Ordinateur

45

Les environnements virtuels collaboratifs virtuelle. Les crans qui constituent le verre des lunettes masquent la vision de la pice dans laquelle il se trouve. Dans la seconde modalit, il n'y a pas de contraintes physiques qui empchent l'utilisateur de percevoir son environnement matriel. En revanche, ses processus attentionnels sont entirement ports sur l'environnement virtuel et ne traitent pas, ou plutt pas de faon consciente les stimuli de l'environnement physique. Ce dernier sens se rapporte des concepts plus connus dans le domaine sous le terme de Prsence [Lombard et Ditton, 1997]. C'est pourquoi nous prfrons rserver le terme d'immersion l'empchement matriel de percevoir l'environnement physique. En ce sens, nous partageons la dfinition de Burkhardt [Burkhardt, 2003] pour qui l'immersion est le degr avec lequel l'interface du systme contrle les entres sensorielles pour chaque modalit de perception et d'action via les dispositifs logiciels et matriels utiliss. Learning Studio est un exemple de prototype d'EVC non immersif. Il s'agit d'un systme d'enseignement distance, dvelopp par TELIA9 (oprateur tlphonique sudois) et le Swedisch Institute of Computer Science dans le cadre du projet europen Jupiter II10. Pour pouvoir tre utilis par des individus du grand public dans le cadre d'un enseignement gnral, le systme ne doit pas imposer de contraintes matrielles. Les quipements spciaux (lunettes de ralit virtuelle, priphriques de commande en trois dimensions) sont coteux et demandent gnralement de nombreux rglages (calibrage) avant exploitation. Ainsi la volont des concepteurs a t de rendre ce systme non immersif pour qu'il soit utilisable par le plus grand nombre sur un poste informatique quip de priphriques standards (clavier, souris, moniteur). 1.3.2.3 Les EVC textuels vs. spatiaux La nature de l'interface est l'un des facteurs les plus importants des EVC. Potentiellement, les EVC peuvent adopter une interface en deux dimensions voire une interface textuelle. Ce type de reprsentation tait contraint par les technologies de lpoque mais continue tre grandement employ, ne serait-ce que pour la simplicit technologique et la faible puissance requise, tant au niveau des clients que du serveur. Ensuite, apparurent les interfaces graphiques reprsentant le monde de faon visuelle. Lexemple le plus typique (et le plus tudi) est Habitat (Figure 10-gauche) une communaut dveloppe par LucasFilm au milieu des annes quatre-vingts et toujours active au Japon. Dans cette communaut, chaque utilisateur dispose dune reprsentation

10

http://www.telia.se http://www.eurescom.de/~public-webspace/P800-series/P807/index.html

46

Les Environnements Virtuels Collaboratifs graphique de son personnage et de lenvironnement (simple dcors, objets manipulables) dans lequel il volue. Les messages apparaissent dans des bulles au-dessus des utilisateurs. Cependant, les EVC reconstituant un espace en trois dimensions sont ceux qui viennent spontanment l'esprit. Ils composent la grande majorit des systmes du domaine. Mme si la beaut de surface nest pas un facteur dterminant de la vie de la communaut, il sagit dun facteur important de sa cration comme par exemple, le monde virtuel BlueMars qui se revendique comme un EVC Haute Dfinition (Figure 10-droite). Les EVC forte composante visuelle, ou dote dinterfaces conviviales et ergonomiques sont plus attractifs, et de ce fait, attirent le grand public. La fidlisation (indispensable l'tablissement d'une communaut) des internautes de passage dpend bien plus du contenu (animations, thmes de discussion, construction de relations personnelles, etc.) que du contenant (environnement 3D, multiples canaux de communication, etc.). Aprs l'tape de l'image, l'tape du son est en train de se mettre en place, que ce soit au niveau de l'environnement ou au niveau de la communication entre participants (base en gnral sur le protocole VoIP). Les interfaces les plus volues sont maintenant multimodales, employant la voix, le clavier et la souris en entre, le moniteur et le son en sortie. Les interfaces dites immersives (gants de donnes, visiocasques, etc.) sont encore peu prsentes, probablement pour des raisons financires (ce genre de priphrique est encore hors de porte du grand public) et technologiques (leur fiabilit/robustesse n'est pas trs leve compare aux priphriques plus classiques). Toutefois, comme le font remarquer Morningstar et Farmer [Morningstar et Farmer, 1990], au del d'un ensemble de moyens de communication de base, the technology used to present this environment to its participants, while sexy and interesting, is a peripheral concern. .

Figure 10 : L'environnement 2D Habitat [LucasFilm, 1982] et le monde virtuel BlueMars HD [Avatar Reality Inc, 2009]

47

Les environnements virtuels collaboratifs 1.3.2.4 EVC orients simulation vs. orients conversation Il existe dans la littrature une opposition entre les systmes qui favorisent la communication et ceux qui favorisent la simulation [Nakanishi, 2004]. D'o vient cette opposition ? Nous proposons une piste d'explication qui tend montrer que cette opposition est la rpercussion d'une distinction des processus interactionnels en jeu. Dans un travail de synthse de la littrature sur le rle des jeux de regards dans les activits collectives, Foulon-Molenda [Foulon-Molenda, 2000] recense plusieurs travaux dont les rsultats sont contradictoires quant l'utilit d'une assistance vido pour la coopration mdie entre deux interlocuteurs. Parmi les cinq raisons qu'elle voque pour expliquer ces divergences, elle retient le fait que la structure de la conversation diffre selon son but. Dans les conversations vise intellectuelle (rsoudre un problme, prendre une dcision), le rle des indices non verbaux est moindre que dans les dialogues vise sociale. D'aprs l'auteur, ce constat est en particulier valable pour les jeux de regards qui accompagnent la conversation. Un soutien technique fournissant la vido des interlocuteurs n'est donc pas systmatiquement une aide la conversation mdie, encore faut-il savoir quel type d'changes les oprateurs vont principalement avoir. Sur la base des travaux de Foulon-Molenda [Foulon-Molenda, 2000], Navarro [Navarro, 2001] propose un premier axe de catgorisation des situations de communication en fonction du besoin d'information sur la tche (centration fonctionnelle) et du besoin d'information sur les interlocuteurs (centration relationnelle). La distinction structurelle de la conversation en fonction de l'objet de l'interaction est un bon candidat pour expliquer cette scission entre les EVC orients simulation (centration fonctionnelle) et ceux orients conversation (centration relationnelle). L'EVC There11 (Figure 11) est un exemple typique de systme orient communication. Il offre diffrents cadres la communication mdie allant de la salle de runion formelle au salon de discussion prive. Les concepteurs ont dot les avatars d'un comportement non verbal sensible au contexte. La bibliothque de comportements de lavatar varie en fonction de la zone virtuelle dans laquelle il se trouve. Dans la salle de runion formelle, lavatar sera en mesure de lever la main pour prendre la parole mais ce geste ne sera plus disponible dans le salon priv. Les applications destines la CAO12 sont en revanche plus axes sur l'intermanipulation d'objets partags. l'inverse des systmes orients communication, ils illustrent une catgorie de systmes o la collaboration s'appuie sur les modifications d'un
11 12

http://www.there.com Conception Assiste par Ordinateur

48

Les Environnements Virtuels Collaboratifs objet partag. Un autre exemple est le prototype d'application Argonaute 3D (Figure 15) dans lequel une quipe de mdecins peut planifier des actes thrapeutiques sur les organes modliss d'un patient. Les choix de conception font que l'objet partag est situ au centre de la scne virtuelle et tous les utilisateurs ont le mme angle de vue sur lui.

Figure 11 : EVC There

1.4 Exemples dEVC


Nous tudions dans cette partie quatre diffrentes plateformes dEVC intressantes dans le cadre de nos recherches, c'est--dire pour ce qui concerne la communication interpersonnelle travers des avatars dans des mondes virtuels. Dans ce vaste domaine de la ralit virtuelle et des environnements virtuels, nous avons orient notre tude sur la communication en majeure partie vers des dispositifs non immersifs composs pour la plupart de trois supports de communication : le clavier, la souris et le micro (VoIP). Ils reprsentent en grande majorit la configuration typique des EVC actuels. Durant ces dernires annes, un nombre important dEVC, de mondes virtuels, sont apparus et sont devenus facilement accessibles au grand public. La Figure 12 (une version dtaille est prsente en Annexe A) illustre cette grande diversit des EVC utiliss dans diffrents domaines applicatifs aussi varis que le sport (Empire of Sport, etc.), les jeux

49

Exemples dEVC vido (World of Warcraft, Sims Online, etc.), les rseaux sociaux (Habbo, IMVU, etc.), lducation et la formation (KooDooz, etc.), la cration de contenu (ActiveWorld, etc.), etc.
Cration de contenu
Konstruction Zone Xivio VizWoz Lives2Play Taatu SL Teen Grid Smallworlds Metaplace Spicy Town Nicktropolis Bunnytown Activeworlds vMTV Multiverse Mycosm Freggers Cybertown There Kaneva Vivaty Omnidate iheartland IMVU Onverse Yoggurt Twinners Club Penguin Ourworld Ourspark Whirled Elf Island Poptropica Freakatars WeeWorld Muxlim

Rseaux sociaux Chat

TV/Film/ Livre

Pixie Hollow Roblox Zula Cars

My Mini Life SuperSecret Habbo

Chapatiz ZooKazoo WowzieWorld Neopets Zoopri Papermint Seapals

Jeux ludiques
Tootsville

Chugginton Mini-Match

Meez sMeet

Sports

Planet Soccer Live NFL Rushzone Action Allstars Galactick Football TechDeck Live Sportsblox Football Superstars Empire of Sports Interzone 10 ans + WilliNilli Handipoints KooDooz Kiwi Heroes Chobots Jumpstart NuNu DIVE Coaches Centre 20 ans + 30 ans +

HiPiHi Lively Second Life Home SceneCaster Qwaq Vastpark Erepublik 20 ans + NASA Club Cooee Yoowalk Weblin Rocketon 10 ans + Muxilm

Divers

Vector City Racers UpperDeck U

30 ans + Geosim Twinity

Amazing Worlds Near

Grockit MinyanLand Whyville Medikidz Audrees world GoSupermodel Stardoll

BlueMars 2150

Ecobuddies

Education Formation

Ekoloko All Star Babies WoogiWorld Garden Buddy

C3L3B

30 ans + Cybertown World Of Warcraft Gaia Dizzywood Chamber of Chat SpineWorld 8D 20 ans + Worlds (DMC) Free Realms vLES Revnjenz Webcarzz Freaky Creatures RideMakers 10 ans + PodPops Lego Club Pony Pals Saddle club Webkinz Hello kitty ActionJetz Ty-girls/ Beanie Babies Buildabearville Hot Wheeles Moshi Monsters FusionFall Robot Galaxy Barbie Girls Webosaurs Dofus

Monde Mirroir

Frenzoo

Black Manba

Girl Ambition Lolas Land

RoiWorld Girl Sense Digital Dollhouse

Zwinky Precious Girls Club

HipHops VW

Mode Style de vie


Disparu En ligne En dveloppement

Planet Cazmo Franktown Rocks

Jeux de rle

Musique

Jeux vido

Figure 12 : EVC par secteur dactivit *KZERO, 2009]13

1.4.1

Activeworlds : le prcurseur Activeworlds14 (Figure 13) est lun des projets de monde virtuel collaboratif le plus

ancien [Schroeder, 2002] et reste aujourdhui encore trs actif. On estime sa cration la fin des annes quatre-vingts. Ce monde sest rapidement dvelopp pour atteindre aujourdhui une taille comprenant prs de 60 millions dobjets virtuels visualisables. Il est devenu un monde immense o les crations sont nombreuses et a su voluer avec les airs du temps.

13 14

http://www.kzero.co.uk http://www.activeworlds.com

50

Les Environnements Virtuels Collaboratifs

Figure 13 : Vue sur un monde d'Activeworlds

Analyse des types de communication De nombreuses interactions existent sous forme de jeux. La principale forme de communication utilise une fentre de Chat , o toutes les personnes peuvent schanger des informations sans mme tenir compte de la position des autres utilisateurs. Cela laisse encore une impression de dpendance entre la fentre de Chat et le monde virtuel. Chaque utilisateur dActiveworlds est reprsent par un avatar pouvant gnrer des gestes de faon limit. Ils permettent dans certaines conditions de rendre les actes de communication attrayants et clairs. De plus, les mouvements et les gestes de lavatar sadaptent aux fonctionnalits du monde. Dans un monde virtuel illustrant un champ de batailles, des gestes de combat sont disponibles. Le passage dans un monde virtuel illustrant une boite de nuit , transforment les gestes de combat en autant de pas de danse qui permettent aux plus habiles dexcuter parfaitement un ensemble complexe de mouvements. Mais ds lors, un phnomne inverse apparat. Lors de dialogue inter-utilisateurs, certaines conversations sont tournes de manire pouvoir utiliser ces mouvements. Ces 51

Exemples dEVC gesticulations permettent ainsi de crer des situations amusantes. trangement, lutilisateur cherche utiliser au maximum ces mouvements, rendant parfois les discussions difficiles suivre. La communication dite verbale entre les utilisateurs seffectue par une fentre de dialogue avec un retour visuel dans le monde virtuel par lincrustation dune bulle de dialogue au dessus de lavatar metteur. Nous pouvons ainsi de manire plus simple faire le rapprochement entre le message mis et son metteur. Mais lemploi de cette mthode est limit une communication proche avec peu de communicants. Lorsque nous sommes loigns, les bulles sont illisibles et lorsquil y a de nombreux participants, il nest plus possible de connatre leurs metteurs. 1.4.2 DIVE : la rfrence DIVE (Distributed Interactive Virtual Environment) [Carlsson et Hagsand, 1993] fut lun des premiers systmes dEVC 3D et a t dvelopp par le SICS (Swedish Institute of Computer Science). Il permet plusieurs utilisateurs, reprsents sous la forme davatars 3D, dexplorer un espace virtuel et dinteragir les uns avec les autres (Figure 14). DIVE se veut tre une plateforme pour le dveloppement de mondes virtuels 3D collaboratifs. Les recherches et applications de DIVE sont nombreuses, citons notamment les interactions multimodales ou encore le contrle de robot distance [Avatare et al., 1997].

Figure 14 : L'EVC DIVE dvelopp par SICS [SICS, 1998]

52

Les Environnements Virtuels Collaboratifs Notre choix cest port sur DIVE car, dans un premier temps il a t source dinspiration de nombreux EVC et il constitue un systme complet avec des objectifs multiples en terme de communication et de collaboration entre les utilisateurs. La communication inter-utilisateurs Dans cette plateforme, il existe plusieurs possibilits de communication. La premire est assez triviale et connue, elle permet la communication avec dautres utilisateurs. Cette communication seffectue de manire dite classique : nous ouvrons un menu o la liste des utilisateurs est affiche, nous y choisissons un utilisateur que nous souhaitons contacter. Cette mthode nous donne lensemble des utilisateurs, mme ceux qui ne sont pas directement visibles. Nous pouvons ainsi slectionner une personne nonvisible. Il persiste nanmoins un problme dans cette mthode qui peut sapparenter un IRC : pour converser avec une personne seule, nous devons connatre son pseudonyme. Seule cette connaissance permet de faire la correspondance entre le dialogue de lutilisateur et son avatar 3D. Or si nous navons pas de connaissance du pseudonyme, il est difficile, voire impossible de communiquer avec celle-ci. Il est possible de lobserver et de la dsigner (par pointage) mais l encore, certaines situations rendent impossible cette action (ensemble dutilisateurs regroups). Concernant le dialogue proprement dit, il se droule le plus souvent sous forme dun Chat classique. Lorsquun utilisateur souhaite transmettre un message, il envoie son message dans un canal o tous les utilisateurs du canal voient le message en question. Il reste faire la correspondance entre le message envoy et lutilisateur correspondant. La communication avec des automates La seconde possibilit est une communication avec les lments du monde, tels que les robots et les agents. Dans le monde dintroduction de DIVE, nous pouvons interagir avec un automate. Ds que nous nous approchons de ce dernier, il peroit notre prsence, se tourne vers nous et nous salue. DIVE envoie toutes les informations concernant lutilisateur, permettant lautomate de connatre la position o nous saluer notre approche. Linteraction avec le monde Le troisime type de communication possible, qui est plus une interaction quune forme de communication, est la communication avec le monde lui-mme. Nous pouvons modifier et transformer le monde notre guise. Les restrictions concernant la

53

Exemples dEVC transformation du monde sont inexistantes. Linteraction est illimite avec le monde, elle seffectue le plus souvent laide de fentres et de menus, o les diffrents paramtres sont modifiables. Analyses des types de communication Lors de la communication avec dautres utilisateurs, tous les messages et informations changs sont sous la forme de textes. Cest lutilisateur qui travaille et interprte les messages quil reoit. Cest une communication restrictive. Elle nutilise pas les possibilits de la ralit virtuelle. La fentre de dialogue apparait lcran (occultant une partie de notre vision) et nous ne voyons pas ncessairement la personne. La communication tend rester au niveau de la fentre. Un dernier type de communication est prsent entre les utilisateurs : le pointage. On communique ainsi notre point dintrt aux personnes pouvant observer le vecteur rayon de dsignation. Cette dsignation permet de transmettre indiffremment le dsir de montrer un lieu ou de slectionner un objet. Nous avons alors une ambigut sur limpact recherch qui peut tre une source derreur. Conclusion Il existe diffrentes causes pour lesquelles une communication seffectue dans DIVE. Cest un modle gnraliste avec des objectifs divers, il est un support pour diffrentes recherches en cours. On peut lopposer un monde professionnel possdant un objectif prcis ou des tches prcises. Le souhait de dclencher une communication au sein de cet EVC provient dune envie de rencontrer des personnes prsentes. Dans ce cas, lutilisation de la bo te de dialogue savre peu efficace pour des raisons voques plus haut. Les autres moyens de communication peuvent parfois aboutir des ambiguts telle que la dsignation ou encore une mauvaise interprtation la raction des automates. 1.4.3 Spin-3D : EVC de France Telecom R&D et du LIFL Le projet Spin-3D [Saugis, 1998] est issu des rflexions menes depuis 1994 par lquipe Graphix du Laboratoire dInformatique Fondamental de Lille (LIFL) conjointement avec lquipe Trigone et le Centre Universit-conomie dducation Permanente de lUniversit de Lille (CUEEP). Dans un premier temps il visait proposer de nouveaux concepts dinterface pour le travail coopratif. Le projet a t ensuite soutenu par France Telecom R&D et a abouti la conception dune plateforme 3D permettant des utilisateurs 54

Les Environnements Virtuels Collaboratifs distants les uns des autres, de communiquer, de travailler, de produire des documents et dinteragir en temps rel dans un environnement virtuel commun. Elle est destine assister un travail collaboratif et a fait lobjet de plusieurs versions suivant les nouveaux apports technologiques et la finalit de lapplication (Figure 15) : pour ltude archologique avec Alexandrie, pour le diagnostic mdical avec Argonaute-3D, pour la revue de projet avec Viaconferencing 3D [Le Mer et al., 2005], pour la formation et les jeux ludiques (jeux de UNO).

Figure 15 : Les diffrentes versions de SPIN-3D En haut gauche : Space V1 [LIFL, 1998] ; en haut droite : Alexandrie pour la revue de projet archologique [France Telecom R&D, 2002] ; au milieu gauche : jeu de Uno [France Telecom, 2003] ; au milieu droite : Spin-3D pour la formation [France Telecom, 2004] ; en bas gauche : Argonaute 3D pour le diagnostic mdical [France Telecom, 2005] ; en bas droite : ViaConferencing 3D [France Telecom, 2007]

55

Exemples dEVC Analyse de la communication Les nombreuses applications de la plateforme ont un but collaboratif. De ce fait, lEVC synchrone est orient conversation et donc vers des actes de communication entre utilisateurs travers un environnement virtuel. Dans le cas de lapplication Argonaute 3D (Figure 15) ralise en partenariat avec lInstitut de Recherche sur les Cancers de lAppareil Digestif de Strasbourg (IRCAD), plusieurs praticiens exerant dans des villes ou tablissements diffrents se runissent distance travers lEVC pour analyser un dossier mdical, tablir un diagnostic et planifier une intervention chirurgicale. Ensemble, ils ont la possibilit dobserver et dtudier en 3D lorgane malade dun patient, de le manipuler, voire de simuler une opration. Lintrt de cette application est de partager un mme point de vue sur un objet virtuel et de pouvoir dialoguer suivant ce contexte commun. Chaque manipulation de lobjet virtuel peut tre transmise aux autres utilisateurs qui partagent ainsi un mme point de vue. Ce contexte commun a pour objectif de faciliter les prises de dcision par une meilleure comprhension des messages changs entre les utilisateurs. Pour supporter la prsence des diffrents collaborateurs dans lEnvironnement Virtuel, Cdric Dumas [Dumas, 1999] avait envisag plusieurs solutions : une photographie, une vido ou bien un avatar 3D. La solution retenue a t celle de lavatar 3D plac dans un bandeau autour dune table de runion 3D. Il est noter que lutilisateur loc al ne se voit pas dans linterface, il voit uniquement les autres. Linterface permet de reporter distance les diffrentes actions effectues par un utilisateur. Ses interlocuteurs interprteront ses actions par lintermdiaire de son avatar : il permet de rendre le point dintrt de lutilisateur grce la direction du regard. Il dispose galement dun pointeur, reprsentation distante de son pointeur local, lui permettant de dsigner distance des lments de lenvironnement. Dans les situations relles de communication, le canal verbal est utilis de faon naturelle et inconsciente par la VoIP. Les avatars sont galement capables de gnrer des gestes lis laction des utilisateurs sur linterface. Par exemple, le dplacement du pointeur par un priphrique 3D tel que la SpaceMouse15 entraine un pointage de la main (dictique) par lavatar reprsentant lutilisateur (technique de la cinmatique inverse du bras de lavatar li au pointeur). Au cours de sa thse, Le Mer [Le Mer, 2001] a identifi pour cela les donnes entrer dans le systme, le dispositif technique mettre en uvre et la faon danimer les avatars 3D pour les rendre rellement communicants.
15

http://www.3dconnexion.fr

56

Les Environnements Virtuels Collaboratifs Un rcent partenariat entre le LIFL et le Laboratoire franco-chinois de recherche en Informatique, Automatique et Mathmatiques Appliques (LIAMA16) a permis de reprendre ces problmatiques de reprsentation des comportements verbaux et non verbaux dans lenvironnement Spin-3D via des avatars. Une description des techniques utilises est faite dans le Chapitre 2. 1.4.4 Second Life : le plus connu Il nous est impossible de ne pas citer ce monde virtuel, source dtudes pour de nombreuses communauts. Plusieurs millions de personnes travers le monde se connectent sur ce monde virtuel afin de vivre et de fabriquer une seconde vie . Les objectifs sont orients vers la cration, cest tout naturellement que le monde regorge des possibilits de crations. Des bureaux virtuels dIBM ou encore des partis politiques peuvent dornavant tre visits sur la place principale du monde. La grande force de cet EVC rside dans la possibilit quasi infinie dinteractions possibles, chaque mouvement, chaque action peut tre paramtre. Un langage informatique, le Linden Script Langage17 est apparu pour permettre non seulement aux experts mais aussi aux nophytes de dvelopper une partie personnelle de leurs interactions. Analyse de la communication La communication verbale entre les utilisateurs sest longtemps faite par des moyens de Chat traditionnels. Aujourdhui, les utilisateurs peuvent communiquer de faon synchrone grce des technologies de tlphonie par internet (VoIP). Ils dialoguent ainsi en temps rel avec les autres participants peuplant le monde virtuel. Deux modes de communication verbale sont disponibles : une communication prive avec un utilisateur ; une communication public avec un groupe dutilisateurs.

Concernant lanimation des avatars reprsentant les utilisateurs dans Second Life, il existe une grande variabilit de gestes et dexpressions faciales disponible dans des bases danimations et accessible par le moyen de menus contextuels. Lutilisateur enclenche ses

16 17

http://liama.ia.ac.cn http://www.secondlife.com

57

Conclusion diffrentes animations en choisissant dans ces menus le geste ou lexpression faciale quil souhaite rendre visible aux autres participants par lintermdiaire de son avatar.

Figure 16 : Un exemple de runion dans Second Life [Liden Lab, 2009]

1.5 Conclusion
Nous avons vu dans ce chapitre que les Environnements Virtuels Collaboratifs se distinguent des autres moyens de communication par le fait quils offrent aux utilisateu rs distants un lieu de communication et daction. Ce lieu partag fournit un contexte commun lactivit collective. Le premier dfi de ces espaces immatriels est de susciter chez lutilisateur la conscience de ses moyens dinteraction ainsi que la conscience de la participation des autres utilisateurs. Bien quils puissent adopter une grande varit de formes, ils sont catgorisables par leur capacit prendre en charge les changes synchrones entre les participants, par les contraintes qu'ils font peser sur la perception de l'environnement physique (le caractre immersif), par leur apparence textuelle ou graphique et enfin par leur orientation vers la simulation ou la communication. La revue des critres de catgorisation nous a permis de dfinir le primtre de lobjet dtude. Nous allons travailler sur la communication/collaboration dans les Environnements Virtuels Collaboratifs synchrones, spatiaux et non immersifs. De lanalyse des EVC, il ressort une grande diversit des systmes notamment au niveau de la communication. Le premier constat fut de remarquer lutilisation massive par 58

Les Environnements Virtuels Collaboratifs les mondes virtuels de loutil Chat . La communication entre les interlocuteurs seffectue au moyen de messages textuels, rendant moins naturelle la collaboration travers ces systmes. Certains de ces environnements virtuels ont cherch enrichir cette communication en lui attribuant diffrents supports, notamment en utilisant des avatars pour reprsenter les utilisateurs distants dans le monde virtuel. Cest ce que nous allons expliquer au prochain chapitre, en analysant le concept davatars 3D dans les environnements virtuels et les moyens de les animer de faon autonome grce lutilisation de modles comportementaux cognitifs computationnels.

59

Chapitre 2 Avatars et modles comportementaux

61

Les devises Shadok, Jacques Rouxel (1931-2004)

Comme nous lavons indiqu dans lintroduction gnrale, les utilisateurs des EVC sont reprsents par des avatars et ils sont rarement que des observateurs de ces environnements. Lavatar doit afficher des informations sociales sur lidentit et le rle de lindividu quil reprsente. Il doit galement rendre visible certains aspects de lactivit de lutilisateur en cohrence avec lenvironnement virtuel (les actions de lutilisate ur, son centre dintrt, son point de vue, voire jusqu ses motions). Pour restituer toutes ces informations, les concepteurs dEVC sinterrogent sur le rapport au ralisme, potentiellement accessible grce aux techniques de ralit virtuelle. Une autre question se pose : lutilisateur va til devoir grer de faon consciente lanimation de son avatar ? Si cest le cas, cette charge cognitive va sajouter celle de ralisation de la tche principale.

63

Les avatars Une piste de solution souvre avec linsertion de comportements autonomes qui se dclenchent sur la base dindices capts dans lactivit de lutilisateur. Dans ce chapitre, nous allons tout dabord prsenter le concept davatar 3D et lillustrer par quelques exemples de projets significatifs mlant interactions entre les humains et les avatars. Nous terminerons ce chapitre en abordant les modles comportementaux qui permettent dassurer lautonomie des entits virtuelles.

2.1 Les avatars


De faon consensuelle, c'est le terme avatar qui a t retenu pour dsigner la reprsentation de l'utilisateur dans un espace virtuel. L'origine du terme avatar est rechercher dans la religion hindoue. Avatar est un terme sanscrit qui signifie descente . Souvent utilis au pluriel (Avatra), il dsigne les multiples incarnations des divinits brahmaniques. Les incarnations de Vishnou, Dieu protecteur du monde, sont nombreuses mais lon retiendra que sa premire mtamorphose lui fit prendre la forme dun poisson pour annoncer aux hommes le dluge et leur apprendre construire un navire (Figure 17 gauche). Plus tard Vishnou prit comme avatar une tortue pour soutenir sur son dos laxe du monde (Figure 17 - droite). Ltymologie du terme contient l'ide d'une incarnation adapte l'environnement dans lequel elle est place. C'est une notion centrale car l'avatar qui symbolise l'utilisateur est une entit virtuelle au mme titre que les objets qui composent le lieu virtuel. Il est donc tout particulirement en mesure de symboliser une interaction avec le lieu et les objets virtuels. Comme nous l'avons vu prcdemment, il s'agit d'un avantage par rapport aux dispositifs vido qui n'ont pas ce potentiel d'interaction avec l'environnement virtuel.

64

Avatars et modles comportementaux

Figure 17 : Matsya le poisson ( gauche) ; Kurma la tortue ( droite) - Deux des dix incarnations de Vishnou

2.1.1

Les fonctions attribues lavatar D'aprs la littrature, l'avatar doit assurer plusieurs fonctions. Nous les avons

classes en quatre catgories selon la finalit du bnfice attendu de la prsence de l'avatar. Du point de vue de l'activit, ces catgories sont fortement interconnectes. Les fonctions dordre social Plusieurs auteurs s'accordent sur les fonctions les plus essentielles de l'avatar. Celui-ci doit avant tout indiquer la prsence d'un utilisateur dans l'environnement et rendre explicite son identit [Guye-Villme et al., 1998] [Benford et al., 1995]. Celle-ci peut tre affiche de plusieurs faons. Les deux modalits les plus classiques pour restituer l'identit de l'utilisateur sont l'intitul textuel attach sous forme d'tiquette l'avatar et la reprise de l'apparence physique de l'utilisateur, ou tout du moins de certains traits distinctifs dans la situation d'interaction, sur la forme graphique de l'avatar. Les avatars doivent galement permettre de diffrencier deux utilisateurs de l'environnement partag. Enfin, les concepteurs estiment que les avatars doivent marquer le rle social ou hirarchique de l'utilisateur. Selon Mynatt [Mynatt et al., 1997], l'avatar doit reproduire un rle dans un contexte social, par exemple une relation hirarchique enseignant/tudiant comme dans Learning Studio. Cette exigence s'applique tout particulirement aux situations de collaboration marques par de fortes relations hirarchiques, comme c'est le cas pour l'EVC ScuRvi [Querrec, 2002] consacr la simulation des situations de crise 65

Les avatars gres par la scurit civile franaise. Les utilisateurs de ScuRvi sont des agents de la scurit civile. Par consquent, ils obissent une structure hirarchique trs marque. Il existe des situations o les liens hirarchiques sont moins marqus comme pour les situations de runion distance ou de travail collaboratif. Dans ces situations, la notion de rle peut tre attribue l'animateur de la runion, au modrateur ou permettre de diffrencier les professions en prsence dans un groupe pluridisciplinaire. Les fonctions centres sur la tche Le premier devoir de lavatar relev par Benford [Benford et al., 1995] est celui de la disponibilit du collaborateur. Selon lui, l'avatar doit indiquer les moments o le collaborateur est en mesure d'interagir avec les autres. Il met en pratique ses recommandations au sein de la plateforme DIVE sur les avatars les plus basiques, cest -dire quand les utilisateurs sont reprsents par un assemblage de blocs en forme de T . Par exemple, lavatar est pourvu doreilles quand le canal audio est ouvert, signifiant ainsi que lutilisateur peut entrer en communication audio. Grce cette option, un utilisateur signale au groupe qu'il s'est absent et ainsi vite de crer des ambiguts sur sa volont d'interagir avec les autres ou sur le bon fonctionnement du dispositif de mdiation. Les auteurs s'accordent sur le fait que l'avatar doit symboliser le point de vue de l'utilisateur (ce que voit l'utilisateur de la scne virtuelle) ou son centre d'intrt dans l'environnement. Parmi les moyens techniques proposs pour cela, certains mentionnent que les avatars doivent avoir une face afin de rendre visible leur orientation dans l'environnement virtuel. Au-del du centre d'intrt de l'utilisateur, l'avatar doit tre en mesure de symboliser ses actions. Il doit donc dynamiquement changer de forme ou de posture pour rendre compte des actions en temps rel. Il existe des dispositifs dans lesquels l'interface participe au symbolisme des actions. Par exemple en faisant adopter l'icne d'un outil le code couleur d'un utilisateur, ce code couleur tant explicitement prsent sur l'avatar de l'utilisateur. Symboliser n'est pas synonyme de reproduire . Benford [Benford et al., 1995] cherche exploiter le potentiel de la ralit virtuelle pour afficher sur l'avatar des informations qui ne sont pas prsentes dans l'environnement physique de l'utilisateur. Il propose que l'avatar restitue l'historique de l'activit de l'utilisateur. Dans la mme volont de dpasser le rel, Guynup & Carlson [Guynup et Carlson, 2000] proposent que l'avatar prenne la forme de l'information transmettre dans une situation d'apprentissage. Par ce processus, ils cherchent viter une dispersion de l'attention des apprenants. En revanche, ils n'voquent pas les problmes d'ambigut lis 66

Avatars et modles comportementaux la cohabitation sur l'avatar des informations propres l'enseignant et celles propres au contenu. Dans leur article, Guynup et Carlson illustrent leur concept par un cours dont le contenu porte sur les ctacs [Guynup et Carlson, 2000]. L'avatar du professeur se transforme en baleine. Nous esprons pour le professeur que les lves sauront faire la part de ce qui reprsente leur enseignant. Le ralisme des avatars L'avatar existe pour rendre compte d'un certain nombre d'informations sur l'utilisateur auprs de ses collaborateurs. D'aprs la littrature, ces informations portent sur l'identit de l'utilisateur, son statut (professionnel, civil ou familial), son rle dans le collectif de travail, mais aussi sur le rapport de l'utilisateur la tche comme ses actions en cours, ses centres d'intrts voire jusqu' l'historique de son activit. Pour Benford [Benford et al., 1995], la ncessit de lavatar dans les EVC est justifie par lobjectif de reproduire tout le potentiel de communication quautorise notre corps (prsence physique, activit, attention, disponibilit, humeur, statut, localisation, identit, capacits) y compris par le comportement non verbal. Selon Guye-Villme [Guye-Villme et al., 1998], plus lavatar sera raliste (dapparence et danimation), mieux il assurera les fonctions prcites. loppos, Fuchs [Fuchs et al., 2001] affirme que le ralisme nest pas une fin en soi, et prcise que la demande (en terme de tches, de capacits techniques et de contraintes sur lutilisateur) dtermine galement la forme du service. Certaines applications (Learning Studio, Arena World) bases sur lutilisation davatars tentent de reproduire chez les avatars un comportement le plus humain possible. Or limplmentation de comportements propres lhumain, parce quelle est mal ralise ou parce quelle est isole des autres comportements, peu donner lavatar une allure peu naturelle voire incohrente. Au dbut des annes soixante-dix, le chercheur en robotique Masahiro Mori [Mori, 1970] introduit lhypothse dune valle drangeante (Uncanny Valley en anglais) qui dcrit la raction motionnelle humaine face au degr de ralisme dun sujet virtuel ou robotique (Figure 18). Daprs sa thorie, si le fait de ressembler un humain favorise dans un premier temps lacceptation du robot, au-del dun certain seuil de ralisme physique et si le robot nest pas parfaitement assimilable une personne humaine, cette acceptation seffondre et peut conduire son rejet. Plus un robot ou un personnage virtuel ressemble lhomme, plus il risque dtre rejet au moindre dfaut physique, comme lont dmontr Karl MacDorman et ses collgues de luniversit de lIndiana [MacDorman et Ishiguro, 2006]. En demandant des cobayes humains de donner leurs impressions face des 67

Les avatars visages gnrs par ordinateur, ils se sont rendu compte que les proportions atypiques (des yeux moiti plus grands que les standards humains par exemple) taient beaucoup plus drangeantes lorsquelles concernaient des visages dont la texture, les traits et la couleur taient en tous points semblables ceux dun visage rel. Mori [Mori, 1970] lui-mme voyait dans ce rejet une manifestation de notre instinct de conservation pour lequel une apparence anormale chez nos semblables serait synonyme de maladie contagieuse. Cest pour viter une contamination potentielle que nous prouverions instinctivement un dgot pour les comportements dviants. Cest sur la base de ces observations quOusland [Ousland, 1999] constate quun avatar fantaisiste est mieux accept pour reprsenter un participant car les mouvements erratiques qui laniment sont moins choquants que sur un avatar dapparence raliste.
valle drangeante mobile immobile
Humain (Masahiro Mori)

B
Manga

VIRSTORIA

familiarit

Wall-E Blockie

VIRSTORY

Ralisme

50%

100%

Heavy Rain [Quantic Dream, 2009] Final Fantasy Geminoid

Figure 18 : Principe de l'Uncanny Valley (Valle Drangeante)

Le contrle des avatars Lautonomie est un critre dfinissant la dpendance de lavatar aux actions volontaires de lutilisateur pour lanimer. Le Mer, Perron, Chaillou, Degrande & Saugis [Le Mer, 2001] ont relev cinq techniques danimations des avatars, reprsentatives de diffrents degrs dautonomie. Lavatar marionnette : lutilisateur utilise des priphriques spcifiques pour piloter son avatar. Avantage : cette technique prsente lavantage dtre simple mettre en uvre (une action priphrique correspond gnralement une commande danimation de lavatar). Elle est essentiellement utilise dans

68

Avatars et modles comportementaux le domaine des jeux vido. De nouveaux systmes priphriques dinteraction non-intrusifs commencent faire leurs apparitions telles que les interfaces crbrales (Figure 19). Inconvnient : elle ncessite un apprentissage de lutilisateur sur les commandes danimation de lavatar, et donc un effort cognitif important pour les interprter. De plus, les priphriques utiliss sont souvent intrusifs, dans le sens o ils gnent le comportement des utilisateurs.

Figure 19 : Interface crbrale pour piloter un avatar dans les mondes virtuels [Keio Univesity, 2006]

Lavatar symbolique-action : lanalyse des actions de lutilisateur dans lenvironnement virtuel entrane lanimation de lavatar via une bibliothque de comportements spcifiques. Avantage : cette technique danimation permet lutilisateur de se passer de piloter son avatar. Lanimation de lavatar est infre sur les actions de lutilisateur sur lenvironnement et prsente donc une certaine forme dautonomie. Inconvnient : tout comme le concept davatar marionnette , les comportements de lavatar sont associs des actions de lutilisateur quil ne peut raliser quaprs apprentissage des commandes. Par exemple, dans lapplication Spin-3D (Figure 9), lutilisateur doit slectionner un objet de lenvironnement 3D pour que lavatar ralise un pointage de la main (dictique) sur cet objet. Lavatar symbolique-motion : lutilisateur anime son avatar travers une bibliothque de comportements symboliques prdfinis. Ce processus danimation des avatars est trs utilis dans les environnements de Chat 3D comme Second Life (Figure 20) et propose lutilisateur dexprimer des tats motionnels ou affectifs, des humeurs ou 69

Les avatars encore, des niveaux de prsence par le choix dans un registre fini de comportements au moyen dune interface. Inconvnients : avec cette technique, le comportement de lavatar est limit une bibliothque restreinte. La slection dun comportement de lavatar est parfois un long processus de slections ditems dans un menu. Par exemple dans Second Life, il faut passer par quatre menus pour faire un salut de la main (AnimationsGestesBonjour Battement de la main ).

Figure 20 : Slection d'une animation gestuelle partir d'un menu dans Second Life [Liden Lab, 2004]

Lavatar mimtique : reproduction isomorphique du comportement de lutilisateur grce aux techniques danalyses vido qui permettent de dtecter les gestes et les expressions faciales dun utilisateur et de les re-synthtiser dans lenvironnement virtuel. Cette technique suppose que la capture isomorphique de lutilisateur dans lespace rel corresponde la synthse danimation de lavatar (Figure 21). Avantage : ce concept de contrle des avatars ne ncessite pas dapprentissage de la part de lutilisateur, puisque cest au systme (lordinateur) dinterprter les gestes, les motions, etc. Les techniques modernes de capture de mouvements sans capteurs [Noriega et Bernier, 2007] [Schreer et al., 2005] permettent ainsi dviter dutiliser des dispositifs intrusifs.

70

Avatars et modles comportementaux Inconvnient : lutilisateur doit mimer le comportement que son avatar est cens re-synthtiser. Or, il est parfois ncessaire et/ou souhaitable que ce couplage ne se produise pas, comme par exemple lorsque lutilisateur utilise le clavier ou la souris pour manipuler des objets de lenvironnement virtuel.

Figure 21 : Projet GestAvatar [Schreer et al., 2005]

Lavatar agent : lanalyse de lactivit dans lenvironnement virtuel entrane lanimation de lavatar via une bibliothque de comportements symboliques. La diffrence avec le concept davatar symbolique-action , est que lavatar peut avoir un comportement compltement indpendant des actions de lutilisateur en fonction de ce qui se passe dans lEVC. Avantage : le contrle de lavatar est totalement dlaiss au systme (ordinateur) et permet ainsi lutilisateur deffectuer sa tche principale, communiquer par exemple avec son interlocuteur sans se proccuper de sa reprsentation dans lEVC. Inconvnient : lutilisateur perd tout contrle de son avatar et doit faire confiance au systme (ordinateur) pour excuter le bon comportement (conflit dintentionnalit entre lutilisateur et son avatar). 2.1.2 Quelques exemples de communauts mixtes Si les situations o seuls des humains interagissent ensemble peuvent dfinir une communaut virtuelle , et les situations o seul des agents interagissent entre ensemble rvlent du domaine des Systmes Multi Agent , celles mettant en interaction des agents et des humains peuvent appartenir une troisime voie, celle des communauts mixtes . Dans cette section, nous proposons dexplorer quelques projets significatifs dans

71

Les avatars lesquels les avatars comportementaux (agents) sont en interaction avec les humains. Nous commencerons dans un premier temps par dcrire trois applications dveloppes au sein de lquipe Gesture and Narrative Language Group (GNL Research Group) du MIT18 dirig par Justine Cassell. Ces applications sorientent plus vers des aspects communicationnels avec lhumain. Nous y dcrirons le projet REA, une application dagent immobilier et nous nous intresserons plus particulirement au projet BodyChat et SPARK. Nous tudierons ensuite le projet Amusement, de luniversit de Madrid, qui traite principalement des interactions entre humain par lintermdiaire dun monde virtuel en adoptant un modle de raisonnement intressant dans le cadre de nos travaux. Enfin nous terminerons par dcrire les nouveaux avatars dvelopps au sein de lEVC Spin-3D comme voqu dans le Chapitre 1 et qui prsente la particularit de mixer le modle mimtique et agent du contrle des avatars. 2.1.2.1 REA REA constitue actuellement un exemple particulirement abouti davatar agent conversationnel et fournit une bonne approximation des problmes relevant de cette catgorie davatar. Le projet REA (Real Estate Agent) dvelopp depuis 1999 par lquipe de Justine Cassell [Cassell, 1998] [Cassell et al., 1999] tudie les modalits dinteractions entre les utilisateurs et un avatar agent apparaissant sur un cran de projection (Figure 22). Il a t dvelopp dans un contexte de conversation avec un agent immobilier et sattache fournir des interactions aussi naturelles que possible avec lutilisateur, dans le cadre de la recherche dun logement laide dune base de donnes de maisons virtuelles.

Figure 22 : Justine Cassell en interaction avec lagent REA *GNL, 1999]

18

MIT : Massachusetts Institute of Technology

72

Avatars et modles comportementaux Pour ce faire, lapplication REA dispose de moyens conversationnels visuels (expressions corporelles, faciales, regards et diverses expressions gestuelles, etc.) et vocaux (synthse vocale). Elle est galement dote de camras en entre pour juger de la prsence ou de labsence des utilisateurs, ainsi que pour interprter certain de leurs mouvements en interaction, comme les gestes dinterruption. Enfin, elle est pourvue dun micro pour effectuer une reconnaissance vocale de certaines commandes. La Figure 23 illustre larchitecture de REA qui suit une segmentation classique perception (Input Manager), raisonnement (Deliberative Module) et action (Action Scheduder). Nous pouvons souligner les autres points suivants : les entres sont de modalits diverses (dtection de prsence, dorientation du regard) et rgies par un systme attentionnel pour tre ensuite intgres en une seule reprsentation smantique passe de module en module. Les sorties sont galement multimodales (gestes, orientation du regard, parole, etc.) ; le gestionnaire des entres opre une premire dcision sur la ncessit dune raction rflexe ou dune raction rflchie (ceci est illustr sur la figure par le cblage en dur ou hardwired reactions de certaines ractions) ; par exemple, lapparition soudaine de linterlocuteur humain dans le champ visuel peut amener REA hocher de la tte. Il sagit aussi dun mcanisme permettant de synchroniser, en cours de conversation, ses propres comportements avec ceux de linterlocuteur et ainsi mieux prendre en compte le contexte du dialogue ; le module de dcision spare distinctement les fonctions propositionnelles des fonctions interactionnelles pour contrler la dynamique conversationnelle ; les gestes accompagnent les contenus proportionnellement de telle sorte quils fournissent des indices supplmentaires sur le contenu du dialogue (REA carte les bras pour illustrer ltendue dune pice par exemple pendant quelle explique dautres avantages de la pice).

73

Les avatars
Hardwired Reactions

Knowledge Base Decision Module Discourse Model

Interactional Processing Input Devices Input Manager Understanding Module Propositional Processing Animation rendering Speech synthesizer Devices. Reponse Planner Generation Module Action Scheduler Output Devices

Speech Body position Gaze direction Gesture Recognition ...

Deliberative Module

Figure 23 : L'architecture de REA [Cassell et al., 2000]

La spcificit la plus marque de ces travaux est la prise en charge de laspect visuel de la conversation, par lemploi davatar agent anthropomorphique19 tant dans lapparence que du point de vue du comportement. Dans les communauts de la ralit virtuelle et de lintelligence artificielle, ces avatars sont nomms Agents Conversationnels Anims20 (ACA) ou Embodiment Conversational Agent (ECA) en anglais dans le sens o ils incarnent le systme, la machine, en interaction conversationnelle avec lhumain. Ces interfaces personnifies sont plus quune interface revtue dune forme humaine ou animale ( lifelike ou believable ). La spcificit revendique par ces interfaces est la conversation, particulirement dans les caractristiques suivantes : perception et interaction multimodale ; action multimodale ; gestion de fonctions conversationnelles (tours de parole, ruptures et ngociation, etc.) ; expression de la situation de la conversation.

Le GNL Research Group aborde la quasi-totalit des points pertinents des interfaces conversationnelles personnifies, avec toutefois comme nous lavons soulign, une emphase sur un point rarement abord auparavant : la visualisation de la communication [Cassell, 2002].

19

Anthropomorphique : caractristiques comportementales et/ou morphologiques identique lhomme. 20 Le terme d Agent Intelligent Incarn est galement possible

74

Avatars et modles comportementaux 2.1.2.2 BodyChat L o REA est un avatar agent totalement autonome, BodyChat [Vilhjalmsson, 1997] [Vilhjalmsson, 2003] propose des avatars semi-autonomes . Comme dans le cadre de nos travaux, cette application propose de mettre en relation plusieurs utilisateurs distants par lintermdiaire dune interface Chat visible dans un environnement 3D. Cette interface permet la visualisation de son propre avatar et de celui de ses interlocuteurs, ainsi que quelques composants de contrle permettant de spcifier les lignes directrices du comportement de lavatar. La premire version de lapplication BodyChat [Vilhjalmsson, 1997] (Figure 24 gauche) sest focalise sur la gnration dindices non verbaux et particulirement les regards et les expressions faciales, dduite de la proximit entre les avatars, et de certaines actions et paramtres excuts par les utilisateurs sur lenvironnement 3D. Lobjectif principal de ce projet tait de montrer limportance des regards dans le processus de conscientisation et dengagement des utilisateurs dans les EVC. Un ensemble de rgles est activ chaque instant, en fonction de lintentionnalit communicative globale de lutilisateur. Par exemple, un utilisateur peut faire fixer par son avatar un interrupteur pour indiquer quil nest pas intress discuter (Chatter) avec dautres utilisateurs qui lapprochent. Cela se traduit par lexcution dun comportement dvitement de lavatar, chaque fois quun utilisateur souhaite interagir. Par contre si un utilisateur A accepte la conversation, son avatar se tourne sur lavatar de lutilisateur B distant pour lui signifier quil accepte la conversation en lui faisant face et en excutant quelques animations faciales et gestuelles telles que la salutation avec le bras.

,
Figure 24 : la premire version de BodyChat (gauche) explorait en particulier le support de prsence et dengagement des utilisateurs et la dernire version (droite) se centrait sur le tour de parole comme partie intgrante de la gestion des interactions. [Vilhjalmsson, 2003]

75

Les avatars Une seconde version de BodyChat [Vilhjalmsson, 2003] a t conue en 1999 et sest intresse principalement au processus conversationnel en petit groupe (Figure 24 droite). Vilhjalmsson a prsent un algorithme qui gnre automatiquement des comportements de tour de parole sur les avatars, comme lever le bras pour demander la parole ou donner la parole un autre utilisateur par lintermdiaire des regards , et tout cela en se basant uniquement sur lanalyse de lactivit des utilisateurs sur leur clavier. Une tude utilisateur a ensuite t mene [Cassell et Vilhjalmsson, 1999] sur trois versions diffrentes du systme BodyChat. La premire version permettait lutilisateur de slectionner les regards, les expressions faciales et les gestes partir dun menu (Man ual mode). La seconde version de BodyChat les gnrait automatiquement (Auto mode). La dernire version est un mixte entre la premire version et la deuxime version de BodyChat, dans le sens o les avatars gnraient automatiquement des comportements avec la possibilit donne lutilisateur den ajouter manuellement partir dun menu (Both mode). Les rsultats de ltude (Figure 25) montrent que la version de BodyChat dont lutilisateur ne prend pas en charge lanimation (Auto mode), a t juge par les utilisateurs comme plus expressive et plus naturelle que les autres versions de BodyChat (Manual et Both mode).

Figure 25 : Effet des avatars Manuels vs. Autonomes vs. Mixtes sur la perception de l'expressivit, de la naturalit et du contrle de la conversation [Cassell et Vilhjalmsson, 1999]

Le rsultat le plus controvers et peut-tre le plus important est que les utilisateurs de la version automatique des avatars de BodyChat avaient limpression de mieux contrler leur conversation avec leurs interlocuteurs compar aux autres versions de BodyChat. Vilhjalmsson a trouv cela surprenant, car les comportements non verbaux ntaient pas

76

Avatars et modles comportementaux sous le contrle des utilisateurs, mais comme ils taient librs de leur gestion, ils ont pu se concentrer essentiellement sur la conversation. Enfin dautres rsultats, bien que non statistiquement significatifs, indiquent que les utilisateurs de BodyChat (Auto mode) se rappelaient mieux des informations recueillies au cours des conversations et quils se livraient des conversations plus longues. 2.1.2.3 SPARK la suite de ses travaux sur BodyChat et en parallle du projet BEAT21 [Cassell et al., 2001], outil de modlisation de comportement co-verbaux pour les avatars, Vilhjalmsson a continu travailler sur cette problmatique de la restitution de la communication non verbale distance. Il a pour cela, dvelopp larchitecture SPARK22 [Vilhjalmsson, 2003]. Toutes les interactions connexes qui passent travers cette architecture sont reprsentes par des structures de donnes XML23. Chaque balise XML contient la description de laction de lutilisateur sur linterface comme par exemple le message tap et quelques vnements de contexte. Un analyseur de discours associe chaque mot tap par le locuteur un comportement non verbal et le restitue travers lavatar. Lapplication MapChat (Figure 26) a ensuite t conue sur la base de larchitecture SPARK. Elle permet des utilisateurs distants reprsents par des avatars dans un environnement virtuel partag de chatter et de manipuler une carte interactive dans lobjectif de planifier un itinraire de vacances. Comme pour BodyChat, une tude a ensuite t mene pour valuer la force perceptive de l'approche, en comparant des groupes qui collaborent une tche de planification d'itinraires l'aide de MapChat avec et sans avatars anims. Bien que les rsultats montrent pour les deux groupes un mme taux de russite dans lexcution de la tche, le groupe utilisant des avatars comportementaux, a estim que la tche tait beaucoup plus facile raliser, et le sentiment d'efficacit et de consensus a t significativement plus fort. Une analyse des transcriptions de conversation montre une amlioration significative du processus de conversation. Les avatars amliorent

21 22

BEAT : Behavior Expression Animation Toolkit Le mot SPARK (tincelle en anglais) vient du fait que Vilhjalmsson voulait transmettre la lueur/ltincelle de vie des utilisateurs sur des longues distances travers une interface humanise . 23 XML : eXtensible Markup Language est un langage informatique de balisage gnrique.

77

Les avatars galement la perception de leffort de chaque utilisateur. Enfin, MapChat avec des avatars a t juge nettement plus personnelle, agrable et facile utiliser travers des avatars.

Figure 26 : Planification ditinraire dans MapChat [Vilhjalmsson, 2003]

2.1.2.4 Amusement Lobjectif principal du projet Amusement fut de crer un cyberespace dans lequel les utilisateurs peuvent interagir librement, amenant ainsi une rflexion (et un dveloppement) des moyens mis la disposition des utilisateurs [Imbert et al., 1998] [Imbert et al., 1999] [Imbert et al., 1999]. Le groupe de recherche sur les environnements virtuels de lUniversit Polytechnique de Madrid sintresse particulirement aux interactions entre utilisateurs humains par lintermdiaire des mondes virtuels.

Figure 27 : Exemple d'interaction faciale entre deux utilisateurs dans le projet Amusement

Tout comme dans le cadre de nos travaux, le projet Amusement propose deux utilisateurs distants dinteragir entre eux travers un environnement virtuel commun. 78

Avatars et modles comportementaux Chacun des utilisateurs est reprsent par un avatar sous forme de visage parlant et expressif (Figure 27). Pour analyser les interactions et amliorer la qualit de la communication interpersonnelle, le problme dans Amusement est spar en quatre niveaux dinteraction (Figure 28) : le niveau 1 se focalise principalement sur linteraction entre les utilisateurs eux-mmes sans passer par les avatars. Cest la couche principale de communication interpersonnelle, mais elle est insuffisante et sexerce principalement par lchange de messages textuels dans des environnements de Chat . lpoque du projet, lobjectif principal tait dutiliser la voix des utilisateurs comme support, car plus naturelle et plus expressif que le Chat , mais les moyens technologiques ne le permettaient pas (chers et peu fiable). Aprs avoir constat que lessentiel des communications entre les utilisateurs dans les environnements virtuels collaboratifs ne transitaient que par le niveau 1, il a t propos denrichir linteraction entre lutilisateur et son propre avatar (niveau 2) en leur attribuant une certaine autonomie comportementale (action et communication). Cette autonomie entranera une utilisation accrue du niveau 2 dinteraction. Lutilisateur, indique son avatar le comportement gnral adopter ou lavatar demande conseil lutilisateur lorsquune dcision complexe est prendre. Le niveau 3 concerne linteraction entre lutilisateur et les avatars des autres utilisateurs , et fournit essentiellement des renseignements sur le comportement non verbal de ces derniers. Enfin le dernier niveau dinteraction (niveau 4) permet dinformer chaque avatar du comportement gnr par les autres avatars.

Niveau 1

Uti

l i sa

Niveau 2

Avatar A Niveau 4

Avatar B

teu

rA

a tilis

teu

rB

Niveau 3

Monde Rel Interface

Environnement Virtuel

Interface

Monde Rel

Figure 28 : Niveaux d'interaction dans le projet Amusement

Le centre dintrt est donc lavatar, auquel lutilisateur peut dlguer une partie des tches de communication, ce qui amliore en retour la qualit dinteraction entre utilisateurs, la fois par lenrichissement que pourra apporter lavatar sur certaines modalits, et par lallgement de la charge de lutilisateur, qui na pas contrle r systmatiquement son avatar. Lautonomie donne lavatar joue sur trois types daction : lenvoi spontan de messages textuel (lorsque lavatar dispose dune grande

79

Les avatars autonomie, il peut prendre linitiative denvoyer des messages), la manire daccomplir les actions (lavatar peut influer sur la forme dune action requise par son utilisateur) et les messages complmentaires aux messages de lutilisateur (expression faciale adapte aux messages de lutilisateur par exemple). Chaque avatar dans Amusement est compos dun modle comportemental interne bas sur les notions de personnalits, dhumeurs, dattitudes et dintentions (Figure 29). Ces quatre traits sont indpendants les uns des autres, mais corrls entre eux de manire maintenir un comportement cohrent entre les avatars et les utilisateurs par la technique de la logique floue (exemple : laugmentation du rythme cardiaque de lavatar quand lutilisateur est trs nerveux et inversement quand lutilisateur se calme). Lorsque lutilisateur dcide den modifier un ou que lavatar, par des mcanismes dapprentissage, en dcide la mise jour, certains des autres paramtres peuvent tre automatiquement adapts [Imbert et al., 1999].
Humeurs

Attitudes

Traits de personnalit

Actions & Comportements

Influence court terme Influence long terme

Figure 29 : Relations entre les traits dun avatar

Le projet Amusement est intressant car il prsente un modle avatar agent reprsentant un utilisateur dans un monde virtuel qui a pour but dinteragir avec dautres humains par lintermdiaire davatars. Si on laisse lavatar un maximum dautonomie, il peut alors tre considr comme un agent autonome. Le comportement socia l de lagent (inhrent toute interaction) est abord de manire relativement classique : les attitudes dpendent de chaque interactant, les rencontres avec un groupe entranant une raction correspondant la moyenne des ractions que lagent aurait eues en cas de rencontre individuelle avec chaque membre du groupe. Nanmoins, il est possible que lavatar agent exprime un comportement diffrent de celui qui serait le plus en adquation avec son tat interne. Par exemple, une contrainte comme la diplomatie peut amener lagent agir amicalement mme sil ne ressent aucune amiti pour la personne avec laquelle il interagit. Cest ce que le psychologue social Erwing Goffman [Goffman, 1974] appelle lhypocrisie

80

Avatars et modles comportementaux sociale (action oppose au sentiment vritable), comportement indispensable toute cohsion sociale dun groupe. Soulignons galement quun travail important a t effectu sur les expressions faciales travers une application de jeu de cartes (Mus est un jeu de cartes dorigine espagnole et qui est proche du poker) [Imbert et al., 1999]. Les expressions faciales servent la fois de support de communication entre les utilisateurs et exprimer ltat courant de lagent et par extension, de lutilisateur le reprsentant, dpendant d es cartes en main. Bien entendu, ces derniers signaux senss tre spontans, sont eux aussi susceptibles dtre manipuls. 2.1.2.5 Les nouveaux avatars de Spin-3D Les travaux du LIAMA [Ding et al., 2009] ont pour objectif damliorer la reprsentation des utilisateurs dans lEVC Spin-3D (Section 1.4.3) et principalement sur trois modalits, supports de la communication humaine : les regards, les expressions faciales et les gestes (Figure 30). Ils sont intressants du point de vue du comportement des avatars, puisquils mixent des techniques de traitement dimage et dintelligence artificielle.

Figure 30 : Principe de la collaboration avec des avatars dans Spin-3D [Ding et al., 2009]

La Figure 31 illustre l'architecture dveloppe. Chaque utilisateur est film par une camra vido place au dessus de son cran. Sur la base de ces informations 2D, est extraite une srie dimages du visage de lutilisateur pour tre plaques sur un modle 3D du visage dun avatar. Les expressions gestuelles, pour leur part, sont interprtes et estimes travers des postures sur un modle 3D du corps dun avatar. La difficult rside dans linterprtation de donnes 2D pour animer des avatars 3D. Ensuite un vecteur 3D, contenant quelques images du visage et les coordonnes des postures de lavatar, est envoy travers le rseau lensemble des participants dune session collaborative de 81

Les avatars Spin-3D. Cette technique prsente lavantage de rduire le dbit de donnes circulant travers le rseau.
Human Behavior Model Process Model Avatar Model

Video Stream Image Processing


Head

Local Computer Avatar Animation


Voice Face

Gaze & Gesture Recognition

Network

Position

Device Input

Arm

Voice Interaction

Voice Stream

Figure 31 : Architecture des avatars de Spin-3D [Ding et al., 2009]

2.1.2.6 Conclusion Lensemble des projets voqus dans cette section prsente la particularit de laisser une certaine autonomie aux avatars agents, mais desquels lutilisateur peut prendre partiellement le contrle. Cette possibilit se retrouve particulirement dans le projet Amusement (Section 2.1.2.4), et dans une moindre mesure, dans les avatars agent de BodyChat (Section 2.1.2.2) et SPARK (Section 2.1.2.3). Lorsque lutilisateur contrle une partie du comportement de lavatar agent, tout en lui laissant de lautonomie dans la gestion de certaines tches, on peut considrer lensemble humain/avatar comme tant une symbiose , chacun profitant des avantages de lautre. Les travaux actuels sont jusquici peu nombreux et embryonnaires mais laisse penser que les premires gnrations dagent avatar symbiotiques devraient apparatre. Dans le projet Amusement, lutilisateur peut intervenir sa guise dans la gestion des interactions entre lavatar agent quil contrle et les autres participants : il peut laisser faire lavatar agent, tout prendre en charge, ou lui dlguer une partie des tches. De la mme manire, les avatars de BodyChat et SPARK analysent le texte tap par lutilisateur pour y rechercher des mots particuliers o des cls de contrle et dirigent lavatar en consquence.

82

Avatars et modles comportementaux Chacun de ces projets prsente des avatars plus ou moins autonomes utilisant des modles comportementaux spcifiques. La section suivante se propose dtudier en dtail ces modles utiliss dans lanimation comportementale dentits virtuelles.

2.2 Les modles comportementaux


La problmatique de la modlisation du comportement humain, dans le cadre dapplications de ralit virtuelle, est de proposer une architecture permettant de gnrer des modles de comportement crdibles davatars. Ces derniers reprsentent des situations particulires tudies par des psychologues du comportement ou correspondant un univers imaginaire dcrit par un scnariste. La modlisation du comportement humain est aborde dans diffrentes disciplines telles que la psychologie, lergonomie, la linguistique, les neurosciences, lintelligence artificielle, etc. Il est central en psychologie, o le comportement humain constitue lobjet, sinon dtude, du moins au travers duquel lactivit mentale est possiblement atteignable selon les critres de la science. Il est aussi important en ergonomie en particulier cognitive pour guider la conception et lvaluation des technologies et des situations de travail. Il nen est pas moins galement important dans une certaine approche de lintelligence artificielle, soit pour fournir une spcification ou une analogie exploitable par linformatique pour rsoudre des problmes complexes, soit pour fournir des techniques permettant la simulation et la confrontation avec des donnes recueillies par la psychologie cognitive. Dans tous les diffrents domaines abords en particulier par lintelligence artificielle, les limites des approches dites logiques24 deviennent de plus en plus manifestes. Durant ces dernires annes de nouvelles approches sont apparues, utilisant dautres outils thoriques ou techniques et sont souvent issues de recherches autres que lintelligence artificielle, comme les neurosciences [Holland, 1975] [Goldberg, 1989], la linguistique [Chomsky, 1997] [Johnson, 1997], la psychologie cognitive [Piaget, 1963] [Varela, 1989] et la philosophie [Pylyshyn, 1984] [Rorty, 1990]. La Figure 32 illustre sous forme de carte polaire ces diffrents champs disciplinaires ainsi que leurs diffrents contributeurs pour leurs apports dans le dveloppement des diffrents modles comportementaux que nous connaissons aujourdhui et que nous allons aborder dans cette section.

24

Les approches logiques font rfrence aux approches symboliques (Section 2.2.1.2) qui sattachent infrer les perceptions et actions dun systme, releves lors des tudes comportementales, lesquelles sont vues essentiellement comme un calcul rationnel.

83

Les modles comportementaux

Figure 32 : Une reprsentation conceptuelle des sciences cognitives actuelles sous forme de carte polaire avec les disciplines contributrices sur les angles et les diffrentes approches sur les axes radiaux

Toutes ces approches se caractrisent par une remise en cause, plus ou moins profonde, des prsupposs de lintelligence artificielle telle quelle a t dfinie ses dbuts. Notre travail participe cette remise en cause dans le cadre particulier de la modlisation comportementale. Dans cette section, nous effectuons une analyse des approches dite classiques des modles cognitifs comportementaux. 2.2.1 Les modles cognitifs Par le terme de modle cognitif, on entend ici essentiellement les modles cognitifs du comportement et dans ce cadre, nous prsentons les travaux sur la vie artificielle dans les environnements virtuels informs en distinguant les trois courants qui prvalent dans le domaine (Figure 33) : lapproche connexionniste, lapproche symbolique et lapproche constructiviste. Lapproche nactive prsente sur la carte polaire et qui structure nos travaux est prsente dans le Chapitre 5.

84

Avatars et modles comportementaux

Figure 33 : La composition des modles cognitifs

2.2.1.1 Lapproche connexionniste Bien avant que la machine de Turing25 fut mobilise au service dune solution artificielle au problme de la matire et de lesprit, un pas spectaculaire avait t acc ompli dans la mme direction, par deux des fondateurs de la cyberntique : le neuropsychiatre Warren McCulloch et le mathmaticien Warren Pitts [McCulloch et Pitts, 1943]. En 1943, ils dmontrent lexistence dune machine logique quivalente celle de Turing (au sens que tout ce que peut faire lune, lautre peut le faire et rciproquement), qui peut tre considre dans sa structure et son comportement comme une idalisation de lanatomie et de la psychologie du cerveau. Ce rsultat, dans lesprit de McCulloch tout au moins, constitue une avance dcisive, puisque ce nest pas le cerveau dans sa fonction (lesprit), mais dans sa structure (neurones, synapses, ), le cerveau matriel, naturel, biologique, qui est assimilable un mcanisme et, plus prcisment une machine de Turing. Cest ainsi que le cybernticien pense rsoudre le vieux problme de lme et du corps [McCulloch, 1965] qui ne font quun. Les thories connexionnistes issues de ces travaux, utilisent une stratgie qui consiste construire un systme cognitif partant de composants simples susceptibles de se relier entre eux par des connexions. Lide de base est de rsoudre des problmes en supposant que la pense humaine ne procde pas par une suite de dductions logiques ( la diffrence du courant symbolique) ; mais par linteraction de micro-units dinformation. Contrairement aux thories du traitement de linformation, les thories connexionnistes partent du postulat que le monde que connait lindividu est construit par lui-mme, par lintermdiaire de ses expriences, partir dune mise en rseau dentits lmentaires
25

La machine de Turing est un modle abstrait du fonctionnement des appareils mcaniques de calcul, tel un ordinateur et sa mmoire, cr par Alan Turing en vue de donner une dfinition prcise au concept dalgorithme ou "procdure mcanique".

85

Les modles comportementaux interconnectes et oprant en parallle [McCulloch, 1965]. Ces expriences provoquent l'mergence d'tats globaux parmi des ensembles neuronaux rsonnants et le sens serait li des tats particuliers de ces rseaux neuronaux. La perception fonctionne partir du traitement distribu de l'information effectue par les rseaux neuronaux qui se sont constitus par l'intermdiaire de l'exprience de l'individu. Un rseau neuronal est un systme extrmement dense de neurones interconnects entre eux par des synapses et susceptibles d'tre excits pour remplir certaines fonctions. Un neurone peut tre connect avec 5000 autres neurones. Une premire approche de lutilisation des modles connexionnistes pour simuler le comportement des entits virtuelles fut propos par Van de Panne et Fiume [Van de Panne et Fiume, 1993]. Ils introduisent le concept de perception-action dans lanimation de synthse avec laide de rseaux SAN26 (rseau de neurones simples capteurs/actionneurs). Un personnage virtuel sera modlis comme un organisme dont les entres sont connectes des capteurs (camras, exosquelette, etc.) et dont les sorties sont connectes son systme musculaire moteur (actionneur). Des algorithmes stochastiques dapprentissage sont utiliss afin de configurer les rseaux pour obtenir un contrleur sachant faire bouger lentit. La Figure 34 illustre un exemple dun tel rseau. Larchitecture du rseau de neurones se dcompose en trois niveaux : les nuds qui peroivent (Sensor Nodes), les nuds cachs (Hidden Nodes) et les nuds actionneurs (Actuator Nodes). Chaque nud perceptif est connect tous les nuds cachs et actionneurs alors que les nuds actionneurs sont connects uniquement aux nuds cachs. Cette utilisation dun rseau reboucl permet dassurer une certaine continuit en prenant en compte la dernire action effectue lors du prochain calcul.

Sensor Nodes

Hidden Nodes

Actuator Nodes

Figure 34 : Exemple de simulation autonome de la marche dentits virtuelles ralise par un rseau SAN (droite)

Plus tard, dans Evolving Virtual Creatures [Sims, 1994], Karl Sims propose dutiliser des algorithmes gntiques pour faire co-voluer la morphologie des cratures-

26

SAN : Sensor Actuator Networks (Rseaux Capteurs/Actionneurs)

86

Avatars et modles comportementaux blocs virtuelles (Figure 35). Ce sont des cratures simules pouvant voluer pour effectuer une tche prcise (nager, sauter, courir). La particularit de ces cratures est que leur morphologie peut voluer en mme temps que son architecture de contrle. Le gnotype de la crature se base sur les L-systmes et les graphes orients pour reprsenter la morphologie ainsi que les rseaux de neurones pour larchitecture de contrle. Lensemble est gnr laide dune approche volutionniste qui value les cratures dans lunivers virtuel reconstituant les contraintes du monde physique.

Figure 35 : Cratures-blocs volues pour la marche

Ici, la physique du systme est beaucoup plus lourde simuler que lexemple prcdent ; cependant, des rsultats intressant sont obtenus, et le nombre de segments semble pouvoir atteindre la dizaine ou plus sans difficults. Mathmatiquement, les rseaux de neurones ralisent des approximations universelles, cest dire quils peuvent permettre de faire des approximations nimporte quel degr de prcision dune fonction mathmatique continue. Grzeszczuk, dans NeuroAnimatior [Grzeszczuk et al., 1998], exploite pour sa part cette proprit pour simuler les rgles de la physique rgissant lenvironnement ainsi que les comportements des entits le peuplant (Figure 36). Pour matriser la taille des rseaux, la notion de hirarchie de rseaux de neurones est utilise. Chaque sous-rseau possde des fonctions particulires (animation dune jambe par exemple), et les rseaux de neurone s de la couche suprieure permettent de contrler (via des entres) les rseaux de niveaux infrieurs. Lutilisation de ce systme permet aussi deffectuer un apprentissage spcialis, centr sur les fonctionnalits bien identifies.

87

Les modles comportementaux

Figure 36 : Apprentissage de la nage naturelle des dauphins via le systme NeuroAnimator et un modle priodique (figure droite).

2.2.1.2 Lapproche symbolique Le terme de symbole a des dfinitions varies et rigoureuses dans les dictionnaires classiques [Lycan, 1990] [Johnson-Laird, 1993]. Une des dfinitions rcentes les plus compltes est celle de Harnad [Harnad, 1990] : les symboles sont des ralits physiques quelconques, abstraites : des marques sur le sable, des trous dans un ruban de papier, des dessins sur des bornes de signalisation routire, des caractres typographiques etc., qui sont manipules selon des rgles explicites . Lusage de ces rgles est bas uniquement sur la forme qui caractrise le symbole et non sur sa signification : cest donc purement une syntaxe. Elle consiste combiner les symboles selon certaines conventions. Il y a ainsi des symboles lmentaires, atomiques dont lassociation forme des symboles composites. Tous les symboles et toutes les rgles de syntaxe dun systme symbolique sont interprtables du point de vue smantique. Pour un courant de pense trs puissant, prdominant mme, toute lactivit de lesprit peut tre reconstitue par des oprations sur des symboles selon des rgles formelles explicites ; toute forme dactivit cognitive est quivalente lutilisation dun langage tel que les mathmatiques. Cest la thse des psychologues et philosophes inspirs par la science des ordinateurs : le fonctionnement de lordinateur est le mei lleur modle de lesprit. Une composante de ce courant est la thorie du langage de la pense , dont le principal reprsentant est Fodor [Fodor, 1975] : toute pense a une structure quivalente celle dune expression linguistique. Cette thorie sinspire de Chomsky [Chomsky, 1959] et est partage par peu prs tout le monde depuis la critique du behaviorisme : Il existe une structure inne de lesprit, une grammaire universelle , base de tout langage et, pour les partisans du langage de la pense , de toute pense.

88

Avatars et modles comportementaux Lapproche symbolique est une approche de haut niveau conceptuel. Les symboles sont utiliss pour reprsenter les diffrents traits caractristiques des objets du monde rel. Ce sont des entits interprtables smantiquement qui sont associes des rgles formelles qui les manipulent. Ainsi on parle de lapproche symbolique comme dune approche de haute transparence smantique dans le fait quil est possible de dcrire une correspondance prcise entre une interprtation smantique de la reprsentation interne du modle et une description smantique du comportement du systme modlis [Clark, 1989] [Wallace et al., 1994]. Reynolds [Reynolds, 1987] fut le pionnier de lapproche symbolique pour lanimation comportementale dentits virtuelles dans le but de simuler des nues doiseaux (Figure 37). Leurs comportements sont rgis par quatre rgles : chaque individu doit sloigner des voisins pour viter la collision, chaque individu doit suivre le leader d u groupe, chaque individu cherche sapprocher du centre de gravit du groupe local et chaque individu doit adapter sa vitesse celle des autres oiseaux. Le respect de ces rgles permet de simuler le comportement de groupe mergent. Il est possible dy ajouter une rgle de propension rejoindre un point donn dans lespace (le perchoir).

Figure 37 : Simulation de vols d'oiseaux (le flocking)

Lapplication de ces rgles simples a permis de construire des simulations graphiques dun ralisme tonnant de dplacement de nues. Cette simplicit permet des ractions rapides et une intgration dun volume de donnes parfois important, mais finalement ne permet que de simuler une autonomie simple et limite dans la mesure o son comportement est uniquement dfini en fonction du comportement de son voisinage et pas en fonction dune volont propre. Des comportements intressants sont obtenus via lutilisation de programmes simples, ceux-ci pouvant tre gnrs automatiquement via lutilisation dun algorithme doptimisation, comme dans le cas des travaux de Reynolds sur la covolution [Reynolds, 1994]. Lauteur considre cependant que cette technique serait beaucoup moins efficace dans le cas de contrle dentits plus complexes. 89

Les modles comportementaux Les systmes purement ractifs27 dcrits prcdemment ne sont pas suffisants pour exposer lensemble des comportements humains, notamment au niveau rationnel et social. Les automates tats finis sont alors apparus pour palier cette difficult. Les approches base dautomates sont les plus rcentes pour simuler les comportements. Ces approches se basent sur la forte expressivit procure par les reprsentations en machines tats pour dcrire finement les tapes et enchanements dactions dun comportement. Ainsi, chaque action dun comportement sera reprsente par un tat de lautomate, tandis que les possibilits dadaptation seront identifies par les transitions. O. Renault et al. [Renault et al., 1990] ont t des pionniers dans lutilisation de cette technique pour la simulation de navigation dtres humains. Du fait de sa souplesse dutilisation, ce procd sest rapidement rpandu dans la communaut informatique. Certaines volutions ont ensuite permis une excution parallle et/ou hirarchique des automates, autorisant respectivement des comportements simultans et ordonns. On a ainsi pu voir apparatre les modles base de piles dautomates [Noser et Thalmann], o chaque comportement spcialis est reprsent par un automate. Nous pouvons aussi citer les Pat-Nets28 [Badler et al., 1995] o des automates parallles sont utiliss. Enfin, le modle HPTS29 [Donikian, 2001] et son extension HPTS++ [Lamarche et Donikian, 2002] gre la fois le paralllisme, la hirarchisation et la synchronisation entre automates. Comme nous lavons dit prcdemment, le recours des automates permet une grande souplesse dans lexpression des comportements. Malgr tout, cette approche est gnralement utilise pour reprsenter des tches simples de comportements ractifs. Deux faits expliquent cela. Premirement, les actions sont gnralement dcrites avec une granularit trs fine dans les automates, contraignant dautant plus lautonomie du systme. En effet, labstraction du comportement son simple but est ici peu envisageable, un comportement ntant alors reprsent que par un automate un seul tat. Deuximement, tous les enchanements entre actions doivent tre prvus lavance pour tre envisags lors de la rsolution. Cela rend dautant plus difficile laugmentation des comportements grs, ncessitant une refonte des comportements dpendants dj disponibles, et conduisant potentiellement une explosion combinatoire des transitions possibles entre tats. Ces deux inconvnients sont en partie grs par les automates hirarchiques, qui imposent tout de mme de pouvoir discrtiser les comportements en des modules
27 28

Ractif dans le sens o le comportement est exhib via des techniques simples. PaT-Nets : Parallel Transition Networks 29 HPTS : Hierarchical Parallel Transition Network

90

Avatars et modles comportementaux indpendants. Lavantage majeur de cette approche comparativement aux rgles est sa gestion de la continuit dans le comportement. En effet, les tats des automates constituent implicitement une mmoire de contexte, les transitions pouvant alors tre vues comme des rgles locales. ce jour, la plupart des dispositifs se fondant sur lapproche symbolique pour modliser le comportement humain utilisent des systmes de production et de slection similaires ceux utiliss dans des systmes experts dans la mesure o ils produisent leurs comportements sur la manipulation de rgles explicites de production. La rsolution de problme est dcrite comme un balayage dun espace problme30 (lensemble des diffrents tats susceptibles dtre atteints par le systme un moment particulier), la recherche dun tat final qui reprsente la solution du problme. On peut ainsi dcrire les trois principales architectures cognitives symboliques les plus frquemment utilises pour simuler informatiquement le raisonnement humain : SOAR31 [Newell, 1994], EPIC32 [Kieras et Meyer, 1995] et ACT-R33 [Byrne et Anderson, 1997]. Un des efforts les plus ambitieux pour unifier diffrents aspects de la cognition est le systme SOAR issu des travaux sur une thorie unifie de la cognition [Newell, 1994]. SOAR est essentiellement une architecture symbolique qui intgre des mcanismes de base pour la rsolution de problmes, lutilisation de connaissances, lapprentissage et un niveau moindre des comportements sensori-moteurs. SOAR a une architecture unique pour toutes les tches, sous-tches, une reprsentation unique des connaissances permanentes et des connaissances temporaires, un mcanisme pour gnrer des buts et un mcanisme dapprentissage. Dans SOAR, toutes les dcisions sont faites partir de linterprtation de donnes perues, du contenu de la mmoire de travail cre pour la rsolution de problmes antrieurs et de toute connaissance retrouve partir de la mmoire permanente. SOAR a fait lobjet dintgrations dans divers dispositifs pour jouer le rle darchitecture comportementale cognitive dans STEVE34 [Rickel et Johnson, 1998], lun des premiers personnages virtuels autonomes figurant un agent pdagogique dans une application de formation pour la ralit virtuelle (Figure 38). STEVE utilise des connaissances sur la tche, acquises travers la dmonstration par un expert, pour

30

Lespace problme est une reprsentation que lon construit lorsque lon se trouve face un problme rsoudre et quaucune procdure nest disponible pour arriver une solution. 31 SOAR : State, Operator And Result (tat, Oprateur et Rsultat) 32 EPIC : Executive-Process/Interactive Control 33 ACT-R : Adaptive Control of Thought-Rational 34 STEVE : Soar Training Expert for Virtual Environment

91

Les modles comportementaux dmontrer la succession des oprations raliser au cours dun diagnostic puis dune action de maintenance de pompe.

Cognition

Abstarct motor commands

Perception snapshot, important events

Spatial information Motor Control Perception

Detailed motor commands

Revelant events

Message Dispatcher

Figure 38 : lagent pdagogique STEVE [VET, 1998]

2.2.1.3 Lapproche constructiviste Au sein mme des sciences cognitives sont proposes dautres conceptions souvent inspires de la phnomnologie qui limine lide mme de reprsentation [Brooks, 1987]. Le concept central est celui dintentionnalit. Le rapport de la conscience aux phnomnes est dcrit comme un rapport intentionnel. Kant dans son clbre ouvrage la critique de la raison pure [Kant, 1781] disait que la raison humaine peut uniquement saisir ce quelle a elle-mme produit selon ces propres plans . Plus rcemment, le philosophe Edgard Morin [Morin, 1992] a dit : toute connaissance acquise sur la connaissance devient un moyen de connaissance clairant la connaissance qui a permis de lacqurir . Pour la phnomnologie, la forme la plus typique de la conscience est la perception. Certains font appel aux conceptions constructivistes : postulant que lobservateur modifie le phnomne observ, ce mouvement sintresse lensemble observateur/observ et se demande comment viter que lobservateur vienne perturber lobjet sous observation. Dans les annes cinquante, le cybernticien Von Foerster [Foerster, 1949] et lanthropologue Gregory Bateson [Bateson, 1972] ont contribu llaboration du courant constructiviste. Jean Piaget a repris la dialectique sujet/objet et a fait de la connaissance une construction labore par le sujet partir des relations sujet et objet [Piaget, 1963]. Selon lui, cest le psychisme qui est construit partir de lactivit crbrale du sujet en contact avec lenvironnement, traduisant simultanment une prise de conscience de soi et une connaissance du rel. Le constructivisme suppose que les connaissances de chaque sujet ne sont pas une simple copie de la ralit, mais une (re)construction de celle-ci. Le constructivisme 92

Avatars et modles comportementaux sattache donc tudier les mcanismes et processus permettant la construction de la ralit chez les sujets partir dlments dj intgrs. La comprhension, constamment renouvele, slabore partir des reprsentations plus anciennes dvnements passs, que le sujet a dores et dj emmagasines dans son vcu. En fait, le sujet restructure (reconceptualise), en interne, les informations reues en regard de ses propres concepts : cest le phnomne de restructuration conceptuelle travers ces exprience s. Les positions de ce courant de pense peuvent se rsumer ainsi : la nature de la ralit. Les reprsentations mentales sont des ralits ontologiques ; elles existent au mme titre que lindividu et que tout ce qui ce passe lextrieur de lui ; la nature de la connaissance. Les connaissances sont construites par lindividu dans son univers mental ; ce ne sont pas des ralits qui existent lextrieur de lindividu ; la nature de linteraction humaine. Linteraction humaine est un processus qui aboutit un entendement commun, une comprhension partage du monde. Cest en changeant, en partageant, en discutant et en confrontant nos ides celles des autres quon arrive comprendre le monde et lui donner un sens. Ces changes sont faits de coopration et de ngociation sociale, plutt que dacceptation dune vision impose dautorit. Lapproche constructiviste consiste donc essayer dinverser la dmarche symbolique qui voit le programmeur imposer son modle aux sujets (lavatar par exemple). Les aspects symboliques et descendants en traitement de linformation sont remplacs par une approche base sur linteraction avec lenvironnement et fondamentalement ascendante . Lide est de mettre le sujet en situation pour quil construise ses propres reprsentations internes par son interaction avec lenvironnement (dfinies dans des termes sensoriels et moteurs). Le sujet modifie ses reprsentations en tenant compte de son exprience. Il propose ensuite ces reprsentations au programmeur en vue dun dveloppement incrmental de lavatar. Cest au programmeur de faire le lien entre les reprsentations de lavatar et les siennes. En inversant ainsi la dmarche, le problme est maintenant la charge du programmeur et non plus celle de lavatar. Dans cette approche, une grande importance est donne aux capteurs et aux actionneurs, ainsi quau traitement pertinent des connaissances. Elle a le mrite de sattaquer aux problmes de bas niveau en montrant des rsultats. Une des techniques utilises pour illustrer lapproche constructiviste dans la prise dinformation et de dcision

93

Les modles comportementaux davatars comportementaux est base sur le paradigme du Raisonnement Partir de Cas (RPC) et a t propose par Romain Bnard [Bnard, 2007] et Pierre De Loor [De Loor et al., 2008a] au sein du projet CoPeFoot (Collective Perception in Football). Lobjectif du projet est de reproduire par le biais de la ralit virtuelle des squences de jeu de football dans des situations dynamiques collaboratives. Un modle comportemental dagents autonomes crdibles temps rel a t mis au point et repose sur lutilisation du contexte et du RPC. Ce dernier permet, partir dpisodes dj vcus, de rechercher la situation la plus proche pour rsoudre le problme actuel. Le RPC peut tre vu comme un cycle en cinq tapes : llaboration permet de construire une reprsentation du problme ; la remmoration consiste retrouver les cas les plus similaires aux problmes actuels ; ladaptation est ltape dajustement de la solution retrouve pour quelle soit applicable la situation actuelle ; la rvision pour valuer la pertinence de la solution propose et la mmorisation qui permet lacquisition de nouveaux cas.
AReVI : Simulation dagents situs Elaboration

Perceptions Physiques objets perus & distances

FILTRE ACTIF SUR LES PERCEPTIONS

Contexte

Domaine (Football)

Excution

Action
Adaptation

Cas
Remmoration

Base de cas

Dfinition par un expert ou apprentissage automatique

Figure 39 : Principe de larchitecture des joueurs virtuels dans CoPeFoot (Context-Base Reasoning) [Bnard, 2007]

2.2.1.4 Discussion Les diffrents modles qui viennent dtre prsents permettent de dcrire diffrents aspects du comportement allant de la modlisation de comportements ractifs sous forme de rseau neuronaux, la modlisation de processus de raisonnements complexes en vue de trouver des enchanements dactions cohrents pour atteindre un but fix. Le Tableau 2 fournit un rsum des caractristiques des diffrents modles comportementaux abords, placs selon trois rubriques : lacquisition par la possibilit de rassembler et fusionner des connaissances de diverses natures dans un mme modle ; le raisonnement par les caractristiques intrinsques des processus dlibratifs des modles ; 94

Avatars et modles comportementaux lutilisation des modles comportementaux.


Modles Critres Expertise seulement Donnes seulement ACQUISITION Mixte Incrmental Gnralisation Donnes incompltes Incertitude RAISONNEMENT Dynamicit Ouverture Temps Rel Contexte UTILISATION Requtes labores Utilit conomique Performances Connexionniste Rseaux neuronaux ++ + + ++ + ++ ++ + ++ ++ ++ ++ + + + + + + ++ + Symbolique Systmes experts ++ Automates + ++ ++ + ++ ++ ++ ++ + ++ + + + Constructiviste RPC ++ +

Tableau 2 : Rsum des caractristiques des modles comportementaux. Le signe - signifie que la technique ne prsente pas cet avantage. Le signe + signifie que la technique prsente un avantage moyen. Le signe ++ signifie que la technique prsente un trs bon avantage.

2.3

Conclusion
Nous nous sommes penchs tout au long de ce chapitre caractriser lavatar et les

moyens de raliser des animations comportementales. Cette entit est dans la littrature charge de nombreuses fonctions. Lavatar doit afficher des informations sociales sur lidentit et le rle de lindividu quil reprsente. Il doit galement rendre visible certains aspects de lactivit de lutilisateur Nous avons pu nous familiariser dans cette section avec trois catgories de modlisation du comportement. Dune part les comportements purement connexionnistes, relativement simples et court terme, et dautre part les comportements symboliques et constructivistes, plus complexes et rgissant le plan daction des entits virtuelles sur le long terme.

95

Conclusion Dans le chapitre suivant, nous allons aborder laspect ergonomique de nos travaux, en dfinissant dans un premier temps la communication non verbale.

96

Chapitre 3 La communication non verbale

97

Une des choses qui fait que lon trouve si peu de gens qui paraissent raisonnables, et agrables dans la conversation, cest quil ny a personne qui ne pense plutt ce quil veut dire qua rpondre prcisment ce quon lui dit. (La Rochefoucauld, 1664)

Bien que les Hommes communiquent entre eux en face--face et en utilisant plusieurs modalits, peu de dispositifs techniques de communication et de collaboration exploitent ces proprits. En communication et dans des situations de collaboration, notre corps est un puissant vhicule dinformation. Comme le souligne Kraut [Kraut et al., 2003], une interaction Humain-Humain mdiatise devrait tirer parti de ce type de communication (expressive et sans effort) que sont les actes quotidiens de communication. De par son pouvoir expressif et son contenu smantique trs riche, la parole est une modalit importante dans la communication. Cependant, Oviatt [Oviatt, 1999] rappelle que la parole est souvent considre tort comme une modalit autosuffisante alors que les autres modalits ne font quaccompagner la parole de manire redondante en ne contenant que peu ou pas dinformations nouvelles. De nombreuses tudes [Mehrabian et Morton, 1967] [Feyereisen et al., 1988] ont montr quentre 55 % et 65 % des informations changes durant une interaction face--face sont exprimes travers des moyens de communication non verbaux. Dautres tudes ralises par Kendon [Kendon, 1967] et

99

Multimodalit en communication Humain-Humain : quels gestes pour animer un avatar ? McNeill [McNeill, 1992] ont montr que le geste fait partie intgrante du langage et quil exprime des informations qui napparaissent pas avec la parole. Cadoz [Cadoz, 1994] souligne pour sa part que le geste est le plus riche canal de communication. Dans un contexte de conception de systme de communication et/ou de collaboration Humain-Humain mdiatis par des avatars, la modalit gestuelle doit faire partie intgrante des informations changes entre les utilisateurs de ces systmes. Dans ce chapitre, nous allons rappeler le rle important du geste de la communication interpersonnelle et exposer quelques taxonomies de gestes proposes dans la littrature et dont nous nous sommes inspirs pour enrichir les modalits de communication non verbale des avatars dans les EVC.

3.1 Multimodalit en communication Humain-Humain : quels gestes pour animer un avatar ?


3.1.1 La communication non verbale dans les interactions sociales Lorsque des Hommes communiquent et/ou collaborent entre eux en condition de face--face, ils sont impliqus dans un processus multimodal [McNeill, 1992] : lorsquils parlent, ils se regardent, ils observent leur environnement et produisent des gestes tout en bougeant leur corps. En dautres termes, ils produisent et interprtent des indices de natures diffrentes, savoir verbaux et non verbaux. Lors dune communication plusieurs, de nombreux indices non verbaux nous servent apprhender le dialogue. Parmi ces indices, la gestuelle, les expressions faciales, lanimation labiale35, les jeux des regards, sont autant de paramtres que nous produisons et intgrons pour la plupart de faon quasi-inconsciente et en faisant parfois rfrence une connaissance ou un contexte commun. Il est compliqu de dresser une liste des diffrentes fonctions du comportement non verbal dans les interactions sociales, mais nanmoins nous pouvons distinguer dans un premier temps quatre rles principaux : un rle de production langagire, un rle de rgulation, un rle de communication et un rle dinteraction avec autrui. Les informations non verbales renvoient alors quasi essentiellement limage de chaque inter-actant. La question que se pose un concepteur dEVC est donc de dfinir ces

35

Labiale : qui appartient aux lvres [dfinition du Larousse].

100

La communication non verbale informations visuelles mdiatiser. Cependant son efficacit est trs dpendante de ce que lon appelle parfois le langage naturel, qui fait rfrence la perception humaine. Notre travail nest pas de proposer un modle perceptuel de ltre humain, mais de proposer un systme permettant la sensation de prsence et dtendre les possibilits collaboratives des outils actuels ; ceci en amliorant la mdiatisation des informations non verbales de communication et daction. Nous cherchons donc dans les paragraphes suivant, tudier plus prcisment les comportements de communication et la faon de les diffrentier des comportements daction. 3.1.2 Le geste comme composante du langage La premire question laquelle il faut rpondre est : quest-ce que le geste ? La notion de geste nest pas dfinie avec prcision. Elle varie selon le domaine dtude, selon que lon se place dun point vue sociologique, biologique, cognitif, etc. En cartant le sens figur, Le Petit Robert dfinit le geste de la manire suivante : GESTE. n.m. (Fin XIVe ; lat. gestus). Mouvement du corps, (principalement des bras, des mains, de la tte) volontaire ou involontaire, rvlant un tat psychologique ou visant exprimer, excuter quelque chose. (Le petit Robert, 1985, Paris : Robert). Le geste est dfini comme un mouvement du corps pouvant tre produit par diffrentes parties de lanatomie et donc pas seulement par la main, comme on pourrait le penser de prime abord. Ensuite, la question de lintentionnalit du geste reste ouverte car il peut tre volontaire ou involontaire . Enfin, au niveau fonctionnel, le geste peut rvler (aspect psychologique), exprimer (aspect communicationnel) ou excuter (aspect pratique). Cette dfinition englobe donc un grand nombre de traits extrmement varis. Or, dans la recherche, il en va autrement puisque les chercheurs se focalisent souvent sur un de ces diffrents aspects pour l'explorer en dtails. Certains, par exemple, tudient lactivit dune partie du corps : les mimiques faciales [Ekman, 1980], le regard [Argyle et Ingham, 1972], les distances entre les individus, leurs interlocuteurs et leur milieu ou proxmique36 [Hall, 1971], les postures [Scheflen, 1964] et bien sr, les gestes de la main dont nous allons parler plus longuement ci-aprs. Cette caractristique minimale du geste appelle trois remarques : elle attribue au geste une fonction informative, et ne recouvre donc pas lensemble des actions modifiant lenvironnement physique.

36

La proxmie est la distance physique qui stablit entre des personnes prise en interaction.

101

Multimodalit en communication Humain-Humain : quels gestes pour animer un avatar ? le message vhicul, la smantique du geste, doit tre admis et reconnu par son destinataire. Le geste doit se conformer un code commun aux deux parties, ce qui suppose quil est reproductible et contrlable. Parce quil est un acte volontaire, le geste exclut les mouvements rflexes.

Figure 40 : Diffrents exemples dillustration des gestes *sources Internet, 2008]

3.1.3

Structure temporelle des gestes Efron [Efron, 1941] a dfini la partition dun geste en trois phases ; la prparation,

le stroke37, et la rtraction (Figure 41). McNeill [McNeill, 1992] a tendu et oprationnalis cette structure et dfinit une unit de geste comme la priode de temps entre deux pauses successives des membres. Une unit de geste dbute lorsque les mains commencent un mouvement partir dune position de repos, et prend fin lorsquelles atteignent une autre position de repos. La position de repos correspond la position des mains sur une partie du corps, ou encore les bras le long du corps. Pour la transcription du geste, il est primordial de dfinir les limites de chaque phase, puis de les classifier. Dans la majorit des cas, une unit de geste ne correspond qu la phase de stroke. Ainsi lorsquon annote un comportement gestuel, on doit se demander quel moment commence et se termine un geste. Le dcoupage de McNeill permet de dcrire de faon prcise la phase du geste prise en compte dans le codage (Chapitre 4). La Figure 41 illustre les trois principales phases dun geste : 1. Prparation (optionnel) : les membres se dplacent de leurs positions de repos jusqu leurs positions du dclenchement du stroke. La phase de prparation anticipe les segments linguistiques qui sont co-expressifs avec le sens du geste.

37

Le stroke est dfinit par Kendon comme lapoge, le pique dun mouvement gestuel.

102

La communication non verbale 2. Stroke (obligatoire) : cest la partie la plus nergtique du geste. Cest cette phase que le sens du geste est exprim. Le stroke est synchronis avec les segments linguistiques qui sont co-expressifs. 3. Rtraction (optionnel) : cest le retour de la main une position de pause, pas ncessairement celle quelle occupait avant la phase de geste

1 - Prparation

2 - Stroke

3 - Rtraction

Figure 41 : Exemple de transcription des phases d'un geste [Kipp, 2004]

Les autres phases sont : le hold (optionnel) : cest un arrt temporaire du mouvement sans sortir de la hirarchie du geste contrairement la pause, qui coupe le geste ; lindpendant hold (optionnel) : lorsquil ny a pas de stroke ; la rtraction partielle (optionnel) : phase pendant laquelle les mains se dplacent vers la position de repos mais retournent une nouvelle phase de prparation avant de latteindre. 3.1.4 Le continuum de Kendon Le continuum de Kendon (Figure 42) nous renseigne sur les diffrents usages des gestes dans la communication ainsi que leur lien plus ou moins indispensable avec la parole et leur degr plus ou moins lev de conventionalit.
Gesticulation Geste de para-langage Pantomime Emblme Langage des signes

Figure 42 : Le continuum de Kendon [Kendon, 1988]

lextrmit gauche de ce continuum, nous trouvons les gestes appartenant la gesticulation. Ces mouvements accompagnent toujours la parole et sont produits spontanment. Les individus en ont rarement conscience car mme sils se souviennent davoir produit des gestes en parlant, ils peuvent rarement sen rappeler prcisment, les 103

Multimodalit en communication Humain-Humain : quels gestes pour animer un avatar ? reproduire ou les dcrire. Ce ne sont pas des gestes appris mais, au contraire, crs naturellement avec la parole produite, par consquent leur degr de conventionalit est quasi-nul. Par exemple38 [Gullberg, 1998], un enseignant explique un concept abstrait ses tudiants. chaque fois quil mentionne le concept, il produit un geste des mains, lgrement arrondies comme si elles tenaient un petit objet. Lorsquil insiste sur limportance de ce concept, ses mains semblent battre en mesure. Lorsque les mains dcrivent des objets ou des actions, on parle de pantomime ou mime. Lors de cette activit, la parole nest pas obligatoire. Ces gestes peuvent tre produits dans des situations o lusage de la parole est impossible (distance, bruits environnants, peur de dranger, etc.) ou bien au cours dun jeu de devinette par exemple. Un peu plus droite sur le continuum, se trouvent les emblmes galement appels quasi-linguistiques. Ces gestes sont appris de la mme faon que lon apprend le vocabulaire dune langue. Ces gestes sont souvent marqus culturellement dans le sens o ils sont utiliss dans une rgion prcise du monde et quils possdent une significatio n particulire. Exemple : vous venez de terminer le plat principal dans un bon restaurant. Le matre dhtel vient vous demander si vous avez apprci le repas. En rponse, vous rassemblez vos doigts, embrassez le bout des doigts et ouvrez grand la main immdiatement aprs. Enfin, lautre extrmit du continuum, se trouve les langages gestuels et langues des signes qui peuvent tres diviss en deux catgories : les langues des signes alternatives ( alternate sign languages ) et les langues des signes primaires ( primary sign languages ). La premire regroupe des langages gestuels labors par des individus comptents dans une langue parle mais qui ne peuvent lutiliser pour des raisons sociales ou religieuses par exemple des plongeurs, voluant dans le monde du silence (dans leau), ont labor un systme gestuel restreint pour les situations de communication essentielles. La parole peut donc tre totalement exclue de lusage de ces langages gestuels, ce qui implique alors un degr trs important de conventionalit des gestes. Quant aux langues des signes primaires qui sont situes compltement la fin du continuum, ce sont celles utilises par les malentendants comme mode de communication principal. Ainsi le degr de conventionalit du geste est maximal afin de permettre une intercomprhension optimale entre les locuteurs de ces langues.

38

Les exemples cits dans cette section ont t donns par Marianne Gullberg

104

La communication non verbale Ce continuum de Kendon, nous permet de saisir la diffrence qui peut exister entre diffrents gestes et sur quels critres se basent ces distinctions. Il convient prsent de terminer ce panorama des tudes de la gestuelle en prsentant quelques catgories du type de gestes pouvant faire lobjet dune implmentation pour les avatars des EVC.

3.2 Les catgories gestuelles


Il nexiste pas de catgorisation universelle des gestes, les classifications dpendent du point de vue adopt et du problme pos. Depuis plus de soixante ans (depuis David Efron en 1941 [Efron, 1941]), le nombre de classements ayant vu le jour est relativement important et la terminologie employe pour distinguer chaque type de gestes est considrable. Les gestes peuvent tre classs suivant des critres morphologiques (la partie du corps qui effectue le geste), cinmatiques, psycho-cognitifs, fonctionnels, culturels, etc. Selon la finalit attendue, les chercheurs ont propos diffrentes classifications de gestes de communication. Notre objectif ici nest pas de prsenter ces travaux de manire exhaustive car, dune part, dautres lont fait avant nous (voir [Kendon, 1981], [kendon, 2004] et [McNeill, 1992]) et dautre part, cela ne serait pas pertinent pour la suite de notre travail de recherche. Nanmoins, il nous semble important de prsenter certaines classifications afin de montrer sur quels critres les chercheurs se sont bass pour diffrentier les gestes. Au terme de cette prsentation, nous tablirons la terminologie qui sera choisie et utilise dans le prsent travail et qui est prsente dans le Chapitre 4. 3.2.1 Les cinq catgories de gestes dEkman et Friesen Ltude de Paul Ekman et Wallace Friesen [Ekman et Friesen, 1969] dans The repertoire of non verbal behavior semble tre lune des tentatives les plus importantes dans la constitution dun ensemble smiologique39 gestuel ; et ces deux chercheurs semblent galement tre les plus reprsentatifs de ces travaux de recherche. Du point de vue des sciences humaines, Ekman et Friesen qualifient de comportement non verbal chaque mouvement ou position du visage et/ou du corps. Afin de comprendre chaque cas de comportement non verbal, les auteurs proposent dtudier comment ce comportement est entr dans le rpertoire de la personne (lorigine), les circonstances environnant son utilisation (lusage) et les rgles qui expliquent comment le comportement contient ou vhicule de linformation (codage). Ils divisent lensemble des comportements non verbaux en cinq lments.

39

Smiologie : la science qui tudie la vie des signes au sein de la vie sociale [dfinition Wikipdia].

105

Les catgories gestuelles Les gestes symboliques ou emblmatiques (emblems) : Ce sont des gestes indpendants du canal verbal qui permettent daccompagner ou de remplacer un mot ou un groupe de mots. Ces gestes sont propres des communauts sociolinguistiques. Cest par exemple le cas du geste de salutation qui nest pas le mme en Orient ou en Occident. Les illustrateurs (illustrators) : Parmi les illustrateurs, diffrentes sous-classifications existent. Ekman et Friesen subdivisent les illustrateurs en sept types : les battements : ce sont des gestes qui marquent les temps morts, laccent ou lemphase dun mot particulier ou dune phrase ; les idographiques : ils indiquent une direction de pense ou

lenchanement dun discours ; les dictiques : ils pointent un objet prsent ; les spatiaux : ils rvlent une relation spatiale ; les rythmiques : ils marquent une scansion ; les kinmimiques : ils dsignent une action corporelle ; les pictographiques : ils brossent un tableau de leur rfrent.

Les rgulateurs (regulators) : Les rgulateurs permettent de rguler le flux de parole. Ils maintiennent et rgularisent la nature progressive et rgressive de la parole et de lcoute. Ce type de geste est particulirement bien visible lorsquun homme politique marque la fin de son discours en posant par exemple les mains sur la table. Le plus commun des rgulateurs et le mouvement de la tte, lquivalent un niveau verbal de mmh , contact des yeux, froncement de sourcil, etc. Les rgulateurs semblent tre la priphrie de la conscience et une personne peut produire un rgulateur sans le savoir. Les manifestations daffect (affect display) : Ils correspondent des mouvements ou expressions faciales qui rvlent ltat affectif ou motionnel.

106

La communication non verbale Les adaptateurs (adaptators) : Les adaptateurs visent satisfaire des besoins dordre sensoriel, affectif ou actif tels que les gestes dauto-contact, replacer ses lunettes, se gratter la tte, etc. Ils sont diviss en trois types : 3.2.2 les auto-adaptateurs : contact sur soi-mme ; les htro-adaptateurs : contact avec les autres individus ; les objet-adaptateurs : contact sur les objets.

La catgorisation de Cosnier et Vaysse la suite des travaux dEkman et Friesen, Jacques Cosnier et Jocelyne Vaysse ont

largi cette catgorisation. Les gestes co-verbaux sont diviss en six catgories : Les dictiques (deictics) : Gestes de pointage (du doigt, de la main, du menton, etc.) qui peuvent faire rfrence un objet, une personne ou un lieu concret prsent dans lespace. Cosnier considre galement les gestes dictiques abstraits pour reprsenter le temps ou un objet abstrait. Les battements (batons) : Ils accentuent une syllabe ou un mot ou bien indiquent le rythme du discours. Les pictographiques (pictographs) : Ils dessinent une image du rfrent dans lespace. Les spatiographiques (spatials) : Ils schmatisent la structure spatiale et les relations des lments dans lespace. Les kintographiques (kinetographs) : Ils miment une action. Les idographiques (ideographs) : Ils reprsentent des rfrents abstraits.

107

Les catgories gestuelles 3.2.3 La catgorisation de McNeill La catgorie de McNeill [McNeill, 1992] est plus intressante car il a tudi des individus en train de raconter des histoires (comme dans notre contexte de travail). Il exposait des histoires (films, bandes dessines, histoires crites, etc.) des participants qui avaient ensuite comme tche de les raconter. Dans la terminologie de McNeill on distingue quatre catgories : Les dictiques (deictics) : Comme dans la catgorisation de Cosnier et Vaysse, les dictiques sont des gestes de pointage. Le mouvement prototypique de cette classe est le pointage dun objet parfois exerc avec lindex tendu, mais il peut tre excut avec dautres parties du corps (tte, nez, menton, buste, etc.) ou par lintermdiaire dartfacts (rgle, stylo, laser, etc.). La signification de ce geste dpend de la valeur du rfrentiel dans les interactions. Les iconiques (iconics) : Ils vhiculent par leur forme et par leur mouvement le contenu relatif au contenu linguistique. Dans les gestes iconiques, les mains fonctionnent en tant que symboles qui reprsentent par leur forme et par leur faon de se mouvoir le contenu qui se rapporte au contenu linguistique co-occurrent. Les mtaphoriques (mtaphorics) : Les gestes mtaphoriques tracent dans lespace gesticulatoire des images lies aux ides abstraites : ces gestes prsentent les images des notions abstraites. Les gestes mtaphoriques, comme les gestes iconiques, vhiculent un contenu relatif au contenu linguistique co-occurrent, mais ils diffrent des iconiques par le fait que ce quils vhiculent nest pas susceptible dtre prsent usuellement. Ces gestes prsentent plutt un support visuel de la mtaphore du contenu abstrait. Les battements (beats) : Les battements renforcent lnonc verbal, sans ajouter dimages supplmentaires. Ils se dfinissent comme des mouvements qui nont pas de signification discernable et se reconnaissent par leur mouvement prototypique : mouvements de battements des mains plus ou moins rapides. Leurs sens ne rsident pas dans sa signification intrinsque mais partir de la pragmatique du discours.

108

La communication non verbale 3.2.4 La catgorisation MAP dArgentin Argentin [Argentin, 1984] a observ des petits groupes qui discutaient autour dune table sur un thme donn lavance. Il en a dgag la catgorisation suivante et dcrit les relations que chaque type de gestes entretient avec le langage : Les mtaphoriques : Les mtaphoriques procdent par analogie avec la reprsentation d un signifi dont chaque individu dune mme culture est suppos tre porteur. Ils entretiennent des rapports de substitution avec la parole. Les adaptateurs : Les adaptateurs se dfinissent par une adaptation du sujet lenvironnement et constituent une tentative dadquation pas toujours volitive se traduisant par la manifestation et la production dune gestuelle au sens large, c'est--dire englobant toutes les variations gestuelles ou posturales. Les ponctuateurs : Les ponctuateurs se dfinissent par une sorte de ponctuation, scansion qui marque le discours. Ils entretiennent des rapports de contigut avec la parole. Une synthse de lensemble des catgories gestuelles est prsente dans le Tableau 3. La colonne DAMP [Perron, 2003a] correspond la catgorisation gestuelle que nous avons choisie dutiliser dans le cadre de nos travaux et que nous dtaillons au Chapitre 4.

109

Les catgories gestuelles Catgorie gestuelle DAMP [Perron, 2003a] McNeil [McNeill, 1992] Ekman et Friesen [Ekman et Friesen, 1969] Cosnier et Vaysse [Cosnier et Vaysse, 1997] Argentin [Argentin, 1989]

Figures

Dictiques (Deictics)

Dictiques

Dictiques

Dictiques

Adaptateurs (Adaptators)

Adaptateurs

Adaptateurs

Gestes iconiques Mtaphoriques (Metaphorics) Mtaphoriques

Emblmes Illustrateurs idographiques et spatiaux Illustrateurs kintographiques et pictographiques Illustrateurs idographiques et spatiographiques Illustrateurs kinmimiques et pictomimiques Battements Cohsifs Connecteurs pragmatiques

Mtaphoriques

Ponctuateurs (Ponctuators)

Battements

Btons rythmiques

Ponctuateurs

Tableau 3 : Synthse des quatre classements des gestes co-verbaux

110

La communication non verbale

3.3 Conclusion
Au cours de ce chapitre nous avons montr limportance de la communication non verbale et particulirement du geste de communication dans des activits dinteractions sociales. Nous avons pour cela tudi un ensemble de catgories gestuelles. Mme si les catgories prsentes nont pas t labores avec les mmes objectifs, elles sont inspires les une des autres et sont relativement similaires. La catgorisation dArgentin [Argentin, 1984], dEkman et Friesen [Ekman et Friesen, 1969] et de McNeill [McNeill, 1992] serviront pour constituer une catgorisation gestuelle exploitable par les avatars dans les EVC (Section 4.2). tant donn que ces catgories permettent dtudier les interactions, nous pensons quelles seront utiles pour ltude des interactions mdiatises en situation de narration. Le prochain chapitre est consacr lanalyse de donnes dune exprimentation afin dlaborer un modle du comportement non verbal de lutilisateur dans un contexte de narration dhistoire pour les avatars des EVC.

111

Discussion
Nous nous sommes donc naturellement penchs, dans la premire partie de cet tat de lexistant, sur lobjectif premier de notre sujet qui est la reproduction du comportement non verbal des utilisateurs d'EVC travers des avatars comportementaux. Nous avons ainsi pu dcouvrir que cette problmatique est aborde depuis un certain temps dj, dabord par les sciences humaines psychologie puis par la simulation informatique. Nous avons ainsi mis en vidence que les limites des environnements virtuels collaboratifs ne sont plus lies des problmes de performances techniques, mais de plus en plus la reprsentation de lutilisateur. Deux types de remarques peuvent tre faites concernant la reprsentation de lutilisateur : dune part de nombreux indices spatiaux ne sont pas perceptibles et engendrent des interrogations telles que : de quoi parle-t-on ? , est ce que tu mcoute ? , qui parle qui ? , etc. Dautre part, peu de reprsentation permettent la fois une bonne qualit de communication et une bonne perception des actions de chacun. Aucune approche ne semble idale lorsque lon conoit un outil collaboratif, le choix de la reprsentation de lutilisateur ne doit pas se contenter dopportunits techniques, mais ncessite une tude approfondie de ce que doit apporter limage de lutilisateur. Ce travail nous a amene ltude la communication non verbale en situation dactivit collaborative. Lhypothse que limage de lutilisateur dans les EVC est encore perfectible, plus dans la reproduction du comportement non verbal que dans le ralisme de reprsentation, nous oblige tudier de nouveaux concepts quant la manire de dlguer ce comportement au systme. Cest quoi nous essaierons de rpondre dans la seconde partie de ce mmoire travers lEVC VIRSTORIA.

113

Deuxime Partie

Contributions

115

Introduction
La premire partie de ce mmoire a mis en lumire la grande difficult des Environnements Virtuels Collaboratifs pour reproduire la collaboration et particulirement la communication non verbale face--face de manire efficiente. En plus de raliser la tche de collaboration, les utilisateurs de tels environnements doivent souvent grer leurs reprsentations. Dans cette seconde partie, nous exposons nos propositions concernant lamlioration de la collaboration entre les utilisateurs travers les EVC. Cette amlioration passe par la dlgation de la reprsentation de lutilisateur et notamment de son comportement non verbal travers des avatars comportementaux. Cette dlgation doit respecter plusieurs critres : le respect du temps rel dans le cadre de la conception dEVC synchrone ; lutilisation de priphriques non intrusifs susceptibles dinfluer sur le comportement de lutilisateur et le respect de la variabilit humaine au niveau du geste de communication. Le respect de ces critres soulve plusieurs questions : quels comportements gestuels doivent incarner les avatars ? Comment interprter les actions de lutilisateur sur le systme pour raliser des gestes de communication ? Comment donner sens la variabilit des gestes travers les avatars ? Pour rpondre cela, nous avons divis cette partie contributions en trois chapitres : le Chapitre 4 illustre notre vision du modle du comportement non verbal des participants une exprimentation de collaboration. Le Chapitre 5 dtaille les tapes de conception du module comportemental BAYBE partir du modle prcdemment dfini. Enfin le Chapitre 6 prsente les caractristiques technique de la plateforme VIRSTORIA qui accueil auprs de ses avatars, le module comportemental BAYBE.

117

Chapitre 4 Analyses ergonomiques du comportement non verbal

119

Humaniser la machine, ne pas mcaniser l'utilisateur. (Olivier Nrot, 2005)

Nous avons vu dans le prcdent chapitre, limportance dutiliser le comportement non verbal et particulirement les gestes de communication dans des situations de collaboration plusieurs, et la littrature en est riche de mthodes et dtudes exprimentales. Nanmoins, dans la perspective de conception dInterface HumainMachine, il existe peu de connaissances suffisamment prcises pour tre utilises de manire pertinente dans une situation donne. Il est donc ncessaire, voire indispensable, de raliser des tudes exprimentales afin de dgager un modle du comportement non verbal efficace permettant son intgration computationnelle pour des avatars dEVC. Pour concevoir ce modle, plusieurs tapes sont ncessaires. La premire, consiste raliser une exprience qui permettra dobserver une situation relle de collaboration. partir de cette exprience, un travail dannotation des donnes et de recueil de corpus numriques est effectu. Enfin les calculs statistiques permettront dobtenir une vision globale des indicateurs tudis, de leurs occurrences et co-occurrences ventuelles. Lensemble de ces tapes permettent donc de dfinir les lments constituant les comportements tudis. Dans ce chapitre, nous dcrirons chacune de ces tapes en dfinissant dans un premier temps, notre vison du modle du comportement non verbal pour les avatars 121

Modle du comportement non verbal en situation de collaboration dEVC. Aprs avoir dfinie une catgorisation gestuelle qui nous convienne, nous illustrons ce modle en exposant une exprimentation ergonomique ralise dans le cadre dune tude sur le comportement non verbal dutilisateurs, en situation de collaboration et dans un contexte de conception dhistoire [Perron, 2003b]. Nous terminerons ce chapitre en dtaillant les rsultats statistiques de notre analyse ergonomique.

4.1 Modle du comportement non verbal en situation de collaboration


La modlisation du comportement humain tient une place importante en ergonomie et un grand nombre douvrages tmoignent de cet aspect de la discipline [Leplat, 2000] [Dtienne et Traverso, 2008]. En ergonomie, on parlera gnralement de modle. Ces modles, qui sont obtenues partir des analyses ergonomiques de lactivit, ont une triple fonction : exprimer simplement et rsumer les donnes recueillies, stocker les connaissances dun domaine et permettre lintgration de nouvelles donnes, guider lanalyse et le recueil dobservables sur le terrain. Ils visent retenir des traits pertinents du systme modlis, mais aussi dfinir leurs relations afin de mieux faire comprendre le fonctionnement de ce systme. La Figure 43 reflte notre vision du modle du comportement non verbal pour les avatars dans lEVC en gnral.
Contexte
PERCEPTION DECISION ACTION

Parole
A.

Modle de Collaboration
Gestes

C.

Interaction
B.

Modle Utilisateur
Voix
D.

Profil

Modle de Tche

Utilisateur 1 Locuteur

Modle du Comportement Non-verbal

Avatar 1

Utilisateur 2 Auditeur

Figure 43 : Vision de notre modle du comportement non verbal (A. reconnaissance de parole du locuteur ; B. interactions priphriques ; C. feedback visuel de lauditeur : gestes de lavatar ; D. voix de lutilisateur distant)

122

Analyses ergonomiques du comportement non verbal Le modle du comportement non verbal intgre plusieurs aspects de la dimension du comportement humain en situation de collaboration : le Modle de Collaboration : ce modle rend compte de la proportion de gestes non verbaux ralise dans une tche de collaboration (Section 4.4.1) ; le Modle Utilisateur : ce modle rend compte des corrlations qui peuvent exister entre les gestes non verbaux et certaines caractristiques humaines (Section 4.4.2) ; le Modle de Tche : ce modle rend compte de lvolution de la proportion de gestes non verbaux gnre en fonction des caractristiques de la tche raliser (Section 4.4.3). Le modle du comportement non verbal doit pouvoir analyser dans un premier temps les interactions de lutilisateur avec lEVC. Il possde pour cela, en amont, un module de perception qui scrute partir de priphriques simples (souris, clavier et micro) et en temps rel, les informations venant de linteraction des utilisateurs avec linterface. Ces informations peuvent concerner lutilisateur lui-mme, par exemple de savoir si cest un homme ou une femme, un enfant ou un adulte, sil connait ou pas la personne avec qui il collabore, etc. Certains gestes tant lis lnonc vocal, il faut pouvoir analyser le contenu smantique de ce dernier. Or, les technologies daujourdhui ne permettent pas de le raliser en temps rel. On peut par contre reconnaitre certains mots prononcs par lutilisateur, et en les corrlant avec le contexte de lapplication, interprter le contenu du discours. Le module daction pour sa part, se charge de transmettre la voix de lutilisateur distant, et ralise la synthse des animations gestuelles de lavatar le reprsentant dans lEVC VIRSTORIA. Avant de prsenter le dtail de la modlisation du comportement non verbal, nous allons justifier notre choix dune catgorisation gestuelle que nous souhaitons mettre en uvre.

4.2 La catgorisation DAMP et son fonctionnement dans la communication


Nous avons dfini dans le chapitre prcdent plusieurs indicateurs non verbaux. Les catgorisations dEkman, Friesen et dArgentin permettent dtudier les interactions 123

La catgorisation DAMP et son fonctionnement dans la communication sociales. La catgorisation de McNeill et Cosnier a t labore pour une personne qui raconte une histoire. Aucune de ces catgorisations ne peut nous satisfaire car elles nont pas a eu pour but dtudier les collaborations interpersonnelles, c'est--dire lassociation dinteraction et de manipulation. De ce fait, nous proposons une catgorisation qui intgre des indicateurs pertinents pour tudier la collaboration des objets de lenvironnement. La catgorisation utilise durant la thse est appele D.A.M.P. [Perron, 2003a] par rfrence aux initiales Dictique, Mtaphorique, Adaptateur et Ponctuateur auxquelles on peut associer les gestes de manipulations (note D.A.M.P.H. H = Handling40). Elle est base sur la catgorisation M.A.P. dArgentin [Argentin, 1989]. cette catgorie a t ajout le Dictique prsent chez Cosnier et Vaysse [Cosnier et Vaysse, 1997], Eckman et Friesen [Ekman et Friesen, 1969] et McNeill [McNeill, 1992]. Nous allons la suite de cette section, prsenter chacun des gestes D.A.M.P. en y prcisant la dfinition, la fonction et le contexte dutilisation. Dictiques (Deictics) : Dfinition : Les dictiques (Figure 44) sont des gestes de pointage vers un/des objet(s) ou une/des personne(s) de lenvironnement. Cependant, la main nest pas la seule partie du corps pouvant servir pointer, la tte, la direction du regard ou dautre partie du corps peuvent servir aussi la dsignation [McNeill, 1992]. Fonction : Geste de dsignation tel que pointer du doigt un objet dans lespace ou donner la parole une personne en la dsignant car dans le cadre dactivits collaboratives, la gestion du tour de parole et la dsignation dobjets sont des lments importants [Goldin-Meadow, 1999].

Figure 44 : Dictiques - Gestes de dsignation, utiliss pour pointer/dsigner un objet ou une personne dans un espace physique ou virtuel

40

Handling (anglais) : Manipulation

124

Analyses ergonomiques du comportement non verbal Adaptateurs (Adaptators) : Dfinition : Les adaptateurs (Figure 45) sont des gestes dauto-contact, dattouchement correspondant aux auto-adaptateurs dEkman et Friesen [Ekman et Friesen, 1969]. Les adaptateurs marquent un besoin dadaptation pas ncessairement volontaire du sujet en rponse aux stimulations de lenvironnement immdiat, do le terme adaptateur . Contexte dutilisation : Cosnier [Cosnier, 1977] note au sujet des adaptateurs : bien que de nature extra communicative, ces activits motrices *+ jouent un certain rle dans la rgulation du niveau de vigilance et ce titre sont lies assez directement l'effort et aux tensions motionnelles requises par la situation d'interaction. Elles augmentent par ailleurs dans certaines proxmies . Les adaptateurs sont indpendants du canal verbal [Argentin, 1984]. Les auto-adaptateurs n'ont pas de relation intrinsque avec la parole, mais ils peuvent tre dclenchs en lien avec ce qui est dit. Ils sont trs prsents lorsque les interlocuteurs expriment un tat, ils sont reprsents dans des contextes conversationnels de valence plutt ngative comme l'ennui, la peur, la gne ou l'embarras [Masse, 2000]. Une nette augmentation d'adaptateurs a t observe dans une situation sociale anxiogne [Argentin, 1989]. Les adaptateurs faciliteraient galement lisolement et llimination partielle des stimulations externes en permettant, par exemple, une laboration cognitive [Masse, 2000]. Ils sont utiliss avec un niveau lev d'motion ou quand il y a une dsorganisation personnelle. Ils sont souvent utiliss avec peu de conscience et sans intention de communiquer [Ekman et Friesen, 1969]. Fonction : Ils sont un indicateur d'inconfort, l'interprtation ou le dcodage de ces comportements est difficile, souvent spculatif et incertain. De plus, la signification d'un adaptateur dpend aussi de la situation dans laquelle il est montr dans la conversation [Ekman et Friesen, 1969].

Figure 45 : Adaptateurs - Gestes dauto-contact, de touch rsultant du comportement appris

125

La catgorisation DAMP et son fonctionnement dans la communication Mtaphoriques (Metaphorics) : Dfinition : Les mtaphoriques (Figure 46) illustrent un contenu discursif et reprsentent par analogie une action, un objet, un lieu, un mouvement Il peut s'agir la fois de dpeindre des relations spatiales, des actions physiques ou bien une image et son rfrent, c'est pourquoi les mtaphoriques correspondent aux illustrateurs spatiales, kintographiques et pictographiques d'Ekman et Friesen [Ekman et Friesen, 1969]. Par exemple, lorsque l'on dit grand comme a et que l'on carte les mains pour indiquer la dimension de l'objet dont on parle. Contexte d'utilisation : Les mtaphoriques sont utiliss lorsque les individus parlent d'une attitude ou dune intention ou lorsquils dnotent du rel [Masse, 2000]. Fonction : Les mtaphoriques servent donner du sens et illustrer le contenu verbal [Goldin-Meadow, 1999]. Ce sont souvent des gestes interactifs puisque leur usage tend attirer l'attention des utilisateurs [Ekman et Friesen, 1969]. Les mtaphoriques entretiennent des rapports de substitution avec la parole [Argentin, 1984], mais ils peuvent galement servir complter l'nonc oral en dcrivant gestuellement les proprits physiques ou spatiales d'un objet (minuscule, grand, sa forme, etc.), ou illustrer par un geste un objet dont on parle Ils sont produits consciemment et intentionnellement [Ekman et Friesen, 1969].

Figure 46 : Mtaphoriques - Gestes illustrant le contenu verbal, ex = grand comme a + mouvement des mains

Ponctuateurs (Ponctuators) : Dfinition : Les ponctuateurs (Figure 47) sont des gestes de scansion, de ponctuation qui rythment le discours. Ils sont prsents en mme temps que le discours. Contexte d'utilisation : Ils entretiennent des rapports de contigut avec la parole, les ponctuateurs sont dpendants du canal verbal [Argentin, 1984]. Ils sont largement utiliss lorsqu'il est question d'une intention ou d'une attitude [Masse, 2000]. Les ponctuateurs sont essentiellement produits lors de l'expression d'une logique [Masse, 2000]. 126

Analyses ergonomiques du comportement non verbal Fonction : Les ponctuateurs servent accentuer, attirer et soutenir l'attention des auditeurs [Goldin-Meadow, 1999].

Figure 47 : Ponctuateurs - Gestes qui fixent le rythme de la parole

Gestes de manipulation (Handling) : Dfinition : Les gestes de manipulation (Figure 48) permettent de manipuler les objets de lenvironnement ou dune interface Humain-Machine, changeant au passage leurs tats. Fonction : Ils ont pour fonction de raliser la tche souhaite.

Figure 48: Gestes de manipulation

On notera que les dictiques, les mtaphoriques et les ponctuateurs sont lis lnonc vocal parfois mme ils lanticipent et de ce fait sont ncessairement produites au moment de lnonciation de faon exclusive. Par contre, les adaptateurs nont aucun rapport avec le rcit verbal ; ils sont produits indiffremment et ventuellement simultanment par le locuteur et les auditeurs.

4.3 Collaboration en petit groupe : exprimentation


Dans cette section nous prsentons lexprimentation ralise par Laurence Perron France Tlcom R&D [Perron, 2003a]. Elle concerne une tche de narration collective dans laquelle les participants avaient pour consigne de raconter ensemble une histoire 127

Collaboration en petit groupe : exprimentation belle et cohrente . Cest partir de cette exprimentation que nous avons ralis lensemble de nos analyses permettant de modliser le comportement non verbal des avatars que nous avons implment dans VIRSTORIA. 4.3.1 Il tait une fois : une exprience de privations sensorielles lorigine, cette exprimentation conue par Laurence Perron France Telecom R&D Lannion avait pour but dtudier dans la ralisation collective dune des tches ludiques, leffet de la privation de modalits dexpressions telles que les gestes, les regards et les expressions faciale sur le comportement non verbal et son influence sur la ralisation de la tche [Cahour et Legout, 2003] [Perron, 2005]. Nous nous sommes bass sur cette exprimentation en utilisant notamment les donnes vido et retranscriptions audio pour raliser notre tude. 4.3.1.1 Scnario de jeu La tche principale qui amne les sujets interagir est la cration collective dune histoire fantastique, partir des cartes-supports existants dans un jeu commercialis sous le nom de Il tait une fois (Once Upon a Time) [Games, 1994]. Les cartes peuvent reprsenter des personnages (un prince, un roi, une sorcire, etc.), des objets (une pe, un grimoire, un anneau, etc.), des vnements (coup de foudre, le temps scoule, etc.), des lieux (un royaume, en mer, une prison, etc.), des aspects (endormi, cach, etc.) et des dnouements ( alors il retrouva sont apparence humaine , Ils remercirent le hros qui les avait tous sauvs , etc.) qui sont la fois crits et illustrs sur chaque carte (Figure 49).

Figure 49 : Exemple de cartes conte du jeu Il tait une fois

Les participants ont pour consigne de crer une histoire commune, en racontant un rcit autour des cartes dont ils disposent, en brodant partir des cartes-supports. Quand ils 128

Analyses ergonomiques du comportement non verbal dveloppent lhistoire partir dune de leurs cartes, ils placent cette carte au centre de la table (le fil de lhistoire) la suite des cartes prcdemment poses ; Chacun des joueurs dune partie dispose de six cartes conte distribues au hasard et de deux cartes dnouement ; leurs cartes sont poses les unes aprs les autres au centre de la table devant eux pour constituer le fil de lhistoire, et sont donc visibles par lensemble des joueurs. Une fois que lensemble des cartes conte sont disposes au centre de la table, les joueurs doivent choisir une carte dnouement (parmi lensemble des cartes dnouement dun groupe de joueurs) pour conclure lhistoire. Lintrt davoir choisi ce type de jeu est de pouvoir concevoir par lensemble des joueurs une tche de collaboration collective synchrone, en loccurrence une histoire commune cohrente et intressante sans quil ny ait de perdant et donc de notion de tricherie comme au poker par exemple et cest ce que lon appelle un jeu gagnantgagnant . Lhistoire finale tant une uvre commune, chaque ide propose peut tre discute, ce qui permet damliorer les interactions interpersonnelles par rapport aux rgles du jeu initial qui les rendaient plus individualiste. 4.3.1.2 Population Dix-huit sujets ont particip cette exprimentation. Ils se rpartissent en six groupes de trois joueurs (triades). La population est constitue pour lessentiel de jeunes stagiaires travaillant sur le site de France Telecom R&D Lannion gs de 23 35 ans et ayant un niveau dtude dau moins bac+5. Sur les dix-huit participants, on trouve six femmes et douze hommes, ce qui fait trois trios mixtes (une femme et deux hommes), deux trios de trois hommes et un de trois femmes (Figure 50). Deux de ces trios se connaissent personnellement (Groupe 3 et Groupe 4) et les quatre autres groupes ne se connaissent pas ou seulement de vue.

129

Collaboration en petit groupe : exprimentation

Figure 50 : Rpartition homme/femme au sein des groupes

Le choix du trio (plutt que du duo) offre un moyen de mesurer leffet de la privation daccs au non verbal dans des interactions. Cela permet ainsi dapprhender le problme de la rgulation, de la communication, de la co-manipulation distance dans un groupe et de sortir du cadre classique du dialogue en face--face . 4.3.1.3 Dispositif exprimental Le dispositif exprimental tait compos dune table triangulaire pouvant accueillir un groupe de trois joueurs et situe dans une salle A, et dun dispositif de visualisation audiovisuel pour les concepteurs de lexprimentation situ dans une salle B (Figure 51). Le dispositif denregistrement audiovisuel rend compte de la disposition spatiale des sujets ; ce qui est important du point de vue de ladressage corporel. Le son est enregistr au moyen de trois microphones disposs proximit des sujets (le son est enregistr de manire rendre compte de la position des sujet dans lespace et afin didentifier plus facilement qui parle).

130

Analyses ergonomiques du comportement non verbal

Salle A

Ca m r Su a + M jet i 3 cr o

Salle B
Figure 51 : Schma du dispositif exprimental (vue de dessus)

o icr +M ra t 2 m uje Ca S

Fil de lhistoire

Camra + Micro Sujet 1

Moniteur

131

Collaboration en petit groupe : exprimentation 4.3.1.4 Procdures Lexprimentation sest droule au sein de France Telecom R&D Lannion. Chaque sance dbutait par la signature dun protocole daccord pour les enregistrements vido. Les participants avaient ensuite une consigne crite lire et une dmonstration du jeu de trois minutes ralise par deux chercheurs (les concepteurs de lexprimentation). Chaque exprimentation dure environ deux heures, et consiste raliser les quatre conditions correspondantes la privation des modalits non verbales prcites (Figure 52). La premire histoire ne comportait aucune restriction particulire (condition contrle denviron quinze minutes ; Figure 52-1). Les trois conditions suivantes ont t contrebalances. Dans la condition sans visage , les participants portaient un masque de carnaval pour cacher les expressions du visage (Figure 52-2). La condition sans regard , consistait demander aux trois personnes de jouer avec des lunettes de soleil pour viter lchange de regards entre les partenaires sans perturber le jeu (Figure 52-3). La condition sans les mains consistait pour les participants jouer en maintenant leurs mains sous la table ds quils navaient pas besoin de manipuler les cartes (Figure 52-4). Dans le cadre de nos travaux, nous nous sommes uniquement intresss la condition contrle (Figure 52-1), puisque cest la condition sans privation de modalits que lon peu juger de condition de collaboration normale.

Figure 52 : Les 4 conditions de l'exprimentation 1 : Contrle (Normal)- 2 : Masque (Sans expressions faciales) 3 : Lunettes (Sans regard) 4 : Sans les mains

4.3.1.5 Annotation des vidos lissue de lexprimentation Il tait une fois , chacun des dix-huit participants ont ralis quatre scnarios de jeu, ce qui reprsente vingt-quatre vidos denviron quinze minutes chacune soit un total de six heures denregistrement vido. Le travail de transcription audio sur papier a t ralis par Batrice Cahour et Marie-Claire Legout [Cahour et Legout, 2003]. Les changes verbaux se prsentent sous forme dune alternance de parole (un exemple de transcription audio est fourni en Annexe B). 132

Analyses ergonomiques du comportement non verbal La Figure 53 rsume lensemble du processus dannotation et danalyse des donnes. Dans la suite de ce chapitre, nous allons dvelopper certains points de ce processus en dcrivant chacune des tapes dannotations.

133

Collaboration en petit groupe : exprimentation


Exprimentation Il tait une fois

EXPRIMENTATION

Transcription audio

Vido

ANNOTATION
Schma de codage

Logiciel ANVIL

Rsultats dannotation (XML)

EXTRACTION
Mtriques Rsultats dannotation (XML)

ANALYSE
Statistiques

ACP

Figure 53 : Schma d'annotation et d'analyse des enregistrements vido

Etape

134

Analyses ergonomiques du comportement non verbal 4.3.1.6 Codage de lactivit Pour rendre compte de la complexit de la communication trois en situation de cration collective dhistoires, nous avons relev la fois les vnements verbaux (transcriptions audio) et non verbaux (regards, gestes et certaines mimiques faciales). Le logiciel ANVIL [Kipp, 2001] a ensuite t utilis pour complter les transcriptions audio. Ce logiciel permet de visionner une vido tout en lannotant selon divers critres. Ces critres sont dfinis par lutilisateur sous la forme dun fichier XML (schma de codage) dans lequel on spcifie les diffrents canaux suivre, le type des annotations que lon fait et leurs valeurs possibles. Comme le montre la Figure 54, le schma de codage que nous avons dfini contenait six pistes, dcrites ci-dessous : Piste 1 (Audio) : cette piste permet laffichage du spectre sonore de la vido, rsultant des interactions verbales entre les participants. Il permet ainsi de situer prcisment le dbut et/ou la fin dun mot (ou dune phrase) prononc par les participants durant les parties. Piste 2 (Uterrance - nonc verbal) : Cette piste contient lensemble des verbalisations de chaque joueur (transcription audio). Exemple : Puis le loup avec la bergre, cest pas mal aussi avec les moutons. Cest le truc classique . Le contenu verbal de chaque joueur peut tre de plusieurs natures : le joueur peut raconter une partie de lhistoire (cod orange : proposition), faire un commentaire hors cadre narratif (cod vert ple : commentaire), poser des questions (cod vert fonc : question) ou produire des onomatopes (cod rouge : hmm). Piste 3 (Story - Contexte) : Cette piste permet de dfinir le contexte narratif dans lequel sont les joueurs linstant t. On y repre, les trois phases dactivits dune session de jeu (Prparation, Narration et valuation) que nous prsentons la Section 4.4.1.1, et les cinq tapes du modle de narration de Bremond (situation initiale, situation de perturbation, situation daction, situation de rsolution et situation finale) que nous prsentons la Section 4.4.3.2. Piste 4 (Gaze - Regards) : Les regards ont galement fait l'objet d'une analyse prcise en termes de dure pendant laquelle les joueurs ont regard leurs partenaires, en termes de cibles vers lesquelles se sont dirigs les regards (auditeurs, locuteurs, environnent, cartes) et en termes de frquence. Une fois formalise, la typologie des regards se prsente ainsi : 135

Collaboration en petit groupe : exprimentation 1. regarde les autres joueurs (diffrentiation auditeur/locuteur) ; 2. regarde ses propres cartes ; 3. regarde les cartes des autres joueurs (diffrentiation

auditeur/locuteur) ; 4. regarde le fil de lhistoire ; 5. regarde ailleurs. Piste 5 (Mimic Mimiques faciales) : nous avons galement annot les mimiques qui appartiennent des catgories connues et de sens commun : sourire, rire, clat de rire. Parfois ces classes dexpression sont accompagnes de qualificatifs supplmentaires du type : rire bruyant, lger sourire, rire fort. Dans la catgorie des expressions, on peut avoir fait une moue , fronce les sourcils , gonfle la joue avec sa langue , etc. Notre description des mimiques reste globale puisque lanalyse a port essentiellement sur les gestes, mais peut faire lobjet de prochaines tudes. Piste 6 (Gesture - Gestes) : Enfin la dernire piste a servi annoter les gestes excuts par chacun des joueurs suivant la catgorisation DAMP (dictique, adaptateur, mtaphorique, ponctuateur) ainsi que la manipulation des cartes (handling).

136

Analyses ergonomiques du comportement non verbal

Gestionnaire

Vido

Attributs dAnnotation

1 seconde

Piste 1 Piste 2 Piste 3 Piste 4 Piste 5 Piste 6

Banc dAnnotation
Figure 54 : Interface du logiciel ANVIL. Les fentres du haut sont de gauche droite : le gestionnaire de traitement vido, le lecteur vido et une fentre dinformation sur llment slectionn dans la fentre du bas. La dernire fentre montre les dcompositions qui ont t effectues sur la ligne temporelle de la vido

137

Collaboration en petit groupe : exprimentation En sortie dANVIL, les fichiers dannotations se prsentent sous un format XML (Figure 55). Une fois extraites des fichiers dannotations via le logiciel Microsoft EXCEL41, les mtriques recueillies ont t organises en variables, qui ont enfin t soumises des analyses statistiques laide du logiciel XLSTAT42 (module dextension de Microsoft EXCEL permettant de raliser des statistiques).

Figure 55 : Exemple de fichier XML extrait dANVIL

Pour chaque valeur dannotation, nous avons relev la dure totale dexcution et le nombre doccurrences.

41 42

http://www.microsoft.com http://www.xlstat.com

138

Analyses ergonomiques du comportement non verbal

4.4 Rsultats
Dans cette section, nous exposons les rsultats des analyses statistiques extraits des corpus de donnes ANVIL et correspondant la dfinition du modle de collaboration (Section 4.4.1), du modle utilisateur (Section 4.4.2) et du modle de tche (Section 4.4.3). 4.4.1 Modle de collaboration : Analyse quantitative Lanalyse quantitative des gestes DAMP, ralise en partie par Laurence Perron [Perron, 2005], rvle une grande variabilit entre les individus malgr lhomognit de la population (Figure 56). Hormis les gestes de manipulations c'est--dire les gestes lis au maniement des cartes (26 70 % du temps de jeu), les gestes DAMP reprsentent de 30 64 % du temps de jeu, avec une nette prdominance des adaptateurs (70 98 % des gestes DAMP) et cela dans toutes les conditions (normal, masque, lunette, sans les mains). Cela est d au fait que lindividu est centr sur sa tche principale de conception narrative via la manipulation de cartes (conception narrative par le placement de cartes).

Figure 56 : Pourcentage de gestes DAMP par rapport au temps de jeu dans lensemble des conditions

Les adaptateurs reprsentent la grande majorit des gestes DAMP en occupant 29 63 % du temps de jeu. Ils sont raliss en continu au cours du jeu et sont seulement interrompus (au moins pour la main dominante), pour manipuler une carte ou faire tout autres gestes de faibles dures. Le nombre important d'adaptateurs traduit la charge motionnelle lie la situation qui peut aller du repli communicationnel l'expression de sentiments dus l'aspect ludique du jeu. Si l'on peut difficilement rendre compte des motions l'origine des adaptateurs, leurs prsences n'en est pas moins manifeste. 139

Rsultats Rappelons que le jeu consistait raconter, construire une histoire ; tche qui met en jeu tour tour l'imaginaire, l'loquence, l'affect, mais aussi la force de persuasion, la ngociation, etc. Parler, communiquer avec autrui, c'est aussi partager et donner voir des motions que le comportement non verbal rend visibles immdiatement par lintermdiaire des adaptateurs. Les dictiques reprsentent pour leur en moyenne part 5,7 % des gestes DAMP et ont t excuts quatre fois en moyenne par session de jeu. On aurait pu penser compte tenu de la tche (gestes dadressage pour les tours de parole ou de dsignation de cartes) que les dictiques seraient les plus nombreux. Il est possible que la manipulation des cartes relativement aise en situation relle, puisse tre remplace par des gestes de dsignation dans une situation o les cartes seraient plus difficiles manipuler. Les mtaphoriques, sont les gestes les moins prsents puisquils ne reprsentent que 3,3 % des gestes, soit 1,4 % des gestes DAMP et seulement 0,1 0,5 % du temps de jeu. Selon Masse [Masse, 2001] : les registres, mtaphorique dun ct, et ponctuateur de lautre, semblent fonctionner dans un rapport inversement au poids social occup dans la co-construction de la rfrence. , les sujets se positionnant comme dominants font montre dune appropriation dun langage htro-centr par lutilisation du registre ponctuateur . Cela signifie que les sujets les plus laise du point de vue de la situation produiraient plus de ponctuateurs ; les moins laise, plus de mtaphoriques, si tant est que linterlocuteur se trouve ou se sente engag dans un rapport social aussi fort que celui tudi par Masse o la situation dinterlocution est vise thrapeutique. Enfin, les ponctuateurs reprsentent pour leur part 8,9 % des gestes DAMP. Ils se caractrisent par leurs frquences avec une moyenne de 5,4 gestes (Figure 57) et surtout par leur dure bien moindre par rapport aux adaptateurs (une moyenne de 6 secondes par ponctuateur). Tous comme les dictiques, le fait de manipuler des cartes en mme temps que lnonciation narrative priverait les participants de raliser des ponctuateurs.

140

Analyses ergonomiques du comportement non verbal

Figure 57 : Nombre moyen de gestes DAMP

4.4.1.1 Comportements non-verbaux selon la phase dactivit Lors du visionnage des vidos, nous avons pu distinguer trois phases dans une session de jeu se diffrenciant les unes des autres par lactivit des triades. Une session de jeu se compose donc dans lordre chronologique : 1) dune phase de prparation, 2) dune phase de narration et 3) dune phase dvaluation. Ainsi, chaque session de jeu a t dcoupe selon ces trois phases. Voici une description de chacune des trois phases : 1. Phase de prparation : Cette premire phase dune session de jeu, permet aux participants de prendre conscience des rgles du jeu (exemple a.), dexaminer leurs cartes (exemple b.) et dlaborer une premire stratgie de la conception de lhistoire (exemple c.). Cette phase commence lorsque la session de jeu dbute, et se termine lors de la pose de la premire carte conte sur le fil de lhistoire, avec souvent lnonciation de lexpression Il tait une fois par lun des participants. Exemples : a. Est-ce quil faut que lon fasse le tour comme a ? ; b. Bon, alors a commence bien, je nai pas de personnage. ; c. Hmm, jai dj une petite ide pour la fin. .

141

Rsultats 2. Phase de narration : Cest la phase principale et la plus longue de la session de jeu (12 minutes en moyenne). Cest dans cette phase que les participants conoivent lhistoire proprement parler. Ils posent chacun leur tour les cartes au centre de la table pour raconter un morceau de lhistoire. Cette phase correspond au modle narratif dcompos par Propp [Propp, 1968], Greimas [Greimas, 1966] et Bremond [Bremond, 1973] (Section 4.4.3.2). Concernant les gestes, elle correspond au niveau narratif de McNeill (Chapitre 2). Elle commence avec la fin de la phase de prparation, c'est--dire lors de la pose de la premire carte sur le fil de lhistoire par un des participants, et se termine lorsque lensemble des cartes sont places sur le fil de lhistoire (se terminant par la carte de dnouement ). Exemples : a. Il tait une fois ; b. Voil, donc le village entier tait effray par cette sorcire et euh ; c. Et le mchant loup le dvora tout cru . 3. Phase dvaluation : Cest la dernire phase de la session de jeu et elle correspond essentiellement lvaluation de lhistoire prcdemment conue. Les participants interagissent ensemble, ils en parlent, que ce soit propos de lhistoire ou non. Cette phase commence lorsque lensemble des cartes a t pos sur le fil de lhistoire et prend fin avec la session de jeu. Exemples : a. Mais cest du rapide a ! ; b. Elle nest pas terrible notre histoire ! ; c. Mais si elle est trs bien ! .

Un exemple de retranscription du dialogue dune session de jeu est fourni en Annexe B. Pour chaque phase dune session de jeu, nous avons analys la proportion de gestes DAMP produits par les participants. Nous avons aussi analys de faon distincte pour chacune de ces phases, la gnration de gestes DAMP lorsque les participants prennent ou pas la parole, et ceci pour diffrentier essentiellement les adaptateurs que lon peut excuter aussi bien lorsque lon prend la parole ou lorsque lon ne parle pas. Le Tableau 4 illustre lvolution des proportions des gestes DAMP dans les diffrentes phases dune session de jeu et lorsque les participants ne prennent pas la 142

Analyses ergonomiques du comportement non verbal parole. On constate, que quelque soit la phase de jeu, les adaptateurs reprsentent la quasi-totalit des gestes excuts par les joueurs lorsquils ne manipulent pas les cartes. Cette observation semble logique, car les adaptateurs qui reprsentent la majorit des gestes DAMP, sont les seuls gestes navoir aucun rapport avec le rcit narratif (verbal). La faible proportion des dictiques observe en phase de narration (1,6 %) et dvaluation (5,6 %) correspondent gnralement au suivi du rcit du locuteur par les auditeurs ou lorsquils font une lecture du rcit dans leur tte tout en pointant la ligne de lhistoire. Il en est de mme pour les mtaphoriques (1,4 % dans la phase de narration et 5,6 % dans la phase dvaluation) et les ponctuateurs (2,9 % dans la phase de narration et 0,7 % dans la phase dvaluation). Prparation 0 % (0s) 100 % (68,49 s) 0 % (0 s) 0 % (0 s) Narration 1,6 % (7,72 s) 94 % (454,4 s) 1,4 % (6,92 s) 2,9 % (14,2 s) valuation 5,6 % (11,92 s) 93,6 % (200,08 s) 0,1 % (0,28 s) 0,7 % (1,44 s)

Dictique (tps) Adaptateur (tps) Mtaphorique (tps) Ponctuateur (tps)

Tableau 4 : Pourcentages et temps dexcutions des gestes DAMP observs dans le corpus lorsque les joueurs ne parlent pas

Le Tableau 5 quant lui, illustre lvolution des proportions des gestes DAMP dans les diffrentes phases dune session de jeu et lorsque les participants prennent la parole. On constate dans la phase de prparation, quavec 92 %, les adaptateurs reprsentent la grande majorit des gestes DAMP. Les dictiques, qui reprsentent 8 % des gestes DAMP sont essentiellement dus au fait que les participants pointent lenvironnement (pour situer les diffrentes zones du jeu) ou les cartes des autres joueurs. Dans la phase de narration, 65,4 % des gestes DAMP sont des adaptateurs. 15 % des gestes DAMP sont des mtaphoriques, 10 % des dictiques et 9,5 % des ponctuateurs. Ces trois gestes sont directement lis la parole des locuteurs et malgr la force descriptive de cette phase, ils ne les exploitent que faiblement. Cela peut sexpliquer par le fait que les utilisateurs manipulent les cartes en grande partie en mme temps quil raconte lhistoire et cela au dtriment des ponctuateurs, mtaphoriques et dictiques. Pour preuve, dans la phase dvaluation, lorsque les participants ne manipulent plus les cartes (ou en partie) les adaptateurs retombent 46,2 % des proportions des gestes DAMP alors que les dictiques en reprsentent 39,9 %. Cela est d au fait que pour rcapituler lhistoire co-construite, les joueurs pointent chaque carte du fil de lhistoire tout en nonant le rcit pique labor. Quant aux ponctuateurs, ils reprsentent 12,1 % des proportions des gestes DAMP et les mtaphoriques baissent 1,9 %.

143

Rsultats Prparation 8 % (1,12 s) 92 % (12,96 s) 0 % (0 s) 0 % (0 s) Narration 10 % (11,52 s) 65,4 % (75,05 s) 15 % (17,24 s) 9,5 % (10,88 s) valuation 39,9 % (32,4 s) 46,2 % (37,48 s) 1,9 % (1,52 s) 12,1 % (9,8 s)

Dictique (tps) Adaptateur (tps) Mtaphorique (tps) Ponctuateur (tps)

Tableau 5 : Pourcentages et temps dexcutions des gestes DAMP observs dans le corpus lorsque les joueurs parlent

4.4.2

Modle de lutilisateur : Analyse multi-variable Lanalyse quantitative prcdemment dcrite a mis en lumire la grande variabilit

des gestes de communication, et a apport les premiers lments llaboration dun modle du comportement non verbal des individus durant lexprience Il tait une fois . Dans la plupart de ces donnes, nous avons considr le corpus global sans distinguer certaines caractristiques des participants (homme ou femme, connaissance ou premire rencontre). Dans le but didentifier des profils de comportement dans ces diffrents groupes, ainsi que lexistence de corrlations intermodales, nous avons ralis une Analyse en Composantes Principales (ACP). LACP, appele aussi analyse factorielle en composantes principales, est une mthode statistique essentiellement descriptive, qui permet dtudier les relations entre des variables multiples de faon exploratoire, c'est -dire lorsque lexploitation des donnes nest guide par aucune hypothse pralable [Wolff, 2003] [Wolff et Visser, 2005]. Lintrt majeur de lACP est doffrir la meilleure visualisation possible des donnes multi-varies, en identifiant le ou les plans dans lesquels la dispersion est maximale mettant ainsi en vidence avec le maximum de prcision les relations de proximit et dloignement entre les variables. Les composantes principales dsignent les axes orthogonaux qui structurent les donnes et qui rendent compte de cette variance maximale. 1re tape : les variables initiales retenues pour la modlisation Pour cette analyse, 9 variables initiales ont t prises en compte (ce sont donc les variables dites actives) : la proportion de parole de chaque joueur (%) ; la proportion de dictiques (%) ; la proportion dadaptateurs (%) ; la proportion de mtaphoriques (%) ; la proportion de ponctuateurs (%) ;

144

Analyses ergonomiques du comportement non verbal la proportion de manipulations (%) ; la proportion de regards courts (%) Regards> ; la proportion de regards moyens (%) Regards>> ; la proportion de regards longs (%) Regards>>>.

Le Tableau 6 de donnes est donc constitu de 9 colonnes (correspondant aux 9 variables actives) et 12 lignes (correspondant aux 18 sujets de lexprimentation auxquels nous avons enlev 2 groupes qui prsentaient des donnes extrmes).

145

Rsultats % Mtaphoriques % Manipulations 8,7 7,9 63,4 89,7 21,2 22,1 14,6 9,9 25,8 82,5 24 9,1 % Ponctuateurs 0,9 0,4 0,7 0,2 0,3 0,3 0,4 0,2 0,9 0,4 0,7 1,3 % Adaptateurs 87,8 91,4 35,8 9,8 77,5 77,4 83,9 89,8 71,7 16 74,5 87,8 % Regards>>>

1 2 3 4 5 6 7 8 9 10 11 12

47,8 14,1 38,1 29,9 33,9 36,2 33,9 23,1 43 29,4 37,9 32,8

10,9 20,2 42 12,7 52,1 8,5 21,4 26,7 32,6 31,9 21,6 27,6

3,4 3,4 8,4 6,3 15,5 2,8 3,2 6,4 5,9 3,4 6,5 8,6

0,8 1,7 9,2 0,7 1,4 0 1,1 1,6 3,7 0 0 0,4

0,9 0,3 0 0,2 0,5 0,1 0,9 0 1,1 0,2 0,6 0,6

% Dictiques

% Regards>>

% Regards>

% Paroles

Sujets

1,7 0 0,1 0,1 0,5 0,1 0,2 0,1 0,5 0,9 0,2 1,2

Tableau 6 : Tableau de donnes de lACP

146

Analyses ergonomiques du comportement non verbal 2me tape : tudes des valeurs propres Une valeur propre associe chaque axe vectoriel reprsente, pour chaque axe, une contribution la variance totale du nuage. La difficult ce niveau de lanalyse et de savoir combien daxes on va pouvoir retenir pour interprter au mieux les donnes, lidal tant au mieux de retenir un minimum daxes qui seraient censs expliquer un maximum dinformations. Une convention existe nanmoins pour aider lanalyste dans sa tche. Cette convention ncessite quelques explications au pralable : comme les variables ont t centres et rduites (ramenes une mme chelle, c'est--dire que pour chacune dentre elles la moyenne est gale 0 et lcart type 1, par consquent la variance est aussi gale 1), la variance totale du nuage la somme des valeurs propres prenant en compte toute les variables est donc gale au nombre de variables (on somme toutes les variances de valeur 1). Par consquent, on peut considrer quune contribution moyenne la varian ce totale du nuage est gale 1. Par convention, on va donc retenir au moins tous les axes dont la contribution la variance totale du nuage (la valeur propre) est suprieure cette contribution moyenne, c'est--dire 1. Trois axes ont t retenus pour cette analyse : chacun a en effet une contribution suprieure 1 (contribution moyenne) et le pourcentage de variance pris en compte par lensemble de ces axes peut tre considr comme assez satisfaisant avec environ 7 9 % de la variance43 prise en compte (Tableau 7) Axes 1 2 3 4 5 6 7 8 Valeurs propres 2,798 2,468 1,860 0,831 0,648 0,346 0,038 0,010 Variabilit (%) 31,087 27,427 29,661 9,237 7,195 3,849 0,427 0,116 Pourcentage cumul 31,087 58,514 79,175 88,413 95,608 99,457 99,884 100,00

Tableau 7 : Tableau des valeurs propres

La variance totale du nuage, donc la somme des valeurs propres, est gale au nombre de variables (pour cet exemple : 8 variables, chacune de variance gale 1).

43

Un total de 70% de variance explique est gnralement considr comme acceptable.

147

Rsultats 3me tape : tude des nuages des variables actives La matrice des corrlations (Tableau 8) nous indique que les corrlations les plus fortes sont entre : les regards court et les regards moyen (r=0,947) ; les mtaphoriques et les ponctuateurs (r=0,874) ; les regards courts et les regards longs (r = 0,663) ; le taux de parole et les dictiques (r = 0,575) ; le taux de parole et les ponctuateurs (r = 0,571) ; le taux de parole et les mtaphoriques (r = 0,526).

Le premier constat, montre la forte corrlation entre les variables mtaphoriques et ponctuateurs. Cela signifie que les individus ralisant beaucoup de ponctuateurs sont ceux qui ont ralis le plus de mtaphoriques et inversement. On remarque galement la forte corrlation entre les gestes dictiques, ponctuateurs, mtaphoriques et le taux de parole des sujets. Cela montre que les sujets prenant le plus la parole et que lon peu qualifier de leaders de groupe [Bales, 1965], sont ceux qui ralisent le plus de dictiques, de ponctuateurs et de mtaphoriques. Cela semble vident, car ces gestes sont lis lnonc verbal des participants la diffrence des gestes adaptateurs. Enfin les autres patterns temporels et smantiques que nous avons observs sont sans doute attribuables des sujets ayant moins utiliss la multimodalit. Les corrlations ngatives les plus fortes sont : les manipulations et les adaptateurs (r=-0,998) ; les regards moyens et les manipulations (r=-0,287) ; le taux de parole et les adaptateurs (r=-0,237).

Ces observations dmontrent que plus les sujets manipulent les cartes, moins ils feront dadaptateurs et de regards moyens, et moins ils parlent, plus ils feront des adaptateurs.

148

Analyses ergonomiques du comportement non verbal % Mtaphoriques % Manipulations 0,199 -0,361 -0,287 -0,298 0,237 -0,998 -0,092 0,069 1 % Ponctuateurs 0,571 0,333 0,193 0,376 0,322 -0,117 0,874 1 0,069

% Paroles % Regards> % Regards>> % Regards>>> % Dictique % Adaptateur % Mtaphorique % Ponctuateur % Manipulation

1 0,212 0,228 0,224 0,575 -0,237 0,526 0,571 0,199

0,212 1 0,947 0,663 -0,157 0,348 0,361 0,333 -0,361

0,228 0,947 1 0,530 -0,095 0,280 0,174 0,193 -0,287

0,224 0,663 0,530 1 -0,141 0,285 0,364 0,376 -0,298

0,575 -0,157 -0,095 -0,141 1 -0,277 0,341 0,322 0,237

-0,237 0,348 0,280 0,285 -0,277 1 0,043 -0,117 -0,998

% Adaptateurs

% Regards>>>

% Dictiques

% Regards>>

% Regards>

% Paroles

0,526 0,361 0,174 0,364 0,341 0,043 1 0,874 -0,092

Tableau 8 : Matrice de corrlation dans la condition contrle

149

Rsultats 4me tape : tude du nuage des variables actives et supplmentaires Les graphiques relatifs aux nuages des individus pourront ainsi sinterprter, globalement de la sorte : droite, les manipulations (Handling) effectues par les sujets, opposes ( gauche) aux gestes de communication DAMP (Gesture). Cet axe reprsente donc la distinction entre les individus ayant spontanment beaucoup utiliss les gestes de communication DAMP et ceux qui ont tendance manipuler les cartes de jeu. En haut, suivant laxe 2, tout ce qui est de lordre de la parole (Speech) et des regards (Gaze). Cette analyse de nuage des variables nous permet de prsenter le nuage des points moyens des femmes et des hommes, et des relations inter-sujet en fonction des axes tels que nous venons de les interprter. La Figure 58 nous montre que les femmes sont plutt situes du ct de la parole et des gestes de communication DAMP alors que les hommes sont situs au niveau des regards et de la manipulation des cartes. Les femmes ont tendances recourir aux gestes DAMP et sont moins enclin manipuler les cartes du jeu. En regroupant avec la premire analyse, on constate galement que les femmes ont tendance raliser plus de ponctuateurs que les hommes.

Figure 58 : Nuage de point de la variable Homme/Femme dans le Plan 1-2

150

Analyses ergonomiques du comportement non verbal Quant la Figure 59, elle illustre les relations entre les joueurs qui se connaissaient avant lexprimentation et ceux qui se sont rencontrs pour la premire fois lors de cette exprimentation. On observe que les personnes qui se connaissaient avant lexprimentation sont situes du cot des gestes de manipulation, contrairement ceux qui ne se connaissaient pas et qui sont plutt situes du ct des gestes de communication DAMP.

Figure 59 : Nuage de points de la variable Ami/Pas ami dans le Plan 1-2

4.4.3

Modle de tche : Analyse temporelle Durant les exprimentations, la tche principale des participants fut dlaborer une

histoire cohrente de faon collaborative. La tche principale exerce par les participants est donc le rcit, la narration dhistoire, ou plus communment appele dans le domaine des IHM, le storytelling interactif . Le storytelling signifie lart de raconter (narrer) des histoires et correspond la partie du discours o lorateur raconte, expose et dveloppe les faits. Il existe de nombreuses dfinitions du mot storytelling ou narration en franais en fonction de son utilit. Selon le dictionnaire de lAcadmie franaise en ligne, 151

Rsultats narration , qui porte souvent indistinctement plusieurs noms comme conte, farce, saga, rcit, correspondant la partie du discours o lorateur raconte, expose et dveloppe les faits. Le mme dictionnaire dfinit histoire comme tout rcit dactions et dvnements, quils soient rels ou fictifs. 4.4.3.1 Le storytelling Interactif Serge Bouchardon [Bouchardon, 2008] pose trois principes au storytelling interactif : la prsence dune succession dvnements constituant une histoire (par rapport une attention porte exclusivement sur le signifiant comme lcriture potique) ; que le mode de reprsentation principale de cette histoire soit une narration (par rapport au jeu dramatique) ; que le rcit soit interactif, c'est--dire quil comporte une forme de programmation informatique, plus ou moins ouverte, des interventions matrielles de lutilisateur. Suivant ces trois principes et la dfinition que nous avons faite de VIRSTORIA dans lintroduction gnrale, on peut qualifier ce dernier de plateforme collaborative de storytelling interactif et par consquent, le modle de tche du modle de comportement non verbal correspond au modle du storytelling. 4.4.3.2 Les modles de narration La finalit de VIRSTORIA est la conception collaborative dhistoires fantastique s cohrentes. Ces histoires suivent un schma narratif qui a de tout temps tait tudi pour tre ensuite modlis. Le modle narratif propose une structure abstraite et invariante commune tout un corpus de rcits. Le narratologue44 extrait d'un ensemble de rcits une structure narrative invariante ayant trait, soit aux relations entre les personnages, soit l'enchanement des actions.

44

Le narratologue est la personne tudiant les techniques et les structures narratives mises en uvre dans les textes littraires.

152

Analyses ergonomiques du comportement non verbal Nous prsentons ci-dessous 3 modles narratifs (que nous nommons modles du storytelling) les plus remarquables et dont nous nous sommes inspirs pour raliser le modle du storytelling du modle du comportement non verbal. Le formalisme de Propp Morphology of the folktale (Morphologie du conte) [Propp, 1968] [Propp, 1928] est probablement lessai le plus connu en ce qui concerne la modlisation du rcit de conte, et est certainement le plus cit notamment dans le domaine du storytelling interactif. Propp a t le premier dcouvrir des structures stables qui sous-tendent les contes du folklore Russe et de dcrire ces structures en utilisant pour la premire fois un formalisme dans la narratologie avec une notation symbolique comprhensible [Cavazza et Pizzi, 2008]. Propp introduit les fonctions narratives comme une unit de base de reprsentation fonctionnelle du rcit. Cela constitue des primitives narratives dcrivant des vnements prototypiques du rcit dans tous les contes russes, tels que la transgression, la tromperie, le combat, la punition, le mariage, etc. Pour Propp, tous les contes Russes suivent une structure commune et peuvent tre dcrits travers une squence de fonctions narratives, dont il a tudi et identifi trente-et-un atomes de corpus (comptant chacun un nombre variantes). Lapproche de Propp peut tre rsume en quatre points majeurs : les fonctions narratives sont les primitives de base du folklore ; comme telles, elles sont stables et invariantes ; elles sont indpendantes des personnages qui les excutent, ainsi que des modalits de leurs excutions ; il existe un nombre limit de fonctions narratives dcrivant les contes populaires russes (les fonctions narratives se comportent comme des primitives) ; la description canonique identifies trente-et-une de ces fonctions ; les fonctions se produisent toujours dans le mme ordre (Figure 60) ; mais chaque conte donn, comprend un sous-ensemble de fonctions. Cela signifie que si les fonctions gnrales (dans tous les contes populaires) sont dcrites dans lordre ABCDEF, seules les sous-squences du type ADEF et BCDF sont possibles (lordre des fonctions est inaltrable et le retour en arrire nest pas possible). de

153

Rsultats

Figure 60 : Une squence typique du formalisme de Propp. Chaque lment basique est associ un symbole (B1 : Enlvement ; J1 : combat entre le Hros et lAntagoniste). Les flches montantes et descendantes correspondent au dpart et au retour du Hros.

Cette mthode taxonomique permet non seulement de dgager une liste de ces lments, mais aussi de donner une formule de la structure du conte, c'est--dire une liste qui contient (1) la situation de dpart, (2) les fonctions de l'intrigue regroupes en squences qui dfinissent des thmes (comme illustr dans la Figure 60), et (3) la fin. Une squence commence par la formulation d'un problme et se termine par sa rsolution. Il est utile de citer ici la critique de Bremond concernant lhypothse proppienne45, en particulier dans la perspective de la conception dapplications de storytelling interactif [Bremond, 1973]. En raison de la nature fixe de la squence de fonctions, l'approche de Propp interdit intrinsquement toute forme de fonctions de branchement qui pourrait modifier le cours du conte pour fournir des chemins alternatifs. En d'autres termes, nous dirions que les fonctions narratives prviennent toutes les formes de proairesis46, et que les fonctions ont fix des conditions pour leurs applications et produisent toujours des rsultats similaires. condition que le genre narratif en considration soit isomorphe contes populaires, des fonctions narratives de Propp ne peuvent tre adoptes presque comme un prt--formalisme dutilisation, et il y a eu de bons exemples d'une telle utilisation dans les application de storytelling interactif par Grasbon et Braun [Grasbon et Braun, 2001], Machado et al. [Machado et al., 2001] et Federico et Pablo [Federico et Pablo, 2004]. Pourtant, les limites fondamentales, telles que le manque de perspective des personnages, l'absence d'un niveau psychologique de la reprsentation (pour les motions, les sentiments ou l'auto-valuation) le rendrait impropre d'autres formes de storytelling interactif. Greimas : Une perspective linguistique de lanalyse narrative Greimas a apport sa contribution la narratologie comme prolongement de son travail en (langage naturel) smantique. Les deux cls pour accder son travail sont en effet son inquitude quant la smantique et ses positions structuralistes fortes, d'o l'accent mis sur des paradigmes, des oppositions et des rles smantiques. Il a prsent ce qui peut tre dcrit comme le premier rle bas sur l'analyse des rcits. Plus prcisment, il
45 46

Relatif au modle de Propp Proairesis signifie un choix dlibratif

154

Analyses ergonomiques du comportement non verbal a utilis le concept d'actant [Greimas, 1966] pour formaliser les rles des personnages du drame de Propp. Chez Greimas, les fonctions de Propp subissent une rduction draconienne quelque fonction de base abstraite. Lhypothse de Greimas se traduit par le fait quun petit nombre de formules organiss autour dacteurs peut tre responsable de l'organisation de l'univers narratif. Il commence par l'examen des trente-et-une fonctions narratives de Propp du point de vue des personnages en adoptant ses fonctions, pour conclure que les contes du folklore russe sont bass sur un modle de sept actants. Il fait ensuite un premier pas vers la formalisation d'un systme d'oppositions entre les actants du rcit, qui est librement bas sur les rles syntaxiques gnriques tels que sujet vs. objet. Grce la dfinition d'oppositions telles que le Hros vs. le faux Hros et lAuxiliaire vs. lAdversaire ; il propose un modle gnrique des rles merveilleux, comme illustr la Figure 61. Or, l o ce modle acquiert rellement un pouvoir descriptif, cest par la notion d'investissement thmatique, qui pose comme principe que chaque lment de ce modle peut tre instanci par un champ smantique spcifique. Il montre que ce modle peut tre instanci par des domaines smantiques aussi divers que la Philosophie, pour dcrire la qute de la connaissance comme un rcit.

Opposant

Objet

Destinataire

Adjuvant

Sujet

Destinateur

Figure 61 : Modle actant gnrique de Greimas. Les rles de base dcrits ci-dessus sont instancis aux domaines spcifiques du rcit considr.

Greimas identifie plusieurs caractristiques telles que les champs smantiques, dont la pertinence pour le conte ne ncessite aucune justification : l'amour, la politique ou le fanatisme religieux, la cupidit/l'ambition, la jalousie, le patriotisme, la frustration avec la vie ... (avec la possibilit de dcrire les histoires narratives allant de Romo et Juliette Madame Bovary). La contribution de Greimas ne se limite pas aux acteurs. Il a galement revisit les fonctions de Propp partir d'un point de vue paradigmatique, en analysant l'opposition entre les fonctions narratives pour proposer une classification plus systmatique. Un de ses rsultats est le crescendo des oppositions fonctionnelles tout au long de la progression 155

Rsultats de lhistoire [Greimas, 1970]. Cependant, on est loin encore de fournir une formalisation automatique du contenu pour lanalyse de la progression narrative souhaite dans le cadre fixe de la description Proppienne. Comme chez Propp, bien que ce modle soit souvent cit comme rfrence dans diffrents travaux, peu de personnes ont cherch limplmenter pour raliser une analyse dhistoire, lexception de Damiano et al. [Damiano et al., 2005]. Bremond et la rintroduction des personnages Il est pour Claude Bremond question dtablir une thorie ou une grammaire universelle de laction humaine qui dcrit un rcit principalement comme une interrelation de rles au cours de laction. Toutefois son apport thorique se situe plutt au niveau de lanalyse des constituants raconts que dans llaboration dune grammaire capable dassigner un texte. Comme chez Propp et Greimas, cest lintrigue qui est le matriel danalyse. Lors de lanalyse, la structure dun texte singulier est rduite au signifi narratif. Bremond propose donc un modle de narration centr sur la description des rles des personnages [Bremond, 1973]. Un peu comme Greimas, sa thorie commence avec une opposition entre lAgent et le Patient. Un Patient et un personnage qui sera influenc par les actions narratives afin de se produire, alors quun Agent est responsable des changements dans lunivers narratif (qui peut galement affecter dautre s personnages que les Patients et dans ce cas il y des changements psychologiques plutt que des changements physiques dans le monde). Dans sa logique des possibles narratifs, Claude Bremond considre lenclave comme un processus (qui), pour atteindre sont but doit en inclure un autre qui lui sert de moyen, celui-ci pouvant son tour en inclure un troisime, etc. . En parlant lui aussi des fonctions de Propp, il aboutit une structure du rcit, en thorie applicable toutes sortes dnoncs narratifs : 1. La situation initiale : au dbut de lhistoire, on apprend qui est le personnage principal, les circonstances (lieu, poque), la situation des personnages. Il y a une certaine stabilit. Lhistoire est souvent raconte limparfait. 2. Llment perturbateur : quelque chose survient dun seul coup et provoque une rupture de la stabilit. Laction est alors dclenche. Llment perturbateur peut tre larrive dun personnage, une rvlation, une dcouverte, un vnement particulier, etc. Lhistoire est le plus souvent au pass simple.

156

Analyses ergonomiques du comportement non verbal 3. Les pripties : il sagit de toutes les actions qui ont lieu alors : la qute de la belle princesse, la vengeance dun homme, etc. Les personnages tentent de trouver un nouvel quilibre. Lhistoire est au pass simple mais il peut y avoir des descriptions ou des pauses de rflexion (imparfait). 4. La rsolution : la situation trouve un nouvel quilibre grce lintervention de certaines personnes ou parce quelle ne peut plus continuer. 5. La situation finale : lhistoire est termine. Les personnages sont heureux ou malheureux et lauteur nous donne voir le tableau dune nouvelle situation stable, diffrente de la situation initiale (pire ou meilleure). Le modle de Bremond est le modle de storytelling qui a le plus de succs dans la communaut des IHM et a fait lobjet de plusieurs implmentations aussi bien pour la conception que pour lanalyse narrative : [Szilas et al., 2003] [Szilas et Rety, 2004] [Mateas, 2002] [Mateas et Stern, 2005]. 4.4.3.3 Le modle du storytelling De par sa simplicit de description et dinterprtation, nous nous somme s bass sur le modle de Bremond pour raliser le modle de tche dans lexprimentation il tait une fois , c'est--dire le modle du storytelling pour VIRSTORIA. Pour ce faire, lors de lanalyse des corpus de donnes de chaque groupe de joueurs, nou s avons essay de distinguer lensemble des phases narratives de Bremond en nous aidant des diffrents lments narratifs dont nous avions notre disposition, c'est--dire moindre mesure, les rcits verbaux des participants et principalement les cartes quils manipulent et placent sur le fil de lhistoire. Dans ce jeu, les cartes reprsentent des supports la narration dhistoires (Tableau 9). Il en existe deux sortes : 112 cartes conte rparties en 5 catgories (personnages, objets, lieux, aspects et vnements) 56 cartes dnouement qui permettent de finaliser lhistoire coconstruite.

157

Rsultats
Conte Personnage Aspect Intitul Indice Intitul Gant Ge Empoisonn Sorcire Sr Perdue de vue Fe Fe Drob Cuisinier Cu Heureux Bergre Be Secret Vieil Homme Vh Chanceux Vieille Femme Vf Lointain Mendiant Me Laid Voleur Vo Empli de sagesse Oiseau Oi Effray Loup Lo Cach Roi Ro Force de la nature Reine Re Perdu Prince Pr Splendide Princesse Pc Maudit Enfant En Endormi Parents Pa Animal Parlant Frre/Sur Fs Ceci sait voler Martre Ma Dguis Ennemi En Minuscule Orphelin Or Fou Monstre Mo Objet Parlant Cheval Ch Aveugle Grenouille Ge Idiot Mari/Femme Mf Mauvais Dnouement

Lieu Intitul Prison Montagne En Mer Fort le Tour Route Grotte Nuit Chaumire Rivire Ruine Royaume Palais Ville Village Chapelle Cuisine Maison Escaliers

Indice Pr Mo Me Fo Il To Ro Gr Nu Ch Ri Ru Ry Pa Vi Vl Ch Cu Ma Es

Objet Intitul pe Trsor Sort Porte Grimoire Fentre Feu Couronne Bateau Anneau Hache Nourriture Cl Prsent Arbre

Indice Ep Tr So Po Gr Fn Fu Co Ba An Ha No Cl Pe Ar

Indice Em Pv Dr He Se Ca Lt La Em Eff Ca Fc Pd Sp Ma En An Cv Dg Mi Fu Op Av It Ms

vnement Intitul Combat Rvlation Le temps scoule Dcs Rencontre Fuite Quelquun est bless Un objet se casse Un coup de foudre Une poursuite Une sparation Une transformation Un pige Un sauvetage Une dispute Un voyage Plan preuve Rve Orage

Indice Ct Rv Ts Ds Rt Fu Qb Oc Cf Pt Sp Tf Pg St Dp Vy Pl Eu Rv Og

Indices D1 D2 D3

Intitul Mais elle revint les voir de temps en temps Et le roi se rjouit dun prsent si inhabituel Elle le porta toujours pour ne jamais oublier

Tableau 9 : Tableau des cartes conte et dnouement (en partie) et leurs indices

158

Analyses ergonomiques du comportement non verbal Suivant le modle narratif de Bremond, le travail de narration commence gnralement par ltablissement de la situation initiale . Les participants posent les personnages, les lieux, le temps. Cela se traduit concrtement dans une session de jeu par lutilisation des cartes de type personnage ou lieu au dbut du fil de lhistoire (80 % de lensemble des cartes). Par exemple, lorsquun joueur nonce la phrase suivante : Il tait une fois un prince qui vivait dans un royaume merveilleux , il pose sur le fil de lhistoire la carte Prince (personnage) et la carte Royaume (lieu). Dans la phase de perturbation de Bremond qui occupe 38 % du fil de lhistoire, un lment perturbateur vient renverser la situation initiale prcdemment tablie. Cette phase commence gnralement lorsque les joueurs posent sur le fil de lhistoire une carte de type personnage ou vnement et le plus souvent avec une valence ngative (comme les cartes sorcires, combats, dcs, etc.). Lensemble de cette phase contient en majorit des cartes de type vnement et aspect (55 % de lensemble des cartes places dans la phase perturbation) Dans la phase pripties de Bremond que nous avons renomme action et qui occupe 25 % du fil de lhistoire, se joue essentiellement laction de lhistoire, le combat entre le bien et le mal. Les joueurs manipulent essentiellement les cartes de type objet et vnement (70 % de lensemble des cartes places dans la phase pripties). La phase de rsolution reprsente 16 % de lespace du fil de lhistoire. Elle vise rsoudre le problme de faon positive (ou ngative) provoqu dans la phase de perturbation. Les joueurs manipulent essentiellement les cartes de type vnement, aspect et objet (71 % de lensemble des cartes places dans la phase de rsolution). Enfin la situation finale de Bremond correspond dans lexprimentation Il tait une fois la pose de la carte de dnouement la fin du fil de lhistoire. Elle vient conclure lhistoire co-construite par les participants. Le Tableau 10 illustre la rparation des cartes et des types de cartes sur le fil de lhistoire suivant les diffrentes phases du modle narratif de Bremond.

159

Rsultats Situation initiale Rpartition des cartes (%) Nombre de cartes (pour 3 joueurs) Lieu Objet Type de Carte Personnage Aspect vnement Dnouement 19 % 34 35 % 8% 45 % 10 % 2% 0 Perturbation 38 % 89 14 % 16 % 15 % 23 % 32 % 0 Action 25 % 45 7% 35 % 8% 15 % 35 % 0 Rsolution 16 % 23 15 % 19 % 14 % 22 % 30 % 0 Situation finale 2% 1 0 0 0 0 0 100 %

Tableau 10 : Tableau de rpartition des cartes selon le modle narratif de Bremond

Cette analyse de la rpartition des types de carte en fonction des phases narratives de Bremond nous permettra didentifier dans VIRSTORIA le contexte de lhistoire dans lequel se situent les participants une session de jeu. Nous avons ensuite, pour chaque phase du modle narratif de Bremond, analyse dans les corpus de donnes de lexprimentation les proportions de gestes DAMP raliss par les participants (Figure 62). On observe que les dictiques sont essentiellement raliss lors de la phase de perturbation (63,6 % de lensemble des gestes dictiques), et moindre mesure dans les phases initiale et daction (environ 20 % de lensemble des gestes dictiques). Par contre les joueurs ne les excutent pas en phase de rsolution comme la plupart des autres gestes DAMP. Les adaptateurs sont, pour leur part, rpartis de faon homogne dans toutes les phases de lhistoire (entre 15 % et 30 % de lensemble des gestes adaptateurs) et sont les seuls prsents dans la phase finale (5 % de lensemble des gestes adaptateurs). Les mtaphoriques sont essentiellement prsent dans les deux premires phases de lhistoire, la phase initiale (38 % de lensemble des gestes mtaphoriques) et la phase perturbation (43 % de lensemble des gestes mtaphoriques).

160

Analyses ergonomiques du comportement non verbal Enfin, les ponctuateurs sont principalement raliss dans la phase daction (60 % de lensemble des ponctuateurs) et moindre mesure dans la phase de situation initiale (30 % de lensemble des ponctuateurs). En phase de perturbation, ils ne reprsentent que 9 % des gestes de lensemble des ponctuateurs et sont absents dans la phase de rsolution et la phase finale.

161

Rsultats

Figure 62 : Proportion de gestes DAMP dans chaque tape du modle de narration de Bremond et illustration par un exemple d'une ligne de l'histoire ralis par un groupe de joueurs

162

Analyses ergonomiques du comportement non verbal

4.5 Conclusion
Dans ce chapitre, nous avons dfini un modle du comportement non verbal des participants lexprimentation Il tait une fois dans le but dune implmentation computationnelle pour les avatars de VIRSTORIA. Ce modle est compos de trois sousmodles qui traitent de la collaboration, de lutilisateur et de la tche. Nous nous sommes ensuite attachs discuter des rsultats qui ont merg de lanalyse des donnes numriques de lexprimentation. Cette discussion nous a permis de gnraliser et dexploiter des rsultats marquants. Nous retiendrons tout dabord, la grande htrognit des rsultats. Les gestes adaptateurs reprsentent la majorit des gestes DAMP excuts lors dune session de jeu et ils sont rpartis de faon homogne dans toutes les phases narratives de Bremond. Viennent ensuite les ponctuateurs qui se caractrisent par le fait quils sont essentiellement excuts dans la phase daction du modle narratif de Bremond et dont la frquence est plus grande chez la femme. Les dictiques pour leur part reprsentent environ 6 % des gestes DAMP et sont essentiellement gnrs dans la phase dvaluation de lhistoire (39,9 % des gestes DAMP). Enfin les mtaphoriques sont trs faiblement reprsents et sont raliss au dbut de la narration (phase de situation initiale et de perturbation). Nous avons galement constat que les sujets qui ne se connaissaient pas avant lexprimentation avaient tendance raliser de gestes de communication plutt que dagir sur les cartes en les manipulant. Certaines de nos recommandations pour limplmentation du module

comportemental sont synthtises dans le Tableau 11. Ces rsultats ne permettent pas didentifier des traits saillants du comportement non verbal. Un problme rencontr lors de la modlisation est la grande difficult que nous avons eue infrer les gestes DAMP sur des caractristiques du systme et de lutilisateur. Les gestes DAMP, sont souvent spculatifs et incertains [Ekman et Friesen, 1969]. Il faudra en tenir compte dans la conception du module comportemental BAYBE. Dans cette optique, nous prsentons une approche computationnelle du modle du comportement non verbal des avatars dans VIRTSTORIA, base sur le principe de lincompltude et de lincertitude. Le chapitre suivant expose notre vision du module comportemental BAYBE.

163

Conclusion Modalit concerne Traitement du langage Recommandations Ncessite une reconnaissance en temps rel des cartes contes prononcs par les utilisateurs. - Phase de prparation : commence avec le jeu et se termine lorsque la premire carte est pose sur le fil de lhistoire Phases dactivits - Phase de narration : commence avec la fin de la phase de prparation et se termine lorsque toute les cartes sont poses sur le fil de lhistoire. - Phase dvaluation : commence lorsque toute les cartes sont poses sur le fil de lhistoire et se termine avec le jeu. - Situation initiale : 19 % doccupation du fil de lhistoire et utilisation des cartes de type lieu et personnage (80 % des cartes conte ). - Perturbation : 38 % doccupation du fil de lhistoire et utilisation des cartes de type vnement , personnage Phases de narration de Bremond et objet (70 % des cartes conte ). - Action : 25 % doccupation du fil de lhistoire et utilisation de cartes de type vnement et objet (70 % des cartes conte ). - Rsolution : 16 % doccupation du fil de lhistoire et utilisation des cartes de type vnement , aspect et objet (71 % des cartes conte ). - Situation finale : 2 % doccupation du fil de lhistoire et utilisation uniquement des cartes de dnouement . - Reprsentent 5,7 % des gestes DAMP. - Le temps moyen dexcution dun dictique est de 2,6 secondes. Dictiques - Ils sont excuts 4 fois en moyenne par session de jeu. - Ils sont essentiellement prsent dans la phase de perturbation de Bremond (63,6 % de lensemble des dictiques) - Ils sont essentiellement lis la parole. - Ncessitent de connatre la position de lobjet (carte sur le fil de lhistoire).

164

Analyses ergonomiques du comportement non verbal - Ils reprsentent 86,4 % des gestes DAMP. - Le temps moyen dexcution dun adaptateur est de 52 secondes. Adaptateurs - Ils sont excuts plus de 14 fois en moyenne par session de jeu. - Ils sont rpartis de faon homogne dans toutes les phases narratives de Bremond. - Ils sont lis et non lis la parole. - Ncessitent de connaitre ltat du joueur pour les distinguer le type dadaptateurs. - Reprsentent 1,4 % des gestes DAMP. - Ils sont excuts 9 fois en moyenne par session de jeu. Mtaphoriques - Ils sont essentiellement prsent dans la phase initiale et de perturbation (81 % de lensemble des mtaphoriques). - Ils sont essentiellement lis la parole. - Ncessitent un traitement smantique de la parole pour distinguer le type de mtaphoriques. - Reprsentent 5,1 % des gestes DAMP. - Ils sont excuts 6,5 fois en moyenne par session de jeu. Ponctuateurs - Ils sont essentiellement prsent dans la phase daction (60 % de lensemble des ponctuateurs). - Les femmes en produisent plus. - Ceux qui font beaucoup de ponctuateurs font galement beaucoup de mtaphoriques - Ils sont essentiellement lis la parole. - Reprsentent 26 70 % des gestes DAMPH. Manipulations - Modalit plutt masculine. - Modalit utilis entre les personnes qui se connaissent.
Tableau 11 : Recommandations pour le module comportemental BAYBE

165

Chapitre 5 BAYBE : le module comportemental

167

The actual science of logic is conversant at present only with things either certain, impossible, or entirely doubtful, none of which (fortunately) we have to reason on. Therefore the true logic for this world is the calculus of Probabilities, which takes account of the magnitudes of Probability which is, or ought to be, in a reasonable mans mind. (James Clerk Maxwell, 1850)

Dans ce chapitre, nous allons exposer notre vision concernant la conception du module comportemental BAYBE pour les avatars de VIRSTORIA. Pour cela, nous prsenterons dans un premier temps le problme de l incompltude du monde . Ceci nous amne dfinir une autre approche concernant lanimation comportementale des avatars. Cette approche est diffrente de celle expose dans ltat de lart (Section 2.1.2.6) : lapproche nactive de l animation comportementale des avatars. Nous dtaillerons ensuite les tapes du raisonnement dcisionnel de BAYBE pour choisir le geste DAMP synthtiser par les avatars des EVC.

5.1 Incompltude du monde


Lune des fonctions principales (et ncessaires) dun tre autonome - vivant ou artificiel - est la perception de son environnement. Destine fournir toutes les

169

Infrence probabiliste informations utiles lexcution des diffrentes tches ncessaires la survie ou la rsolution de problmes, cette perception peut avoir lieu travers diffrents sens : la vue (yeux - camra), loue (oreilles - micro), le toucher (peau - capteur de force) ou encore lodorat, le sonar, les capteurs de champ lectrique ou magntique chez certains animaux, les priphriques informatiques pour les avatars. Chacun de ces capteurs ne peut fournir quune description incomplte de lenvironnement. Cet aspect intervient dans la reprsentation du monde et est abord dans la thse dOlivier Lebeltel [Lebeltel, 1999], dans laquelle est traite la question de savoir jusqu quel point agir et percevoir suppose de comprendre ou plus simplement de se reprsenter le monde. Ce problme, li limpossibilit dacqurir une information complte et parfaite sur lenvironnement, impose donc une contrainte forte sur le choix des stratgies dinfrences pour des avatars autonomes fonctionnant d ans un environnement complexe (htrogne, ouvert et dynamique) en interactions permanentes avec des tres humains [Langhlin, 2005].

5.2 Infrence probabiliste


Le principal reproche que lon peut faire lencontre des modles comportementaux connexionnistes vient de leur manque de capacit de raisonnement de haut niveau. Une forte motivation lapplication de cette approche tait lopportunit de construire de manire incrmentale des avatars comportementaux et de les faire voluer de faon ce quils aient des comportements de plus en plus complexes. Ce dveloppement incrmental des avatars savre extrmement difficile raliser. La difficult centrale rside dans le fait de crer de nouveaux capteurs spcifiques un certain comportement dsir et dinsrer les nouveaux comportements dans linteraction de ceux dj implants. Les approches purement symboliques ou purement constructivistes reprsentent pour leur part deux extrmes que de nombreux travaux ont tents de combiner. Lobjectif de leur dmarche est de conserver les capacits de raisonnement de haut niveau des approches symboliques, tout en assurant la robustesse des approches constructivistes. Par contre, leurs problmes rsident dans la ncessit dune forte description du comportement des entits virtuelles. Le principe de la mthode que nous proposons dans cette thse se fonde sur la distinction fondamentale entre le registre cognitif de lobservateur/concepteur humain dune part et celui de lavatar dautre part. Le registre cognitif humain inclut la modlisation 170

BAYBE : le module comportemental formelle ainsi que la capacit dinterprter les modles, c'est--dire de relativiser leurs utilisations. Du point de vue de lavatar, dans un environnement peu contrl, les variables sensorielles restent les sources dinformation fiables. Nous cherchons donc exprimer un modle dans les termes de lavatar (in fine en termes sensoriel et moteurs). Pour cela, nous nous rfrons un principe simple et intuitif : toute dpendance effective observe entre les valeurs dlivres et des variables sensorielles de lavatar physiquement et causalement indpendantes est relative au contexte. ce titre et au vu des modles comportementaux prsents dans le Chapitre 2 de ce mmoire, notre approche peut sembler proche du constructivisme. Toutefois, nous ne refusons pas lutilisation de reprsentations internes, de modles. En effet une description est une forme de reprsentation de linteraction de lavatar avec son environnement, pouvant tre plus ou moins abstraite. Afin que lavatar soit en mesure dobserver des dpendances et de les traduire en une structure abstraite, il est ncessaire de lui fournir un ensemble dinformations : les connaissances pralables. Ces connaissances peuvent se traduire sous forme de modles abstraits, complexes, ncessaires la mise en vidence de relations pertinentes. Aussi riche que soient les connaissances, elles sont invitablement incompltes. Il faut accepter cette incompltude et chercher un mode de reprsentation adapt cet tat de fait : les probabilits.

5.3 Lapproche nactive de BAYBE


Ce que nous proposons dans cette thse, est une approche intermdiaire entre les approches prcdemment voques, fondes sur le paradigme baysien. Notre spcificit est de se focaliser sur la notion de reprsentation interne et sur son statut invitablement incomplet. Ainsi nous ne rejetons pas la notion de reprsentation, mais nous en modifions la nature et lutilisation. Lide de bases et de confronter les connaissances pralables du programmeur des donnes exprimentales pour construire des lments de programmation que nous avons appels descriptions. Notre mthode permet dobtenir des reprsentations qui traduisent notre connaissance mais aussi notre ignorance des phnomnes dinteraction entre lavatar et son environnement. Lapproche enactive de la cognition ou naction inspire donc nos travaux avec la notion daction guide par la perception . Cette notion provient la base du neurobiologiste Francisco Varela [Varela et al., 1993], qui sest intress une alternative computationnelle des approches connexionniste et symbolique pour comprendre la cognition. La tentative de Varela pour introduire des concepts de biologie en sciences

171

Fondements thoriques cognitives et ses recherches en neurosciences aboutissent au concept de cognition incarne ( embodied cognition ). La cognition empirique est dfinie [Casati et Pasquinelli, 2007] comme une information obtenue travers des interactions o lon considre le couplage perception action. La thorie de la perception enactive [Gibson, 1966] met en vidence lintrt sur un niveau de dtail efficace de linteraction, plus conomique en temps de calcul car centr sur le ncessaire et non sur la copie de la ralit. Cette interaction est en permanence adapte laction. La mise en uvre du principe dnaction travers BABYE fait appel au paradigme fort qui est celui du couplage structurel entre lavatar et son environnement : dans la boucle Humain-Machine, on peut en effet modliser la Machine, mais aussi linteraction entre lHomme et la Machine. Ce couplage existe lorsquune auto-adaptation des boucles sensorimotrices au fil de lexprience est possible [De Loor et al., 2008b].

5.4 Fondements thoriques


Le point de dpart de notre fondement thorique (Figure 63) est la reconnaissance de lincompltude comme la difficult fondamentale laquelle nous sommes confronts, comme la plupart des systmes sensori-moteurs. La premire tape (12) consiste donc transformer cette incompltude en incertitude. Par lapprentissage partir des connaissances pralables et des donnes exprimentales, des distributions de probabilit sont construites. Lapprentissage par Esprance-Maximisation est le fondement thorique de cette premire tape. tant donn un ensemble de connaissances pralables et un jeu de donnes exprimentales traits ou non, dduites de lexprimentation Il tait une fois , la distribution de probabilit qui reprsente le mieux ce couplage et celle qui maximise la vraisemblance (Section 5.6.1.3). La deuxime tape (23) consiste tenir des raisonnements avec les distributions de probabilit obtenues par la premire tape, pour raliser un diagnostic sur lensemble des gestes de communication non verbaux DAMP (Section 5.6). Il faut tre capable de raisonner avec lincertitude. Linfrence baysienne et ses deux rgles de base permettent ces calculs. Ces rgles jouent pour le raisonnement baysien, le rle que joue le principe de rsolution pour le raisonnement logique.

172

BAYBE : le module comportemental La dernire tape (34) consiste prendre une dcision sur le geste raliser par les avatars. La stratgie adopte dans cette thse consiste tirer au sort ces gestes suivant la distribution obtenue dans ltape prcdente de diagnostic (Section 5.7). Les fondements thoriques ncessaires se rsument donc au principe de maximisation de vraisemblance pour guider lapprentissage entre les connaissances pralables et les donnes exprimentales souvent incompltes, la technique des rseaux baysiens pour raliser un diagnostic permanent sur ltat des gestes DAMPH et enfin, un tirage au sort pondr suivant les distributions dduites du rseau baysien pour dcider du geste excuter par lavatar. Cette simplicit de fondement nous semble tre une trs grande force de lapproche propose.

173

Fondements thoriques

m co In t pl e ud

1
ce In rt de itu D os gn ia tic D c n io is
Apprentissage
Connaissances Pralables () + Donnes exprimentales ()
=

Reprsentations probabilistes

2
Infrence
Rseau baysien dynamique

BAYBE

3
D.A.M.P.H.?
Tirage (P(Search|Know.. ))

Dictique (D) Adaptateur (A) Mtaphorique (M) Ponctuateur (P) Manipulation (H)

Figure 63 : Fondement thorique de BAYBE de lincompltude la dcision

174

BAYBE : le module comportemental

5.5 Les rseaux baysiens


Dans ce mmoire, le but nest pas daborder en dtails les algorithmes dinfrence et dapprentissage des rseaux baysiens, mais de prsenter ce que reprsentent les rseaux baysiens, afin de mieux comprendre quelques-uns de leurs avantages et leur utilit ainsi que ce qui nous a pouss les utiliser dans le cadre de la conception du module comportemental BAYBE. Le lecteur intress par plus de dtails pourra se rfrer la bibliographie suivante : [Pearl, 1988] [Jensen, 1997] [Nam et al., 2007]. Les rseaux baysiens sont issus de travaux dont lobjectif initial tait dintgrer la notion dincertitude dans les systmes experts [Pearl, 1988]. En effet la construction dun tel systme ncessite presque toujours la prise en compte de lincertitude dans le raisonnement. Un tre humain est effectivement capable de porter un jugement sur des situations complexes, mme en labsence de toute information ou donnes ncessaires. Deux situations peuvent tre dcrites : Dans un premier cas, on dispose dune connaissance prsentant une certaine incertitude. On va la formuler sous forme de descriptions causales : A a une influence sur B ; en gnral, si B est observ alors C a de fortes chances de se produire, etc. Les rseaux baysiens vont constituer une mthode pour intgrer lincertitude dans le raisonnement. Dautres mthodes existent mais les rseaux baysiens ont lavantage dtre une approche quantitative pouvant exploiter les rsultats des analyses de nos corpus de donnes audio/vido raliss au Chapitre 4. Dans le second cas, on dispose dun ensemble de donnes qui contient lui aussi de la connaissance mais noye dans les chiffres. Cette connaissance est donc difficilement accessible, et il va falloir la transformer en modle de causalit, et les rseaux baysiens vont permettre dextraire de ces donnes une reprsentation compacte, sans perte dinformation, partir de laquelle il va tre facile de raisonner. Ces deux problmatiques sont clairement lies par la connaissance, et c est grce la notion de probabilit que les rseaux baysiens vont permettre de rsoudre ces deux problmes : transformer en chiffre une connaissance subjective, et transformer en modle interprtable une connaissance contenue dans ces chiffres. Ainsi, dans le premier cas, un expert est amen formaliser ses connaissances sous forme de modle graphique (Section 5.6.1.2), et transformer cette description en lois de 175

Les rseaux baysiens probabilit qui permettront leur tour de faire des calculs et donc dinfrer en tenant compte des incertitudes (Section 5.6.1.3). Dans le second cas on va, partir des donnes, mettre en vidence des relations (indpendance, causalit) entre les diffrentes variables observes, relations qui seront mises sous forme de graphes de causalit et pouvant tre lus et interprts beaucoup plus facilement. Ces oprations sont possibles grce deux hypothses ainsi qua un rsultat qui ne sera pas dmontr ici : Hypothse 1 : Les probabilits subjectives donnes par lexpert et en partie dduites des analyses statistiques (Chapitre 4) sont assimilables des probabilits mathmatiques. Hypothse 2 : Les frquences observes (via les tableaux de mesures dduits de lanalyse de corpus vido par exemple) sont assimilables des probabilits mathmatiques. Rsultat : Le graphe de causalit est une reprsentation fidle dune loi de probabilit sous-jacente : on peut raisonner sur le graphe sans revenir sur les chiffres. Exemple de rseau baysien Par exemple, le rseau baysien de la Figure 64 dcrit si un pommier est malade et/ou lautomne est arriv, alors le pommier perd ses feuilles . Dans ce rseau, les arcs sont orients des causes (arbre malade ou saison dautomne) vers la consquence (larbre perd ses feuilles). Chaque nud reprsente une variable, et il possde un ensemble dtat s qui sont, pour cet exemple, Oui ou Non . Ainsi, chaque tat est associ une probabilit ou une probabilit conditionnelle dans le cas o le nud a des parents. Dans la Figure 64, nous voyons les trois tableaux de probabilits correspondant chaque nud.

176

BAYBE : le module comportemental


Oui Non Oui Non -

Malade

Automne

Perte
- Oui - Non

Figure 64 : Exemple dun rseau baysien qui prsente la probabilit dun pommier de perdre ses feuilles selon quil soit malade et/ou que lon soit en automne.

En bas de la Figure 64 le tableau de probabilits conditionnelles du nud Perte dfinit les probabilits conditionnelles que le pommier perde ses feuilles sachant les tats des nuds Automne et Malade formule en automne est de 85 %. Quelques notions de probabilits sont prsentes en Annexe C. . Par exemple la signifie que la

probabilit de perdre les feuilles du pommier sil nest pas malade et que nous sommes

5.6 Le processus de diagnostic de BAYBE


5.6.1 Reprsentation des connaissances Comme nous lavons spcifi prcdemment, nous avons choisi dutiliser les rseaux baysiens pour reprsenter la connaissance du comportement non verbal humain de notre module comportemental BAYBE. Dans cette section, nous exposons nos hypothses concernant la faon de reprsenter des connaissances formalises sous forme de rseau baysien. La mise en uvre du rseau baysien se droule en trois tapes : 1. identification des variables pertinentes caractrisant le systme et dfinition de lespace dtats associ chaque variable ; 2. construction de la structure du rseau baysien ;

177

Le processus de diagnostic de BAYBE 3. dfinition des lois de probabilit conjointe. Selon cette dmarche, nous prsentons maintenant nos hypothses concernant la conception du rseau baysien du module comportemental BAYBE. 5.6.1.1 Identification des variables pertinentes et de leurs espaces dtats Lanalyse exprimentale ralise au Chapitre 4 a permis de dgager un ensemble de variables humain (sexe des joueurs, connaissance ou pas des autres joueurs, etc.) et environnemental (phase dactivit, phase de narration, type de cartes, etc.) pertinent es, intervenant dans la modlisation du comportement non verbal de lutilisateur. Dans la mesure o elles sont informatiquement47 interprtables et en dfinissant lensemble des rsultats danalyse expos au Chapitre 4, nous identifions trois types dlments de connaissance : lments de type Situation (S) : reprsentent les variables caractristiques de lutilisateur et du systme. Elles permettent de fournir de linformation notre rseau baysien. Par les valeurs que prennent ces variables, le module comportemental BAYBE est capable de caractriser son tat, c'est-dire distinguer les situations dans lesquelles il se trouve. Lensemble de ces variables est synthtis dans le Tableau 12 ; lments de type Oprateur (R) : reprsentent les lments contextuels de lutilisateur et du systme, dduits des lments de situation. Ce sont des variables qui reprsentent les ressources internes du module comportemental BAYBE. Ces variables nauront un sens que mises en relation avec les variables de situation et de contrle. Lensemble de ces variables est synthtis dans le Tableau 13 ; lments de type Contrle ( ) : reprsentent les lments de diagnostic du systme BAYBE, c'est--dire la variable qui annonce la rpartition probabiliste du Comportement Non Verbal (CNV) des avatars. Chaque contrle peut tre associ plusieurs variables de situation et doprateur. La variable CNV est synthtise dans le Tableau 14. Nous considrons chaque lment de ces trois types comme une variable dans le rseau de rfrence. Les nuds du rseau de rfrence sont donc tous les , R et S.

47

Dans le sens o un ordinateur peut traiter ces variables.

178

BAYBE : le module comportemental

lments

Variables
Sexe (Sx) Connaissance (Kn) Parole (Pa) Mot Reconnu (Mr) Actions (Ac) [Voir Section 6.1.1]

Espaces dtats
Masculin Fminin Oui Non Active Inactive Oui Non FILEMAIN MAINFILE MAINCOFFRE COFFREMAIN MAIN Lieu Objet Personnage Aspect vnement Dnouement 0_a_2 2_a_12 >12 019 % 19 %57 % 57 %82 % 82 %98 % 98 %100 % Dictique Adaptateur Mtaphorique Ponctuateur Manipulation Signe_de_vie

Descriptions
Lutilisateur de VIRSTORIA choisit un avatar masculin Lutilisateur de VIRSTORIA choisit un avatar fminin Lutilisateur connait son partenaire de jeu Lutilisateur ne connait pas son partenaire de jeu Lutilisateur parle (Locuteur) Lutilisateur ne parle pas (Auditeur) Un mot correspondant lintitul des cartes conte (Tableau 9) prononcs par lutilisateur a t reconnu par le module de reconnaissance de parole [Section 6.2.3] Aucun mot prononc par lutilisateur na t reconnu par le module de reconnaissance de parole Lutilisateur dplace un cube de la FILE (fil de lhistoire) la MAIN (manipulation cube) Lutilisateur dplace un cube de la MAIN la FILE Lutilisateur dplace un cube de la MAIN son COFFRE (son espace priv) Lutilisateur dplace un cube de son COFFRE la MAIN Lutilisateur fait tourner les faces du cube (dans la zone MAIN) Face du cube de type Lieu manipule Face du cube de type Objet manipule Face du cube de type Personnage manipule Face du cube de type Aspect manipule Face du cube de type vnement manipule Face du cube de type Dnouement manipule Les 2 premires minutes de la session de jeu Les 2 12 premires minutes de la session de jeu La session de jeu a dpass 12 minutes Les cubes occupent 19 % du fil de lhistoire Les cubes occupent jusqu' 57 % du fil de lhistoire Les cubes occupent jusqu' 82 % du fil de lhistoire Les cubes occupent jusqu' 98 % du fil de lhistoire Tous les cubes ont t placs sur le fil de lhistoire (cubes conte + cube de dnouement ) Gestes Dictiques excuts par les avatars des utilisateurs distants Gestes Adaptateurs excuts par les avatars des utilisateurs distants Gestes Mtaphoriques excuts par les avatars des utilisateurs distants Gestes Ponctuateurs excuts par les avatars des utilisateurs distants Gestes de Manipulation excuts par les avatars des utilisateurs distants Gestes de Signe de vie excuts par les avatars des utilisateurs distants [Voir Section 6.2.2]
Tableau 12 : Variables Situation

Situation (S)

Cartes (Cd) [Voir Section 4.4.3.3]

Temps (Tp) Fil de lhistoire (Fh) [Voir Section 4.4.3.3]

CNV distant (CNVd)

179

Le processus de diagnostic de BAYBE

lments

Variables
Profil Joueur (PJ)

Espaces dtats
Femme_Connue Femme_Inconnue Homme_Connu Homme_Inconnu Locuteur_Actif Locuteur_Inactif Auditeur_Actif Auditeur_Inactif Initiale Perturbation Action Rsolution Finale

Descriptions
Lavatar fminin reprsente un joueur connu de lutilisateur Lavatar fminin reprsente un joueur inconnu de lutilisateur Lavatar masculin reprsente un joueur connu de lutilisateur Lavatar masculin reprsente un joueur inconnu de lutilisateur Le joueur raconte un bout dhistoire et place un cube sur le fil de lhistoire Le joueur raconte un bout dhistoire sans placer un cube sur le fil de lhistoire (car pas daction mais le mot est reconnu) Le joueur coute et manipule un cube (dans la zone MAIN) Le joueur coute et ne manipule pas linterface Lhistoire co-construite est dans la situation Initiale selon le modle narratif de Bremond Lhistoire co-construite est dans la situation Perturbation selon le modle narratif de Bremond Lhistoire co-construite est dans la situation Action selon le modle narratif de Bremond Lhistoire co-construite est dans la situation Rsolution selon le modle narratif de Bremond Lhistoire co-construite est dans la situation Finale selon le modle narratif de Bremond
Tableau 13 : Variables Oprateur

Oprateur (R)

tat du joueur (EJ)

tat de lhistoire (EH)

lments Contrle ( )

Variables
Comportement Non Verbal (CNV)

Espaces dtats
Dictique Adaptateur Mtaphorique Ponctuateur Manipulation

Descriptions
Il est probable que le joueur (avatar) gnre un geste dictique Il est probable que le joueur (avatar) gnre un geste adaptateur Il est probable que le joueur (avatar) gnre un geste mtaphorique Il est probable que le joueur (avatar) gnre un geste ponctuateur Il est probable que le joueur (avatar) manipule une carte
Tableau 14 : Variable Contrle

180

BAYBE : le module comportemental 5.6.1.2 Dfinition de la structure du rseau baysien Comme nous lavons indiqu dans le paragraphe prcdent, les lments de connaissance sont classifis en trois types S, R et . Nous dcrivons une structure gnrale du rseau baysien en dfinissant les relations de dpendance entre les nuds de diffrents types ; entre S et R, R et et S et . Cette structure permet ensuite la construction du rseau avec les lments de connaissance de chaque type. Nous identifions deux relations de dpendance entre S, R et :

pour reprsenter un contexte (utilisateur et de lhistoire) il faut appliquer des variables de situation correspondantes ;

pour diagnostiquer un comportement non verbal de manire valide, il faut utiliser un ensemble de variables de situation S par rapport au contexte du problme donn R.

La Figure 65 montre gauche, la structure gnrale du rseau de rfrence de BAYBE. La premire relation de dpendance est reprsente par larc orient des variables de situation vers les variables oprateur (S vers R), et la deuxime relation par deux arcs orients des variables oprateurs vers les variables de contrles (R vers ) et des variables de situation vers les variables de contrle (S vers ).
Ac Mr Cd Tp Fh EH
R

Pa

Kn

EJ

Ej

Sx

PJ

CNVd (i)

CNV

Figure 65 : gauche une structure gnrale du rseau de rfrence ; droite le rseau baysien du module comportemental BAYBE pour les avatars dans VIRSTORIA

5.6.1.3 Dfinition des tables de probabilits conditionnelles Nous venons de dcrire les connaissances permettant de spcifier les variables manipules et la dfinition structurelle du rseau baysien permettant la dcomposition de 181

Le processus de diagnostic de BAYBE la distribution conjointe en un produit de distributions lmentaires. Afin de rendre effective notre description, il reste prciser les valeurs associes chacune dentre elles. Cest le rle des connaissances pralables dobservation. Cette tape est la plus dlicate dans la construction dun rseau baysien. Il sagit de remplir les tableaux de probabilit s partir de connaissances pralables dobservations et des donnes exprimentales dduites de lexprimentation Il tait une fois . Pour ce travail, nous allons nous limiter des variables alatoires discrtes. Les distributions conditionnelles seront alors reprsentes par des matrices telles que la somme des lments de chaque colonne soit gale 1, matrice que nous appelons table de probabilits conditionnelles. La Figure 66-gauche montre la table de probabilits conditionnelles correspondant la variable de situation Sexe et la Figure 66-droite montre la table de probabilits conditionnelles correspondant la variable de contrle CNV . Chaque table de probabilits conditionnelles correspondant un nud du rseau baysien est dcrite de la manire suivante :

Soit

les variables alatoires gnriques et noms de nuds du rseau

baysien (S, R et ) Soit Soit lensemble des connaissances pralables lensemble des donnes exprimentales dduites de mtriques

issues dANVIL (Section 4.3.1.5)

Figure 66 : Exemple de tableaux de probabilits pour le nud Sexe : CNV : ( droite)

( gauche) et le nud

182

BAYBE : le module comportemental

Estimation des paramtres partir dune base dexemples incomplte Dans le dbut de notre recherche, nous navions pas un nombre considrable dexemples de donnes, cest la raison pour laquelle les probabilits ont t dans un premier temps remplies de manire empirique. Actuellement un grand nombre de donnes plus ou moins compltes a t extrait de lexprimentation Il tait une fois . Nous avons utilis une mthode dapprentissage automatique des paramtres pour remplir certaines tables de probabilits conditionnelles : de lhistoire ; des joueurs ; Table de probabilits conditionnelles concernant le profil des joueurs ; Table de probabilits conditionnelles concernant le comportement non verbal. Lestimation des paramtres partir de plusieurs bases dexemples incompltes fait lobjet de nombreuses mthodes. Nous avons utilis pour notre part, la mthode de Maximum de Vraisemblance et la section suivante prsente le dtail de cette mthode (Figure 67).
? X2,1 X1,2 X2,2 X1,1 X1,3 X2,3 ? X1,4 X X X1,3 1,1 2,4 X1,5 ? X2,5 X1,4 X X1,5 1,3 X1,4 ? X3,1 X3,2 X2,1 X3,3 X2,2 X X X2,3 2,1 3,4 X X X2,4 2,2 3,5 X X2,5 2,3 ? X2,5 X4,1 X4,2 X3,1 X4,3 X3,2 X X X3,3 3,1 4,4 X X X3,4 3,2 4,5 X X3,5 3,3 X3,4 X3,5

Table de probabilits conditionnelles concernant ltat

Table de probabilits conditionnelles concernant ltat

Base de donnes partielles

Algorithme itratif EM

X4,1 X4,2 X X4,3 4,1 X X4,4 4,2 X X4,5 4,3 X4,4 X4,5

XML (ANVIL)

Tables de probabilits conditionnelles

Figure 67 : Principe de l'estimation des paramtres partir d'une base de donnes incomplte

Maximum de vraisemblance (algorithme EM) Il sagit ici de remplacer les donnes manquantes par les valeurs qui ralisent le maximum de vraisemblance. Pour ce faire, il est possible dutiliser un algorithme de type EM (Expectation Maximisation) introduit par Dempster, Laird et Rubin [Dempster et al., 1977] et revue par Neal et Hinton [Neal et Hilton, 1998] pour une description claire dans le

183

Le processus de diagnostic de BAYBE cadre des rseaux baysiens. Cette mthode est assez gourmande en temps de calcul, mais reste efficace compare dautres mthodes. Nous allons prsent, prsenter une adaptation de lalgorithme EM pour lapprentissage des paramtres dun rseau baysien : 1. Tirage des probabilits au hasard (mais toutes non nulles) pour les paramtres manquants

2. Rpter a. Expectation : Utilisation des paramtres courants lesprance dapparition des diffrentes configurations. pour estimer

b. Maximisation : Estimation des nouveaux paramtres par maximum de vraisemblance (ou maximum postriori) en utilisant des statistiques essentielles obtenues ltape prcdente.

c. Convergence : Aprs quelques itrations de lalgorithme EM, les valeurs de paramtres convergent jusqu'

Soit

le nombre dexemples o le vecteur alatoire

prend la j-ime valeur

tandis que la variable Soit

prend la k-ime valeur de la base dannotation ANVIL.

lensemble des variables observes dans la base dannotation ANVIL

(Section 4.3.1.6). Le principe de la mthode rside en deux tapes, dcrites brivement dans lalgorithme prcdent. Pour une description plus complte de la mthode EM, de ses variantes, et une preuve de convergence de celle-ci, se reporter la bibliographie suivante : [Neal et Hilton, 1998] [Nam et al., 2007].

184

BAYBE : le module comportemental Remarquons que cet algorithme fournit, aprs convergence, une valeur des paramtres et non une distribution pour ces paramtres. Une description complte de lalgorithme EM est prsente en Annexe D. 5.6.2 La dimension temporelle Lors du visionnage des vidos de lexprimentation il tait une fois , nous avions identifi trois phases dans une session de jeu, se diffrenciant les unes des autres par lactivit des triades : une phase de prparation ; une phase de narration ; une phase dvaluation.

Dans chacune de ces phases, la proportion des gestes DAMP nest pas la mme et par consquence, les connaissances pralables dobservation et les donnes exprimentales du rseau baysien doivent varier en fonction des diffrentes phases. Le rseau doit donc prendre en compte cette dimension temporelle en calculant de manire dynamique ltat des connaissances du rseau baysien. Le modle diagnostic doit prendre en compte la dimension temporelle en calculant de manire dynamique ltat de la connaissance au fur et mesure la progression des actions de lutilisateur. Cette dimension temporelle est reprsente dans un rseau baysien dynamique (RBD) [Nam et al., 2007]. La Figure 68 montre la structure gnrale du rseau de diagnostic avec la dimension temporelle. Dans ce rseau, il y a deux dimensions de contrle : le pass contrle pour diagnostiqu de ce contrle prochaine action. et le prsent . Le calcul de ltat prsent dun se base sur les traces de laction actuelle S_1 ainsi que sur lancien tat . chaques nouvelles actions, les probabilits rsultantes pour la sont intgres dans le rseau afin de reprsenter ltat du pass

185

Le processus de diagnostic de BAYBE

S_0

S_1

R_0

R_1

_0

_1

Figure 68 : La structure gnrale du rseau baysien du diagnostic

chaques nouvelles actions, linfrence est alors applique et le rseau est mis jour pour les actions suivantes. Les probabilits posteriori de contrle deviennent des probabilits priori pour la nouvelle phase du rseau baysien. 5.6.3 Les rsultats du diagnostic Le diagnostic de BAYBE prcdemment dfini permet didentifier avec un degr dincertitude le comportement non verbal gestuel de lutilisateur, et par consquent des avatars dans VIRSTORIA, lors de la conception dune histoire collaborative. Les rsultats du diagnostic sont donc sous forme dune distribution probabiliste avec cinq tats possibles : D Dictique : indique quil aurait t probable que le joueur ralise un geste dictique dans une session de jeu Il tait une fois , et donc quil est probable que son avatar le reprsentant dans VIRSTORIA gnre un geste dictique. A Adaptateur : indique quil aurait t probable que le joueur ralise un geste adaptateur dans une session de jeu Il tait une fois , et donc quil est probable que son avatar le reprsentant dans VIRSTORIA gnre un geste adaptateur. M Mtaphorique : indique quil aurait t probable que le joueur ralise un geste mtaphorique dans une session de jeu Il tait une fois , et donc quil est probable que son avatar le reprsentant dans VIRSTORIA gnre un geste mtaphorique.

186

BAYBE : le module comportemental P Ponctuateur : indique quil aurait t probable que le joueur ralise un geste ponctuateur dans une session de jeu Il tait une fois , et donc quil est probable que son avatar le reprsentant dans VIRSTORIA gnre un geste ponctuateur. H Manipulation (Handling) : indique quil aurait probable que le joueur ralise une manipulation de carte dans une session de jeu Il tait une fois , et donc quil est probable que son avatar le reprsentant dans VIRSTORIA gnre un geste de manipulation de cube. Selon la rgle de Bayes (normalisation des variables), la somme des probabilits de lensemble de ces cinq tats est gale 1 (ou 100 %). Aprs avoir prsent en gnral le modle du diagnostic et le mcanisme de la construction du modle du comportement non verbal des avatars de VIRSTORIA, nous dfinissons maintenant la forme dans laquelle les rsultats du diagnostic seront fournis au modle dcisionnel de BAYBE.

5.7 Le processus dcisionnel de BAYBE


Diffrentes stratgies peuvent tres mises en uvre pour raliser une prise de dcision partir dun diagnostic, comme le choix de la valeur la plus probable, ou des heuristiques de dcision plus sophistiques pour lesquelles on adjoint ltat de connaissance probabiliste des fonctions dutilit (ou de cot) [Olivier, 2006]. Ces fonctions reprsentent, sous forme de contraintes, lintrt ou le danger dune dc ision particulire. Pour de telles heuristiques, choisir une valeur particulire se ramne rsoudre un problme doptimisation sous contraintes. Dans le cadre de nos travaux, nous nous sommes limits une heuristique de dcision trs simple qui consiste obtenir ltat de la variable de contrle recherch par un tirage selon la distribution de probabilit obtenue dans la phase de diagnostic (Figure 69). Par exemple, si le vecteur de probabilit de llment contrle est [D=15 %, A=40 %, M=10 %, P=35 %, H=0 %] (Figure 69), cela signifie que la probabilit pour un avatar dans VIRSTORIA dexcuter un geste dictique est de 15 %, un geste adaptateur est de 40 %, un geste mtaphorique est de 10 %, un geste ponctuateur est de 35 % et un geste de manipulation est de 0 %. Par consquent, la chance de tirer au sort un geste adaptateur est plus important que les autres gestes.

187

Dtection dintention et interface de commande implicite

Figure 69 : Exemple illustrant le processus de dcision par tirage au sort pondr des gestes non verbaux dans BAYBE. Pour les Dictiques : =0.15 ; Adaptateurs : =0.4 ; Mtaphoriques : =0.1 ; Ponctuateurs : =0.35 ; Manipulation :

Cette stratgie permet de restituer lincertitude, les dcisions tant quasi dterministes dans le cas de manipulation de cubes par lutilisateur dans VIRSTORIA (H=100 % ; D=0 % ; A=0 % ; M=0 % ; P=0 %) et, inversement, trs variables dans les autres cas. Cette capacit traduire lincertitude dans les dcisions prises e st daprs nous trs importante pour la qualit des comportements davatars obtenus. Pour un mme tat des variables de situation, la dcision nest souvent pas la mme, comme pour le processus dcisionnel humain. Cette distribution informe plus par les cas quelle proscrit que par ce ux quelle prescrit, elle limine des choix plus quelle nen impose. Cette facult proscriptive plutt que prescriptive des distributions est un point clef de la russite de leur combinaison, la bonne dcision tant, souvent, de chercher parmi les tats de la variable de contrle ne sont pas proscrits. qui

5.8 Dtection dintention et interface de commande implicite


Le systme danalyse de comportement de lutilisateur fonctionne en permanence, quelque soient les techniques dinteraction retenues. Cette capture du comportement est interprte par le module comportemental BAYBE et permet de passer dun mode dinteraction intentionnel lautre et dadapter le comportement de lavatar de faon plus fluide. Suivant le mode dinteraction, lIHM de lutilisateur affichera des retours visuels adapts au type dinteraction et lavatar de lutilisateur aura un comportement consquent. La Figure 70 illustre le processus danimation comportementale de VIRSTORIA et les modes danimations des avatars consquents. 188

BAYBE : le module comportemental


Scrutation des priphriques : - Priphriques (souris, etc) - Microphone Profil utilisateur : - ge - Connaissance Comportements des autres utilisateurs

Contexte

BAYBE

Handling
(Manipulation)

Oui

Animer lavatar avec une posture et un comportement symbolisant une action de manipulation de cube

Non Questionner sur la carte slectionne et son positionnement (x,y,z) dans lenvironnement Animer lavatar avec un geste adress (regard, dsignation de la main, etc)

Dictiques
Non

Oui

Adaptateurs
Non

Oui

valuer ltat de lutilisateur

Animer lavatar avec des gestes adaptateurs

Mtaphoriques
Non

Oui

Questionner sur le mot reconnu et la carte slectionne par lutilisateur

Animer lavatar avec des gestes mtaphoriques correspondants

Ponctuateurs
Non

Oui

Animer lavatar avec des gestes ponctuateurs gnrs de faon alatoire

Sinon autre niveau de prsence, etc.

Animer lavatar avec des comportements de type signe de vie (regard autour de soi, impatient, etc... )

Interpoler avec le comportement prcdent

Figure 70 : Algorithme du processus de dtection d'intention

Dans le cas ou le module comportemental BAYBE dcide que lavatar doit raliser un geste de manipulation, le contrleur danimation (Section 6.2.2) demande la base danimation de raliser un geste de manipulation de cube.

189

Conclusion Si BAYBE dcide que lavatar doit raliser un geste dictique, le contrleur danimation interroge le module de contexte (Section 6.2.2) pour identifier la zone de pointage. Des techniques de cinmatique inverse (Section 6.3.3) sont ensuite utilises pour gnrer le geste dictique correspondant. Si BAYBE dcide que lavatar doit raliser un geste adaptateur, le contrleur danimation interroge le module de contexte (Section 6.2.2) pour valuer ltat de lutilisateur, et gnrer par lavatar le geste adaptateur consquent. Si BAYBE dcide que lavatar doit raliser un geste mtaphorique, le contrleur danimation interroge le module de contexte et le module verbal (Section 6.2.2) pour identifier dune part, la carte manipule et dautre part, le mot prononc par lutilisateur. Si ces 2 lments sont identiques, le geste mtaphorique correspondant est excut par lavatar. Par exemple si BAYBE dcide que lavatar doit raliser un geste mtaphorique, et que lutilisateur a plac la carte (face du cube dans VIRSTORIA) minuscule sur le fil de lhistoire, le contrleur danimation attendra que lutilisateur prononce le mot minuscule pour gnrer le geste minuscule par lavatar le reprsentant. Si BAYBE dcide que lavatar doit raliser des ponctuateurs, le contrleur danimation demande la base danimation (Section 6.2.2) de gnrer un ensemble de gestes ponctuateurs de faon alatoire. Si aucun comportement non verbal nest dcid, des animations de type signe de vie (Section 6.2.2) sont excutes de faon continue par lavatar. Cet algorithme est appliqu lensemble des avatars reprsentant les utilisateurs distants dans VIRSTORIA (Section 6.1.2).

5.9 Conclusion
La mthode que nous avons utilise pour concevoir notre module comportemental BAYBE, propose un cadre rigoureux pour manipuler des connaissances incompltes et incertaines, raisonner sur ses connaissances et appliquer des dcisions sur les rsultats obtenus : au fur et mesure que lutilisateur communique travers le systme, celui-ci sadapte et lui rpond de faon spcifique. Nous nous inscrivons ainsi dans le paradigme de lnaction. La technique des rseaux baysiens a t retenue pour raliser un diagnostic sur les gestes DAMP. La dcision se base sur ce diagnostic pour choisir le geste que doit excuter lavatar. 190

BAYBE : le module comportemental Ce module permet de prendre en compte le comportement non verbal avec ces aspects improviss, voire non conscient. Cette nouvelle approche se distingue des approches classiques par le couplage fort entre lutilisateur et lenvironnement : elle autorise donc une libert dexpression dans la communication. Nous allons maintenant nous intresser dans le chapitre suivant, la description de lEVC VIRSTORIA qui accueil le module comportemental BAYBE.

191

Chapitre 6 VIRSTORIA

193

Deviens ce que tu es. Fais ce que toi seul peut faire. (Friedrich Nietzche, 1883)

Ce chapitre prsente lenvironnement virtuel collaboratif VIRSTORIA qui permet deux utilisateurs de collaborer sur la conception dune histoire commune, distance lun de lautre, avec comme support des avatars comportementaux. Dans un premier temps, nous dcrirons lapplication VIRSTORIA en y spcifiant ses caractristiques, ainsi que les lments architecturaux qui permettent son bon fonctionnement. Nous dtaillerons en particulier le module de reconnaissance de parole que nous avons implment et lintgration dun algorithme de VoIP dvelopp au sein du laboratoire TECH/SSTP48 de France Telecom R&D et qui permet de communiquer verbalement de faon synchrone et spatialise avec lensemble des participants dune session de jeu. Ensuite, nous prsenterons les techniques qui nous ont permis de raliser les animations faciales et gestuelles de nos avatars. Enfin, nous terminerons en dcrivant limplmentation informatique, ralise au cours de la thse, de BAYBE dans VIRSTORIA.
48

TECH/SSTP : Speech and Sound Technologies and Processes

195

Description de lapplication VIRSTORIA

6.1 Description de lapplication VIRSTORIA


6.1.1 Linterface Chaque interface de lapplication VIRSTORIA des participants une sessi on de jeu est compose (Figure 71): 1. du coffre (COFFRE), espace priv contenant lensemble des cubes conte de lutilisateur. Chaque face dun cube, qui reprsente une illustration du jeu de carte il tait une fois , est unique dans une session de jeu et est distribue de faon alatoire lensemble des utilisateurs ; 2. des cubes de dnouement qui sont communs lensemble des joueurs. Ils permettent de conclure le conte en les plaant la fin de la ligne de lhistoire ; 3. de la main (MAIN), qui permet lutilisateur de manipuler les cubes conte et dnouement en faisant dfiler leurs diffrentes faces, pour ensuite choisir de les placer sur le fil de lhistoire ou de les remettre leurs places dorigines ; 4. Le fil de lhistoire (FILE), espace public tous les joueurs o sont placs les cubes conte et dnouement ncessaires la conception narrative ; 5. Les avatars, placs au centre de la scne, reprsentent les utilisateurs distants. Ils permettent de visionner les comportements non verbaux gestuels et faciaux. Des minis cubes colors et anims, situs en face de lavatar permettent dinterprter laction des utilisateurs distants sur linterface.

196

VIRSTORIA
MAIN Fil de lhistoire : espace public

3 Avatar de lutilisateur distant Cubes de lavatar distant

5 Cubes dnouement 2

COFFRE : espace priv 1

Figure 71 : Point de vue dun utilisateur de l'interface de VIRSTORIA

6.1.2

Les avatars de VIRSTORIA Dans notre application, chaque utilisateur connect une session de jeu est

reprsent par un personnage virtuel, un avatar anthropomorphique quil aura lui -mme configur en choisissant par exemple le genre de lavatar (homme/femme) et/ou sa couleur de vtement (Figure 72).

Figure 72 : Trois exemples d'avatar utiliss dans VIRSTORIA

197

Description de lapplication VIRSTORIA Le conflit dintentionnalit entre lutilisateur et son avatar Nous adressons dans cette section le problme inhrent aux EVC, c'est--dire, le conflit permanent entre les actions gestuelles dcides par les utilisateurs (en contexte de communication face--face) et les actions gestuelles dcides par le module comportemental aux avatars, pour sadapter au nouveau contexte dinteraction. Poser ce problme, cest se poser la question suivante : lutilisateur doit-il voir son avatar ? Pour rsoudre ce problme, nous proposons une recommandation propose par Le Mer [Le Mer, 2001] : Il est conseill que l'utilisateur voit son avatar lors d'un dplacement afin de coordonner les mouvements de son avatar dans un espace. Si lavatar est immobile ou l'arrt, faire disparatre l'avatar (exemple : la camra se dplace automatiquement la position des yeux) qui occupe inutilement le champ visuel .

Figure 73 : L'utilisateur doit-il voir son avatar? [Les Simpson, 1994]

Comme nous neffectuons aucun dplacement dans VIRSTORIA, nous avons donc par convention fait le choix de ne pas reprsenter lavatar de lutilisateur dans son environnement local en optant pour une reprsentation head-centrique [Bowman et al., 2004] [Howard, 1991]. Lutilisateur local ne voit donc pas son double avatar dans son environnement virtuel et lavatar le reprsentant nest visible que dans les environnements distants. Le fait de ne pas voir son double avatar permet ainsi aux utilisateu rs dtre centrs uniquement sur la tche principale : la conception narrative. La moindre incomprhension entre lutilisateur et son avatar le dtournerait de cette tche.

198

VIRSTORIA

6.2 Architectures
6.2.1 Architecture rseau VIRSTORIA est un environnement virtuel collaboratif synchrone avec VoIP, et par consquent, il doit grer en temps rel lensemble des vnements de lenvironnement. Pour cela, nous avons mis en place une architecture gnrale rseau de type client-serveur (Figure 74). Ainsi avant toute communication sur un rseau, un client doit obligatoirement, soit crer un serveur, soit se connecter un serveur existant. Cette architecture rseau gnrale est divise en deux sous-rseaux client-serveur ddis chacun une tche spcifique : un rseau client-serveur ddi lchange de messages lis aux changements des vnements dans lenvironnement VIRTORIA tels que la position des cubes, les gestes excuts par les avatars, ltat de la narration, etc. Dans ce cas, cest linitiateur de la session de jeu, qui embarque le serveur (et devient le serveur embarqu) sur lequel vienne se connecter lensemble des joueurs. Lorsque le service de notification du serveur embarqu reoit un message de la part dun client, il est en charge de le transfrer aux autres clients. Il ne peut hberger quune seule session de jeu la fois et grer quun maximum de 32 clients connects simultanment ; un rseau client-serveur ddi la communication vocale synchrone spatialise (Section 6.2.4) qui dans ce cas, passe par un serveur spcifique (ComIP) auquel chaque participant se connecte. Cela permet chaque utilisateur de la session de jeu dentrer en audioconfrence synchrone avec les autres clients.

199

Architectures

Figure 74 : Architecture rseau de VIRSTORIA

6.2.2

Architecture gnrale Larchitecture gnrale de VIRSTORIA, illustre la Figure 75, est compose des

lments suivants : 1. un module verbal, qui a pour rle de prendre en charge la modalit verbale des utilisateurs. Il permet dabord, grce la technologie de VoIP (Section 6.2.4), de diffuser la parole dun utilisateur lensemble des autres partenaires de faon synchrone et ensuite, de recevoir lensemble des voix spatialises de ces mmes partenaires. Le second rle du module verbal et de reconnaitre en temps rel certains mots prdfinis dans une grammaire (voir Annexe E), qui dans le cas de VIRTORIA, correspond aux cartes conte manipules par les utilisateurs (Section 6.2.3). Les mots reconnus ensuite, sont envoys au module de contexte ; 2. un module de contexte, qui gre les vnements dinteractions entre lutilisateur et linterface. Ces vnements sont de diffrentes natures tels que le profil des utilisateurs (homme/femme ; familier/pas familier avec les autres participants), la face de cube slectionne, le mot reconnu par le module de reconnaissance de la 200

VIRSTORIA parole, etc. Tous ces lments permettent de mettre jour ltat de lhistoire et nourrissent ensuite le module comportemental de lutilisateur se situant dans les diffrentes plateformes des autres participants la session de jeu ; 3. un module comportemental tendu, qui est constitu de BAYBE et dun contrleur danimation. partir des lments provenant des modules de contexte local et distant, BAYBE dcide du type de geste DAMPH (DAMP + Manipulation) raliser et envoie cette information au contrleur danimation. Ce contrleur choisit les gestes faire excuter par le module danimation en fonction des rsultats de BAYBE et du module de contexte. Par exemple, lorsque BAYBE demande au contrleur danimation de faire excuter un geste mtaphorique par lavatar, ce dernier choisit le bon geste mtaphorique en fonction du mot reconnu par le module de reconnaissance et de la face du cube plac sur le fil de lhistoire. Si la face du cube plac sur le fil de lhistoire est Gant et que le mot reconnu par le module de reconnaissance de parole est Gant ou Grand ou Immense et que BAYBE a demand dexcuter un geste mtaphorique, le contrleur danimation envoie un message au module danimation gestuelle pour raliser le geste mtaphorique correspondant Gant (lavatar lvera une main au-dessus de sa tte) ; 4. un module danimation, qui permet dexcuter trois types danimation de lavatar. En premier lieu, les animations de signe de vie49 qui sexcutent de faon continue et alatoire sur lensemble de la session de jeu. Ensuite les animations faciales (Section 6.3.1) qui ralisent la labialisation de lavatar en fonction du signal de VoIP et lexcution de quelques expressions faciales selon les vnements venant de son moteur de rgle. Enfin, les animations gestuelles (Section 6.3.2) sont excutes en fonction des messages envoys par le contrleur danimation.

49

Les signes de vie correspondent des lments minimum danimations qui "humanisent" un peu plus la prsence de lavatar comme par exemple un lger balancement de lavatar, louverture/fermeture des paupires, etc.

201

Architectures

Figure 75 : Architecture gnrale de VIRSTORIA entre deux participants

202

VIRSTORIA 6.2.3 Reconnaissance de la parole Cette brique a t dveloppe au sein du laboratoire TECH/SSTP de France Telecom R&D. Une collaboration interne avec Lionel-Delphin Poulat a permis de limplmenter dans notre plateforme VIRSTORIA : le rsultat est que des mots prdfinis, prononcs par le locuteur sont susceptibles dtre reconnus en temps rel par le systme, ce qui enrichit ainsi le module comportemental BAYBE dlments pouvant laider dans sa prise de dcision. Tout cela se faisant sans phase dapprentissage de la parole de lutilisateur. Dans cette application, le systme de reconnaissance automatique de la parole utilis correspond ltat de lart dans ce domaine. Le signal provenant dun micro est chantillonn 8 kHz sur 16 bits en linaire. Des coefficients MFCC50 (Mel Frequency Cepstral Coefficients) sont calculs, toutes les 16 ms, sur des trames de signal de 32 ms. Le systme de reconnaissance utilise lnergie de la trame, les coefficients spectraux 1 8, auxquels sont adjoints une estimation des drives premires et secondes. Le vecteur dobservations est donc de dimensions 27. Le dcodeur utilise des chanes de Markov caches51 [Rabiner, 1989]. La syntaxe des phrases reconnues par le systme est dcrite dans une grammaire. Le vocabulaire utilis pour VIRSTORIA comprend 112 mots correspondant, aux intituls des cartes conte (Tableau 9). Chaque mot est obtenu par concatnation dunits phontiques dpendant du contexte : les allophones [Bartkova et Jouvet, 1991]. Le dcodeur permet dobtenir les n-meilleures solutions qualifies de n-best [Chow et Schwartz, 1989]. Le systme de reconnaissance fonctionne en permanence. Cependant la dtection bruit/parole est place en amont du dcodeur, ce module ne transmet au dcodeur que les trames correspondant la parole. Plus exactement, le module de dtection fournit au dcodeur la parole entoure de quelques trames de silence de part et dautre. Ces trames additionnelles de silence permettent de sassurer que le signal de parole na pas t tronqu. Lorsque le dtecteur bruit/parole prend la dcision de dtecter la parole, celle-ci a dj commenc. Le module de dtection fournit donc un certain nombre de trames au dcodeur qui sont antrieures linstant o a t prise la dcision de dtection de parole (Figure 76). Le processus de reconnaissance de parole commence donc le dcodage avec
50

Les MFCC sont des coefficients spectraux calculs par une transforme en cosinus discrte applique au spectre de puissance d'un signal. 51 Les modles de Markov Cachs (Hidden Markov Models - HMM) sont des modles statistiques permettant de modliser des processus stochastiques.

203

Architectures plusieurs trames de retard par rapport au signal de parole rel. Mais le dcodeur rattrape vite le retard initial puisquavec le modle considr dans les expriences, il peut traiter les trames plus vite que le temps rel (le temps de traitement dune trame est infrieure la cadence de trame).
Dbut de parole (estampille temporelle)

trames

trames

a b c d ... Dcodeur (reconnaissance)

N-best

Liste des N-best "mot1", temps1, score1 "mot2", temps2, score2 ... "motn", tempsn, scoren
Sortie vers BAYBE

Signal audio

Dtecteur bruit/parole

Tampon mmoire (file dattente)

Figure 76 : Processus pipe de la reconnaissance de la parole

Pour dtecter la fin de parole, il faut observer un certain nombre de trames de silence conscutives la parole. Ces trames sont transmises au dcodeur. Le rsultat de la reconnaissance est demand au dcodeur ds que la dernire trame de silence est reue et la meilleure solution peut tre fournie au module ds cet instant. Le calcul des n-meilleures solutions engendre un dlai parce quil ncessite une passe retour sur un graphe qui a t construit de faon synchrone la trame. Les n-meilleures solutions sont donc fournies au module de fusion multimodale avec un dlai par rapport la fin de la parole. Ce dlai englobe la fois les trames de silence suivant la parole qui ont t transmises au dcodeur et les calculs de la passe retour des n-meilleures solutions. Le temps de calcul de la passe retour est ngligeable par rapport au dlai engendr par les trames de silence. Le nombre de trames de silence pour dtecter la fin de parole est un paramtre de lautomate. Les instants de dbut et de fin de dtection de parole sont transmis au plus tt VIRSTORIA et BAYBE, c'est--dire ds que les dtections de dbut et de fin de parole ont t prises. Il faut noter que ces instants comprennent les silences de dbut et de fin et ce ne sont donc pas les instants de dbut et de fin de parole ; ces derniers peuvent tre recalculs en fonction des paramtres fournis au module de dtection bruit/parole. Lensemble des mots ainsi dtects faisant rfrence la grammaire des mots prdfinis, permet dassocier le contexte de narration avec la reconnaissance de parole des utilisateurs de VIRSTORIA. Certains contenus langagiers sont du coup li laction sur lenvironnement. 6.2.4 VoIP et spatialisation du son Lavatar dun utilisateur dans VIRSTORIA ne se limite pas seulement sa reprsentation visuelle, mais doit galement intervenir dans le rendu sonore du canal audio

204

VIRSTORIA de lutilisateur. Le comportement verbal est un lment important du ralisme de communication entre les personnes [Feyereisen et al., 1988]. On peut mme reconnatre une personne quau seul son de sa voix. Dans notre exprience quotidienne, nous percevons lespace sonore en trois dimensions en analysant le son parvenant nos oreilles. Au-del dune simple audition des bruits, cette perception spatiale des sons complte les informations rcoltes par nos autres sens. Elle a d'abord un rle informatif. Elle nous renseigne sur les positions des sources sonores dans l'espace environnant (perception de la direction et de la distance) : c'est la localisation auditive. Les sons qui se propagent agissent aussi comme un rvlateur sur les lieux, par le jeu des rflexions sur les parois et l'effet de rverbration. Ainsi l'auditeur peut identifier le lieu d'o est parti un son : il a par exemple la sensation d'tre dans une salle plus ou moins grande, une salle de bain ou une cathdrale, ou encore dans un espace ouvert, une ruelle ou une fort, etc. Le son 3D est aussi le support de l'intelligibilit : nous avons cette aptitude isoler une conversation dans un environnement bruit ou parmi d'autres conversations. Le fait d'tre baign dans un espace sonore participe au confort de l'coute et une certaine dimension de plaisir. Il s'agit d'une proprit immersive supplmentaire. La Figure 77 dcrit le fonctionnement de la chane de traitement audio, depuis la capture de la voix dun participant P1 VIRSTORIA jusqu' sa rception spatialise par un autre participant distant. Son traitement seffectue en cinq tapes : tape (1) et (2) : Au niveau du participant P1, le son est enregistr par le microphone puis numris et dcoup en trames de 60 ms (960 chantillons 16 kHz). Pour chaque trame, la premire tape de lalgorithme est effectue pour d terminer les 4 valeurs dnergie/tonalit pour les bandes en Hz suivantes : 0-500, 500-2000 et 5000-8000. Ensuite, les donnes audio sont encodes par un codeur propritaire wideband France Telecom 32 kbits/s et insres dans un paquet IP avec les huit informations dnergie/tonalit et avec les informations de position du participant dans le jeu.

205

Architectures tape (3) : Chaque paquet audio issu du terminal (P1 par exemple) arrive au niveau du pont rpliquant52 ComIP (Section 6.2.1) et est dupliqu, puis plac dans les buffers de sortie des autres participants. Si deux paquets audio issus dun mme participant (par exemple P1) se trouvent dans un buffer dun autre participant (par exemple P2) a u niveau du server embarqu, alors le traitement CullFrames53est appliqu. Ce traitement prend en entre les donnes perceptives (nergie/tonalit) ainsi que les ventuelles positions disponibles des participants contenues dans les paquets audio issus de diffrents participants et de ne slectionner que ceux qui seront audibles. En loccurrence, dans lexemple de la Figure 77, seuls deux paquets sur trois sont audibles et seront envoys au participant 2. Afin dviter des alternances trop frquentes denvoi ou non de paquets issus d'un mme client pouvant crer des hachages, une fonction de lissage des rsultats a t dveloppe. Il faut en effet plusieurs rsultats du mme type ( envoi / non envoi ) pour changer de statut : passage de non envoi a envoi / passage de envoi a non envoi . Aprs plusieurs essais, il a t choisi de basculer au bout de trois dcisions conscutives identiques. En guise de remarque, un mme paquet de P1 peut tre envoy vers P2 mais pas vers P4, par exemple. La fonction CullFrames travaille dans le buffer de chaque participant Px indpendamment des buffers des autres clients. tape (4) : Les paquets audio slectionns par la fonction CullFrames sont envoys au participant (ici P2). tape (5) : Au niveau du terminal du participant 2, les flux audio sont extraits des paquets puis dcods. Ils sont ensuite envoys vers le client Virtools (Section 6.4.2) par la fonction WriteBuffer puis spatialiss par la couche OpenAL54 implmente dans Virtools. Le client Virtools pourrait ne pas tre utilis et le client audio ComIP ferait lui-mme le mixage et ventuellement la spatialisation.

52

Un pont rpliquant a pour but de rpliquer les flux audio dun correspondant vers tous les autres correspondants qui reoivent donc plusieurs flux dcoder. 53 Lalgorithme CullFrames permet la slection de trames sonores audibles et non audibles. 54 OpenAL (Open Audio Library) est une bibliothque logicielle multi-plateforme fournissant une interface de programmation pour laudio 3D : http://connect.creativelabs.com/openal/default.aspx

206

Paquet audio

VIRSTORIA
Flux audio issu du micro du Participant 1

Traitement Qualit

Encodage
P1

3
P2 P1 P2 P3 P1 P1 P2 P4 P1 P1 P3 P4 P1

Compute Percetuallnto

Client ComIP GetListenerPosition Client Virtools


Position

2 1
Buffer P1

P3 P4

Buffer P2

Buffer P3

Buffer Buffer P4 P4

Participant 1

4
Participant 2

2 paquets du mme participant P1 dans le buffer P2 => dbut du traitement

Traitement identique pour Buffer P3 et Buffer P4

Participant 2
P3 P3 P1

P3

P4

P1

Client ComIP
Dcodage

Position P3

Position P4

Position P1

Dcodage
P1

Perco Info P3

Perco Info P4

Perco Info P1

CullFrames : slection des flux audibles


2 trames sur 3 sont audibles

Dcodage
P4

WriteBuffer

P3

P1

Client Virtools Spatialiseur


Labialisation P4

Serveur ComIP

Envoi vers le participant P2

Flux audio stro vers casque du Participant 2

Labialisation P3

Labialisation P1

Participant 3

Participant 1

Participant 4

Figure 77 : Schma gnral de fonctionnement de la chane audio ComIP/Virtools

207

La synthse danimation des avatars

6.3 La synthse danimation des avatars


6.3.1 Lanimation faciale Dans VIRSTORIA, pour gnrer des animations faciales temps rel par les avatars, nous avons utilis lapplication FaceEngine [Breton et al., 2001] dveloppe au sein de France Telecom R&D. Cette application se prsente sous deux formes : un outil de modlisation des animations faciales intgr dans 3ds Max55 (Figure 78) et un moteur danimations faciales intgr dans Virtools. FaceEngine est bas sur un systme danimation faciale hybride utilisant aussi bien des animations paramtriques que musculaires. Lanimation par contrle musculaire se sert de muscles virtuels des points particuliers pour les dformations de maillage et d axes de rotation pour les mouvements rigides du visage associs aux yeux et au cou. Dans ce modle, les muscles agissent comme des ressorts, ce qui est assez bien adapt pour la partie suprieure du visage o la nature lastique des muscles et de la peau est primordiale. Par contre, pour la partie infrieure du visage, il est difficile de modliser les joues et surtout la mchoire avec ce concept. Cest pourquoi il faut introduire un modle plus raffin du systme musculaire [Waters, 1987]. Le systme musculaire de chaque visage des avatars est bas sur lanatomie humaine et est constitu de 29 actionneurs musculaires (Figure 79). Chaque expression est dfinie par un ensemble de contractions musculaires qui est plus ou moins indpendant de la morphologie faciale. Un ensemble de vismes56, dmotions et dhumeurs a t ainsi paramtr dans 3ds Max (Figure 78). Pour les vismes, nous avons modlis cinq diffrentes formes de la bouche (a, e, i, o, u) pour raliser la labialisation des avatars, et qui sont gnres de faon alatoire lors de la locution des utilisateurs. Concernant les motions, nous avons modlis les six classes dmotions dfinies par Ekman [Ekman, 1992] (tristesse, joie, colre, peur, dgot, surprise) (Figure 80) traditionnellement utilises dans lanimation des expressions faciales des visages 3D parlants [Pelachaud, 1991].

55 56

http://www.autodesk.fr/ Par analogie aux phonmes, qui sont les units minimales de son intervenant dans la production de la parole ; les vismes sont les units minimales dexpression faciale intervenant dans la production de la parole.

208

VIRSTORIA Quant aux humeurs dans notre modle, ils agissent comme un filtre pour lmergence des motions et pour linterprtation des vnements. Nous avons dfini trois types dhumeurs : neutre, bonne et mauvaise et qui sont essentiellement lis aux activits/actions des utilisateurs sur linterface de VIRSTORIA.

Figure 78 : FaceEngine Authoring Tools dans 3ds Max permettant de modliser les animations faciales

VoIP

Labialisation Emotions Humeurs


VIRSTORIA Contexte

Systme de dformation

Commandes

Rgles

Systme de contrle

Systme dadaptation

Figure 79 : Principe d'animation faciale avec FaceEngine dans VIRSTORIA

Figure 80 : Exemples d'animations faciales des avatars dans VIRSTORIA

209

La synthse danimation des avatars Les motions et les humeurs sont enclenches par des vnements du systme sous forme de rgles simples. En aucun cas un modle du comportement non verbal des expressions faciales na t ralis, car cela ne faisait pas partie du travail de thse. 6.3.2 Acquisition et animation gestuelle Pour raliser lensemble des animations gestuelles (et corporelles) qui sont stockes dans la base danimation de VIRSTORIA (Figure 75), nous avons utilis la technique de la Motion Capture (Captation de Mouvement en franais) laide de systmes optiques du Laboratoire Mouvement Sport Sant57 (M2S) de lUniversit de Rennes 2 (Figure 81 tape 1). Cette technique a t choisie car elle permet denregistrer des mouvements trs ralistes du corps humain, car trs prcis (de lordre du millimtre). Cinquante-deux balises rflchissantes dans linfrarouge sont disposes sur lensemble du corps dun mannequin humain (ainsi que sur lensemble des phalanges des mains). Dix camras58 sensibles la plage de longueur donde des projecteurs infrarouges relvent en temps rel les coordonnes (x, y, z) de lensemble des balises rflchissantes. Le recoupement des informations de chaque camra (deux camras minimum) permet de dterminer la position des balises dans l'espace virtuel. Trente-deux animations gestuelles ont ainsi t enregistres sous la forme de fichier BVH59. Chacun des trente-deux fichiers BVH ont ensuite t imports dans le modeleur 3ds Max pour tre assigns un squelette 3D (Figure 81 - tape 2). Le squelette tant li lenveloppe corporelle de lavatar par la technique du skinning , le mouvement du squelette entraine galement le mouvement de lenveloppe corporelle et des textures associes. La modification de certains paramtres danimation permet de multiplier le nombre danimations gestuelles. Au total, soixante-trois animations corporelles et gestuelles ont t ralises (six animations de signes de vie, quinze animations de gestes adaptateurs, vingt-cinq animations de gestes mtaphoriques, quinze animations de gestes ponctuateurs et deux animations de gestes de manipulations). Chacune de ces animations ont t exporte sous forme de fichier NMO60 vers le logiciel Virtools et ont t ensuite intgres dans une base danimation (Figure 81 tape 3). chaque animation est attribu un message qui permet
57 58

M2S : http://www.sites.uhb.fr/m2s VICON MX : htt://www.vicon.com 59 BVH : fichier de motion capture contenant les coordonnes x, y et z de len semble des balises rflchissantes durant une priode donne. 60 NMO : fichier dimportation de donnes (modles 3D, textures, animations, etc.) de Virtools

210

VIRSTORIA de les identifier dans cette base. Chaque fois que le module comportemental BAYBE choisit un geste raliser par lavatar, il envoie par lintermdiaire du contrleur danimation le message correspond la base danimation. Cette animation est finalement excute par lavatar dans VIRSTORIA en ralisant une interpolation avec lanimation prcdente.

Figure 81 : Processus dacquisition des animations gestuelles

211

Implmentation 6.3.3 Les gestes adresss Contrairement aux gestes adaptateurs, mtaphoriques et ponctuateurs, les gestes dictiques ne sexcutent pas partir dune base danimation comme nous lavons prcdemment dfinie. En effet, les dictiques dans VIRSTORIA sont des gestes de pointage de la main sur des cubes ou des avatars, et par consquent, ils doivent tres gnrs en fonction de la position (coordonnes x, y et z) de ces derniers. Pour ce faire, nous avons employ la technique de la cinmatique inverse . La cinmatique inverse permet de trouver les coordonnes articulaires (position et rotation) dun systme poly-rigide satisfaisant une contrainte concernant sa position extrme. Dans notre cas, le bras (gauche ou droite) de lavatar constitue ce systme poly -rigide. Pour crer lanimation dun geste dictique, il sagit pour le systme datteindre les diffrentes positions composant la trajectoire de lextrmit du bras, lies aux coordonnes x, y, z du repre dun cube (ou dun avatar) de lenvironnement VIRSTORIA, tout en vrifiant que la position demande est accessible. Nous nvoquerons pas en dtail cette technique danimation et nous conseillons de lire larticle de Norman Badler [Badler et Tolani, 1996] et la thse de Deepak Tolani [Tolani, 1998] pour plus dinformations.

6.4 Implmentation
6.4.1 PNL Intel Pour implmenter notre module comportemental BAYBE dans VIRSTORIA, nous avons utilis la librairie PNL [Bradski, 2004]. La Probabilistic Network Library est un projet open source men par la socit Intel. Cette bibliothque contient de nombreuses fonctions dans le langage C++, certaines sont des traductions des fonctions de la bayes Net Toolbox. PNL61 est une bote outils qui permet la manipulation des modles graphiques (rseaux baysiens et chanes de Markov). Elle supporte les modles dirigs et non dirigs, les variables discrtes et continues, comme elle fournit une varit d'algorithmes d'infrence et d'apprentissage. Contrairement aux autres librairies, PNL ne fournit pas d'interface graphique pour la cration et la visualisation des graphes. Nous illustrons par la suite quelques lments constitutifs de notre rseau baysien dynamique.

61

http://www.sourceforge.net/projects/openpnl

212

VIRSTORIA Cration des nuds :


#include "pnlHigh.hpp" PNLW_BEGIN DBN *net; DBN *BAYBEModel() { Sex net = new DBN(); net->SetProperty("inference", "naive"); net->SetNumSlices(3); //Node net->AddNode(discrete^Sex, "Man Woman"); net->AddNode(discrete^"Speak Acquaintance", "True False"); net->AddNode("discrete^CNV", "Handling Deictique Adaptateur Metaphorique Ponctuateur"); ...

Speak Acquaintance

CNV

Cration des arcs entre les nuds :

Speak ... //Arcs net->AddArc("Sex", "CNV"); net->AddArc("Speak", "CNV"); net->AddArc("Acquaintance", "CNV"); ... Acquaintance Sex

CNV

6.4.2

VIRTOOLS Pour raliser lEVC VIRSTORIA, nous avons utilis le logiciel Virtools (Figure 82).

Virtools Dev62 est une plateforme de dveloppement pour la cration dapplications interactives mixant la 3D temps rel, le son et la vido. Comme lillustre la Figure 82, Virtools offre un IDE (Integrated Development Environment) qui peut tre compar aux autres environnements de dveloppement classique.

62

http://www.virtools.com

213

Conclusion

Figure 82 : Interface de dveloppement VIRTOOLS [3DVIA, 2009]

Tout le dveloppement de VIRSTORIA cest effectu au travers de ce logiciel : il sagit de placer dans le monde 3D, diffrents objets 3D. Virtools nest pas un modeleur comme 3ds Max mais il permet dimporter de nombreux format 3D. Pour paramtrer des comportements dynamiques sur les objets 3D, nous avons utilis des Building Blocks (modules comportementaux prdfinis, aux paramtres ajustables) que lon assemble entre eux. Les Building Blocks (BB) peuvent rpondre aux sollicitations dautres BB ou aux valeurs de certaines variables. De base, de nombreux BB sont disponibles et couvrent un ensemble trs large de besoins ; toutefois, pour concevoir le module comportemental BAYBE, nous avons d dvelopper de nouveaux BB en utilisant le SDK de Virtools. Ce SDK ncessite des connaissances en programmation objet grce au langage C++. Nous avons galement utilis le pack multi-utilisateurs de Virtools pour raliser la plateforme rseau de VIRSTORIA dcrite prcdemment (Section 6.2.1).

6.5 Conclusion
Dans ce chapitre, nous avons dcrit lapplication VIRSTORIA ainsi que les lments techniques qui la compose. Les techniques spcifies ont t implmentes et

214

VIRSTORIA exprimentes dans lapplication VIRSTORIA. Cette implmentation a permis de valider la comptabilit technique de la chane complte danalyse-synthse dans les diffrents modes du systme. Cette validation technique permet donc daborder une phase de proposition technique pour une dmarche visant valuer la pertinence du modle propos dans cette thse.

215

Discussion
Au cours de cette deuxime partie du mmoire, nous nous sommes attachs rsoudre le problme expos lors de la premire partie (tat de lart) : comment rendre compte du comportement non verbal des utilisateurs dEVC, sans que ce dernier ne se dtourne de sa tche principale, la collaboration. Pour cela, nous avons dabord dfini une catgorisation gestuelle pertinente dans le cadre de la conception collaborative dhistoire : la catgorisation DAMP (Dictique, Adaptateur, Mtaphorique et Ponctuateur). Nous avons ensuite analys un ensemble de donnes numriques extraites de lexprimentation il tait une fois . Cette analyse a permis de dgager un modle du comportement non verbal des participants reposant sur lincompltude et lincertitude des donnes. partir de cet tat de fait, nous avons propos un modle nactif du comportement non verbal bas sur un couplage fort entre lutilisateur et le systme. Ce modle donn lieu la conception du module comportemental BAYBE (BAYesian BEhavior) pour les avatars dEVC et repose sur la reconnaissance de lincompltude. Le comportement non verbal des avatars est dcrit en trois phases : 1) une phase dapprentissage des donnes exprimentales pour transformer lincompltude de ces donnes en incertitude ; 2) une phase de diagnostic des gestes DAMP partir de rseaux baysiens dynamiques pour traiter cette incertitude ; 3) une phase dcisionnelle du geste excuter par lavatar sur base dun tirage au sort pondr sur la distribution probabiliste de la phase de diagnostic. Cette simplicit de fondement nous semble tre une trs grande force de lapproche propose. Pour tester nos hypothses, nous avons implment le module comportemental BAYBE travers des avatars de la plateforme VIRSTORIA. Cette plateforme a fait lobjet de modifications importantes sur la base de la plateforme VIRSTORY. Une technologie VoIP permet maintenant de raliser des audio confrences synchrones au quatre coins du monde. Un module de reconnaissance de la parole permet denrichir BAYBE avec la modalit verbale, ncessaire la ralisation de certains gestes par les avatars. Nous arrivons maintenant la dernire partie de ce mmoire, la validation du module comportemental BAYBE en ralisant des tests de collaboration travers la plateforme VIRSTORIA. 217

Troisime Partie

Validation

219

Introduction
Aprs une analyse dtaille des implmentations visant une amlioration de la communication interpersonnelle distante travers un EVC par le support davatars comportementaux, nous arrivons la dernire partie de ce manuscrit. La validation des choix oprs au cours des chapitres prcdents, doit passer par une srie de test tant quantitative que qualitative. Ce partie prsente donc une tude conduite sur VIRSTORIA pour tester les hypothses concernant notre modle comportemental, valuer limplmentation du module BAYBE et de dfinir la pertinence dutiliser des avatars comportementaux dans les EVC compar dautres processus de collaboration.

221

Chapitre 7 valuations

223

Nous aurions souvent honte de nos plus belles actions si le monde voyait tous les motifs qui les produisent. (La Rochefoucauld)

Le systme que nous avons conu a t cre dans lobjectif damliorer la communication et par extension la collaboration interpersonnelle travers des EVC. Si nous nous centrons plus particulirement sur VIRSTORIA, il sagit denrichir la communication entre les utilisateurs denvironnements virtuels informs travers des avatars qui reproduisent des comportements non verbaux et particulirement des gestes de communication en situations dinteraction face--face et dans un contexte de jeux de carte. Cela a donn lieu la conception du module comportemental BAYBE qui diagnostic en temps rel le contexte de collaboration entre les utilisateurs et dcide des gestes exprimer par les avatars les reprsentants dans lEVC. Les points importants sur lesquels notre systme BAYBE doit-tre performant sont donc lintelligibilit et la charge cognitive associe. Nous ne devons pas oublier que ce systme peut tre utilis dans dautres applications o des contraintes supplmentaires peuvent apparatre. Nous citerons par exemple le cas des EVC utiliss dans le domaine mdical (en rfrence la plateforme Argonaute 3D Section 1.4.3) ou contrairement une tche de storytelling, il faut tenir compte de lexpertise des mdecins dans la ralisation des tches spcifiques.

225

Lvaluation des avatars comportementaux dans les EVC Pour ce faire, nous commencerons par nous poser la question de lopportunit dvaluer un systme et quelles sont les critres dvaluation prendre en compte qui permettent de le valider. Nous prsenterons ensuite le protocole dvaluations que nous avons mis sur pied pour tester VIRSTORIA dans des conditions relles de collaboration et que nous comparerons dautres formes de collaboration. Enfin nous discutons la fin de ce chapitre de lintrt des solutions mises en uvre pour amliorer la collaboration interpersonnelle travers des univers virtuels.

7.1 Lvaluation des avatars comportementaux dans les EVC


Un des objectifs mens par les chercheurs en intgrants des comportements non verbaux (gestes, motions, regards, etc.) chez les avatars correspond lamlioration de linteraction Humain-Machine et dans le cadre des EVC, lamlioration de linteraction Humain-Machine-Humain. Les exprimentations ralises tendent penser que lapport davatars autonomes capables dexprimer des comportements non verbaux, permettent damliorer le processus de conversation entre les utilisateurs. Ils amliorent galement la satisfaction des utilisateurs en rendant plus expressif, plus naturel la collaboration travers des EVC [Vilhjalmsson, 1997] [Vilhjalmsson, 2003]. Nanmoins, ces travaux restent peux nombreux et traitent principalement sur la reproduction des motions travers les avatars [Dehn et VanMulken, 2000] [Fabre et al., 2002] [Simonin, 2007]. Les mthodes dvaluation de linteraction Homme-Machine peuvent tre catgorises selon divers critres. Elles peuvent par exemple tres classes selon les objectifs des approches empiriques (mthodes requrant la participation direct des utilisateurs), ou des approches analytiques (mthodes sappliquant aux caractristiques de linterface) [Bastien et Scapin, 2001]. La seconde catgorie de mthodes ne peut exister que pour les domaines disposant dune longue exprience dvaluation ergonomiques, de repres solides et fiables (ex : grilles de recommandations, normes), ce qui nest pas encore le cas pour les avatars comportementaux dans les environnements virtuels. Les mthodes qui nous intressent ici sont donc celles qui requirent la participation directe des utilisateurs. Elles reposent sur deux types de variables. Des variables objectives : temps de ralisation dune tche ; exactitude du rsultat ; nombre et type derreurs commises ; indicateurs psychophysiologiques tels que le rythme cardiaque ;

226

valuations vnements systmes sauvegards dans des fichiers de trace.

Des variables subjectives : questionnaires ; entretiens destines recueillir, tout comme les questionnaires, la satisfaction, les attitudes et les options des utilisateurs. Une exprimentation de VIRSTORIA a donc t mene afin de valider nos hypothses concernant le modle comportemental que nous avons prcdemment dfini. Nous devons vrifier pour cela, que le module comportementale BAYBE fonctionne de manire efficiente en situation de collaboration. Les hypothses que nous avons souhaites tester sont les suivantes : 1. la proportion de gestes DAMP excute par les avatars lors dune session de jeu dans VIRSTORIA, correspond la proportion de gestes DAMP des participants de lexprimentation Il tait une fois (Section 4.4.1) ; 2. les EVC dots davatars comportementaux amliorent la collaboration au vu des autres EVC dots davatars fixes (non comportementaux). Pour des raisons de temps et de comptences, nous navons pu raliser quune valuation objective de la collaboration dans VIRSTORIA. Lvaluation subjective doit tre traite par des spcialistes, tel que les ergonomes et fera lobjet dtudes futurs. Le protocole dvaluation et les rsultats sont prsents ci-dessous. 7.1.1 Mthode

7.1.1.1 Population Vingt sujets ont particips lexprimentation rpartis en dix groupes de deux joueurs (dyade). La population est constitue pour lessentiel de jeunes stagiaires et chercheurs (doctorants et docteurs) sur le site de France Telecom R&D Lannion. La majorit des participants emploies frquemment (plusieurs fois par semaine) ou trs frquemment (tous les jours) un ordinateur. Sur les vingt participants, on trouve cinq femmes et quinze hommes, ce qui fait deux duos de femmes, un duo dhommes et de femmes et huit duos dhommes (Figure 83). Six de ces duos se connaissaient.

227

Lvaluation des avatars comportementaux dans les EVC

Figure 83 : Rpartition homme/femme au sein des groupes

7.1.1.2 Matriel Pour cette exprimentation, deux plateformes VIRSTORIA sont places deux endroits diffrents (non-visible et inaudible lune de lautre). Chaque plateforme dispose dun ordinateur contenant lapplication VIRSTORIA, dun cran, dune souris, dun micro et de deux haut-parleurs (Figure 84 - gauche) ou dun micro casque (Figure 84-droite).

Figure 84 : Photos du dispositif exprimental Salle 1 ( gauche) : 1 cran + 1 souris + 1 micro + 2 haut-parleurs Salle 2 ( droite) : 1 cran + 1 souris + 1 micro-casque

7.1.1.3 Procdure Un groupe de joueurs est compos de deux participants. Chaque participant est plac devant un poste de jeux VIRSTORIA dans une salle au calme. Avant de commencer le test, une premire phase de prise en main est ralise avec lexprimentateur pour familiariser les participants avec linterface. chaque lancement dune session de jeu dans VIRSTORIA, les utilisateurs passent par trois interfaces diffrentes :

228

valuations 1. une interface de configuration de la session de jeu : le crateur de la session de jeu choisi un nom de session et le nombre de participants ; 2. une interface pour configurer son avatar (Figure 85 - gauche) : une fois la session de jeu cre, chaque participant se connectant cette session indique en premier lieu le nom quil souhaite faire apparatre au dessus de lavatar le reprsentant dans lEVC. Il choisi ensuite un avatar homme ou femme et termine sa configuration en lui attribuant une couleur de vtement. Le systme est conu de telle manire que lavatar configur par lutilisateur est unique (en genre et en couleur) dans une session de jeu. Une fois les avatars de tous les participants configurs, le crateur de la session de jeu lance la partie en appuyant sur le bouton JOUER , et tous les participants entrent dans la salle de jeu. 3. la salle de jeu (Figure 85 - droite) : les participants prennent connaissances des cubes conte quils ont dans leur COFFRE (espace priv) et se lance dans la conception de lhistoire en plaant ses cubes conte (et dnouement ) de la zone COFFRE la zone MAIN. Dans la zone MAIN, il fait dfiler lensemble des faces illustres du cube. Lorsquune face convient lutilisateur, il dplace le cube de la zone MAIN la zone FILE en cliquant directement sur lemplacement souhait sur le fil de lhistoire (espace public tous les participants de la session de jeu). Une exprimentation nexcde pas 20 minutes.

Figure 85 : Interface VIRSTORIA Salle de Profil ( gauche) - Salle de Jeu ( droite)

229

Lvaluation des avatars comportementaux dans les EVC 7.1.1.4 Collecte des informations La collecte des informations dans une session de jeu se fait de faon automatique (Figure 86). La plateforme VIRSTORIA gnre un fichier de trace par utilisateur, mise jour continuellement en fonction des actions de ce dernier sur linterface et des ractions du systme (dplacement des cubes, BAYBE, avatars, etc.). la fin du test, un fichier de trace complet est sauvegard dans un endroit spcifique du disque dur du poste de lutilisateur. Chaque fichier de trace, contient : lidentifiant de lutilisateur (nom de lavatar) ; une chelle de temps ; ltat de lactivit de la session de jeu (prparation, narration, valuation) ; ltat de la narration suivant le modle de Bremond (initiale, perturbation, action, rsolution, finale) ; les actions de lutilisateur sur linterface ; la prise de parole dtecte et le mot reconnu ; le type de carte et son intitul (face du cube) manipul par lutilisateur; ltat du fil de lhistoire (taux doccupation par les cubes); le diagnostic de BAYBE (valuation des DAMPH) ; la dcision de BAYBE (choix des DAMPH) ; lanimation gestuelle excute par lavatar (le geste correspondant aux DAMPH). Un exemple de fichier de trace pour un utilisateur de VIRSTORIA est prsent en Annexe F.

230

valuations

Figure 86 : Schma du dispositif exprimental

Lors de lanalyse des donnes, les fichiers de trace des participants dune session de jeu sont fusionns et intgrs dans le logiciel Microsoft Excel, pour concevoir les mtriques ncessaires lanalyse statistique des gestes DAMP excuts par les avatars respectifs. 7.1.1.5 Le problme de ladressage Toute conversation se prsente, du point de vue formel, comme une succession de tours de parole . Ce terme dsigne d'abord le mcanisme d'alternance des prises de parole, puis, par mtonymie, la contribution verbale d'un locuteur un moment dtermin du droulement de l'interaction. Ce principe d'alternance est dfini par les thoriciens de l'analyse conversationnelle par le fait que, dans toute conversation, il y a changement de locuteur [Goodwin, 1982] [Sacks et al., 1974]. L'alternance des tours de parole est un 231

Lvaluation des avatars comportementaux dans les EVC systme de rgles et de normes, identifies, auxquelles sont soumis les participants. Toutefois ces rgles et normes ne doivent pas tre comprises comme un cadre rigide (toute rgle peut tre transgresse) mais plutt comme un ensemble de ressources dont les participants disposent pour grer toute interaction. C'est donc partir de la mise en uvre de ces ressources que les participants vont pouvoir prendre tour tour la parole, construire et ngocier leur discours. Dans le cadre d'une conversation non duelle, les participants sont plus particulirement confronts au problme de l'adressage de leur message. Si un locuteur parle, celui-ci peut s'adresser un destinataire en particulier (allocutaire) ou plusieurs. Il doit donc signifier cette adresse aux autres participants si elle n'est pas collective. Ces derniers doivent alors interprter qui est le destinataire principal de ces noncs ou qui peut simposer comme le locuteur suivant. L'allocutaire principal est en principe identifiable sur la base d'un certain nombre d'indices d'allocution produits par le locuteur. L'indice de direction du regard est fondamental. Selon Goffman [Goffman, 1987], l'auditeur dsign tant celui vers qui le locuteur dirige son attention visuelle . Coulthard [Coulthard, 1977] observe galement que le participant sur lequel se stabilise le regard du locuteur en fin de tour de parole est en principe intronis successeur privilgi. D'autres indices non verbaux relvent de la mimo-gestuelle, et de l'orientation du corps tel que les interacteurs dfinies par Lefebvre [lefebvre, 2008]. On a parfois des mouvements ostentatoires vers le destinataire, mais c'est surtout l'orientation du corps et la direction du regard qui dsignent ce dernier. La complexit de l'adressage en conversation tlphonique trois est due cette absence d'indices non verbaux et la seule ressource verbale. Dans VIRSTORIA le problme de ladressage cest confirm. plus de deux utilisateurs, les messages verbaux envoys par le locuteur un allocutaire spcifique ne pouvaient ce faire pour des raisons techniques. cet tat davancement de VIRSTORIA, nous ne disposions pas de systme pouvant dtecter la direction du regard du locuteur et interprter ainsi le ou les destinataires des messages verbaux. Pour cette raison, la collaboration plus de deux utilisateurs dans VIRSTORIA est difficile. Nous nous sommes donc limit une collaboration entre deux utilisateurs, car le locuteur sadresse toujours au mme allocutaire et inversement. Il faudra tenir compte de ce problme lors de linterprtation des rsultats de lvaluation.

232

valuations 7.1.2 Rsultats de lvaluation Chaque groupe de session a ralis une histoire commune dans VIRSTORIA. La distribution des rsultats relatifs aux gestes DAMP gnrs par les avatars est illustre sous forme de graphiques de secteur (Figure 87).

Figure 87 : Rpartition des gestes DAMP gnrs par les avatars dans chaque groupe

Le Tableau 15 rcapitule lensemble des rsultats analyss partir des fichiers de trace. Les dictiques. Lanalyse des rsultats montre que les gestes dictiques reprsentent 0,5 7,3 % (avec une moyenne de 4,2 %) des gestes DAMP excuts par les avatars. Ils sont essentiellement prsents dans la phase dvaluation de lhistoire et produits en moyenne quatre fois par session de jeu. Les adaptateurs. Les rsultats rvlent que les gestes adaptateurs reprsentent 72 91 % (avec une moyenne de 84,5 %) des gestes DAMP gnrs par les avatars. Ils ont t excuts en moyenne quinze fois par session de jeu et disperss de faon homogne dans toute la phase narrative de Bremond.

233

Lvaluation des avatars comportementaux dans les EVC Les mtaphoriques. Les gestes mtaphoriques reprsentent 0 5 % des gestes DAMP gnrs par les avatars (avec une moyenne de 3,2 %). Ils ont t excuts quatre fois en moyenne par session de jeu et sont exclusivement prsent dans la phase initiale et de perturbation du modle narratif de Bremond. Les ponctuateurs. Les gestes ponctuateurs reprsentent pour leur part 2,5 18 % des gestes DAMP gnrs par les avatars (avec une moyenne de 7,2 %). Ils ont t produits essentiellement dans la phase daction du modle narratif de Bremond et les avatars fminins en produisent plus que les avatars masculins. Modalits de parole Observations participants. - La phase de prparation dure en moyenne 2,35 minutes (17,2 % de la session de jeu). Phases dactivits - La phase de narration dure en moyenne 11,13 minutes (74,8 % de la session de jeu). - La phase dvaluation dure en moyenne 1,12 minute (8% de la session de jeu). - La situation initiale occupe en moyenne 18 % du fil de lhistoire. Phases de narration de Bremond - La situation de perturbation occupe en moyenne 35 % du fil de lhistoire. - La situation daction occupe en moyenne 30 % du fil de lhistoire. - La situation de rsolution occupe en moyenne 15 % du fil de lhistoire. - La situation finale occupe en moyenne 2 % du fil de lhistoire. - Reprsentent 4,2 % des gestes DAMP dans une session de jeu. Dictiques - Ils sont excuts 4 fois en moyenne par session de jeu. - Dans lactivit de narration, ils sont essentiellement prsents dans la phase de perturbation de Bremond (52 % des gestes dictiques). - Reprsentent 84,5 % des gestes DAMP dans une session de jeu. Adaptateurs - Dans lactivit de narration, ils sont rpartis de faon homogne dans toutes les phases narratives de Bremond. Mtaphoriques - Reprsentent 3,2 % des gestes DAMP. - Ils sont exclusivement prsent dans la phase initiale et de perturbation. - Reprsentent 7,2 % des gestes DAMP. Ponctuateurs - Ils sont essentiellement prsent dans la phase daction. - Les avatars fminins en produisent plus que les avatars masculins.
Tableau 15 : Rcapitulatif des rsultats

Reconnaissance - Le dispositif reconnait en moyenne 8 cartes conte prononcs par les

234

valuations 7.1.3 Conclusion Cette exprimentation nous a fourni des rsultats encourageants quant la lintelligibilit , lefficacit du module comportemental BAYBE. Les rsultats ont montrs que la proportion des gestes DAMP excuts par les avatars corresponde en gnral celle analyse lors de lexprimentation Il tait une fois . Les avatars de VIRSTORIA se comportent donc de la mme manire que les participants lexprimentation Il tait une fois , au niveau de la production des gestes de communication, de leurs frquences et de lendroit o ils sont raliss lors dune session collaborative.

7.2 Comparaison avec dautres dispositifs de collaboration


Lobjectif de cette tude est de comparer une situation mdiatise par des avatars comportementaux avec une situation non mdiatise par des avatars comportementaux quivalente. Le critre de satisfaction ou la condition de contrle tant la verbalisation. Nous envisageons deux cas de situations mdiatises, suivant la possibilit de reprsenter lutilisateur plus ou moins proches du contrle de lavatar : scnario avec des avatars fixes via lapplication VIRSTORY (Section 7.2.1) ; Il sagit de reprsenter les utilisateurs par des avatars fantaisistes et immobiles placs aux centre de la scne (Figure 88) ; scnario avec des avatars comportementaux via lapplication VIRSTORIA.

travers cette tude, on peut esprer deux types de rsultats : valuation de lutilit des avatars comportementaux capables de gnrer des gestes de faon autonomes par comparaison des avatars statiques ; valuation du niveau de collaboration entre les utilisateurs

(accomplissement de la tche principale, niveau dinteraction, difficult de communiquer, etc.). 7.2.1 VIRSTORY : Scnario avec des avatars statiques Cette tude a t ralise durant la thse de Liv Lefebvre [lefebvre, 2008]. Au cours de cette exprience, des dyades de participants avaient construire trois histoires conscutives de quinze minutes chacune dans lapplication VIRSTORY suivant trois 235

Comparaison avec dautres dispositifs de collaboration situations de communication mdiatises diffrentes : cte--cte, face--face et une condition audio seul ou les participants taient spars par une cloison (condition sans se voir ). La production des comportements DAMP+I (I pour les interacteurs : geste de la main et/ou de la tte qui ont pour fonction de rguler les tours de parole de montrer lautre son attention et son accords), ainsi que les gestes de manipulation ont t a nalyss et lobjectif principal tait de vrifier que la variation des situations de communication provoquait bien des changements de patterns dans la production non verbale et donc vrifier linfluence du fait de voir son partenaire durant les interactions et de partager son environnement avec lautre.

Figure 88 : Condition sans se voir

Dans le cadre de notre valuation, nous avons retenu uniquement la condition de communication sans se voir (Figure 88), car cest celle qui se rapproche le plus de la finalit de VIRSTORIA, la communication mdiatise distante. Les seules diffrences avec VIRSTORIA concernent lutilisation de la voie naturelle des utilisateurs comme canal verbal de communication, et lutilisation davatars statiques (voir Introduction Gnrale) pour reprsenter les utilisateurs distants dans VIRSTORY. 7.2.1.1 Participants Douze dyades unisexes ont participes cette tude. Cinq dyades de femmes et sept dyades dhommes. Les participants avaient en moyenne vingt-cinq ans (min=21 ; max=28). Ils avaient tous un niveau bac+5. Dans ces douze dyades, six dyades ce connaissaient (quatre fminines et deux masculines) avant de raliser lexprience et les six autres dyades ne se connaissaient pas (une fminine et deux masculins). Les participants taient recruts parmi les stagiaires de France Telecom R&D. Trente dentre eux estimaient avoir un bon niveau en informatique, dix un niveau moyen et deux un niveau faible.

236

valuations 7.2.2 Rsultats Le graphique ci-dessous prsente la rpartition des diffrents comportements tudis selon le pourcentage de production et le dispositif de collaboration.

Figure 89 : Comparaison de la proportion des gestes DAMP suivant le dispositif de collaboration (VIRSTORY ; VIRSTORIA ; Il tait une fois )

On constate, que la collaboration travers VIRSTORIA se rapproche de la collaboration relle ralise lors de lexprimentation Il tait une fois au niveau de la production des gestes DAMP, notamment pour les dictiques adaptateurs et le ponctuateurs. Remarque : Il faut tenir compte du fait que les diffrentes exprimentations qui ont servit cette valuation, non pas t ralises pour les mmes objectifs. Les sujets dvaluations ne sont les mmes dune exprience lautre ; le codage des gestes na pas t ralise avec les mme personnes (naf et/ou expert) et avec les mmes applications (ANVIL pour VIRSTORIA et Il tait une fois , ANALIDEO pour VIRSTORY) ; des problmes techniques on t rencontrs lors de lexprimentation sans se voir (mauvais fonctionnement des crans tactiles). Lensemble de ces remarques nous amnent penser quil faut tre prudent sur les rsultats prcdents et quune exprimentation ddie lvaluation des dispositifs de collaboration doit tre mene part entire. Cela fera lobjet de futures tudes.

237

Discussions

7.3 Discussions
Dans ce chapitre, nous avons explor lintrt de lusage dun modle comportemental dans la gestion de la communication interpersonnel travers des environnements virtuels. Ce travail dvaluation objective nous a permis de mettre en vidence lintrt de notre module comportemental BAYBE pour grer le comportement non verbal des utilisateurs des EVC. tant donn le temps dintgration des technologies ncessaires pour dvelopper le module comportemental BAYBE, nous nous ne sommes pas en mesure de donner des rsultats dvaluations complets de notre modle. Une dmarche dvaluations subjectives trs approfondies de VIRSTORIA est nanmoins prvue au sein de France Telecom R&D avec une quipe dergonomes. Beaucoup reste encore faire dans le domaine de lexpressivit comportemental des avatars.

238

Conclusion gnrale
Approche et contribution
Ce travail sinscrit dans le cadre gnral des tudes sur les Environnements Virtuels Collaboratifs et plus particulirement dans celui des Environnements Virtuels Informs, centrs sur la reprsentation des utilisateurs. Lobjectif est de proposer des solutions techniques aux problmes de communication interpersonnelle pour ces environnements et notamment la perception du comportement non verbal. Un tat de lart nous a permis de mettre en vidence les limites des outils collaboratifs synchrones actuels en terme de communication non verbale et danalyser lapport potentiel de la ralit virtuelle et de lingnierie des connaissances dans les situations non immersives. partir de ce constat, une rflexion a t mene afin de proposer un modle de comportement non verbal gnrique tout type dactivit de groupe. Il sappuie notamment sur lhypothse de lavatar 3D comme vecteur de communication pertinent pour les EVC non immersifs et prend en compte la gestuelle de lutilisateur. Le comportement de lHumain en situation de communication nest pas dterministe. Les donnes que lon peut acqurir en lobservant, sont donc incertaines. Par ailleurs, les observations ralises aux moyens de technologies mme trs performantes restent incompltes. Nous proposons lamlioration de la collaboration entre les utilisateurs par une approche probabiliste du comportement non verbal en utilisant un rseau baysien dynamique. Ce rseau baysien volue dans le temps en fonction de lactivit de lutilisateur.

239

Conclusion gnrale Notre contribution consiste en : une catgorisation du geste pour la conception collaborative (raconter une histoire plusieurs); une modlisation du comportement non verbal partir dun corpus de donnes ; la conception du module comportemental BAYBE dans la plate VIRSTORIA (Orange Labs) ; lvaluation de ce module au travers dexprimentations.

Lanalyse des rsultats montre que la proportion des gestes DAMP raliss par le module comportemental BAYBE correspond de faon significative la proportion des gestes effectus par les utilisateurs dans la ralit.

Limites
La premire difficult laquelle nous avons t confronts est le problme de ladressage. Si un locuteur parle, celui-ci sadresse un destinataire particulier (allocutaire) ou plusieurs destinataires. Lallocutaire principal doit donc interprter des indices non verbaux tels que les regards du locuteur pour savoir quil est le destinataire des messages de ce dernier. ce stade du dveloppement de la plateforme VIRSTORIA, nous ne disposons pas de moyens techniques pour diffrencier le destinataire des messages verbaux envoys par le locuteur. Nous avons donc limit lutilisation de la plateforme VIRSTORIA deux utilisateurs maximum, car le destinataire des messages envoys par le locuteur est toujours le mme (en supposant quil nexiste pas de commande vocale de linterface). Pour rsoudre le problme de ladressage, une proposition dindentification de lallocutaire est prsente dans la partie perspectives Le module comportemental BAYBE a t conu dans le cadre trs applicatif du storytelling interactif. Il est possible de rendre BAYBE plus gnrique en gnralisant le modle de tche dans la modlisation du comportement non verbal. Dans ce cas, il devient moins prcis car il dispose de moins de connaissances pour raliser des dcisions. Nous avons donc prendre en compte un compromis entre gnricit et spcialisation.

240

Conclusion gnrale

Perspectives
Plusieurs perspectives nous paraissent intressantes explorer. Une des premires perspectives est lamlioration du modle comportemental. En effet, ce modle sappuie sur des thories issues du domaine de la psychologie et intgre plusieurs notions thoriques abordes dans la littrature quil est intressant de formaliser avec laide dexpert du mtier pour proposer un modle analytique gnrique qui peut tre implment chez des avatars autonomes. Dans nos travaux, nous nous sommes concentrs uniquement sur la modlisation du comportement du point de vue du geste pour les avatars dans les EVC. Or, dans la communication non verbale, dautres critres de catgorisation davatars comportementaux peuvent tres pris en considration, notamment les expressions faciales et les regards. Ces indices non verbaux peuvent faire lobjet dune intgration dans le module comportemental BAYBE. Ce travail a commenc tre effectu aprs une phase de modlisation en partie ralise sur lexprimentation Il tait une fois . Nous avons prcdemment soulign le problme de ladressage, qui limite lutilisation de VIRSTORIA deux utilisateurs au maximum. la fin de mon travail de thse un dispositif de dtection de la direction des regards en temps rel t conu au sein du laboratoire TECH/EASY de France Telecom R&D [Machrouh et al., 2006]. Ce dispositif utilise une simple webcam et la technique des rseaux de neurones. Intgr dans VIRSTORIA, il permettra de reconnaitre en temps rel les destinataires des messages verbaux envoy par le locuteur, ceux ci observant lavatar qui ils sadressent. Nous avons utilis une approche heuristique simple pour raliser le processus dcisionnel dans BAYBE. Nous pouvons galement utiliser des heuristiques de dcision plus sophistiques pour lesquelles on adjoint ltat de connaissance probabiliste des f onctions dutilit. Ces fonctions reprsentent, sous forme de contraintes, lintrt ou le danger dune dcision particulire. Pour de telles heuristiques, choisir une valeur particulire se ramne rsoudre un problme doptimisation sous contraintes. Plusieurs supports de communication et dinteraction exploitent des modles comportementaux pour humaniser les IHM. ce titre, le module comportemental BAYBE sera utilis dans le projet OSE (Projet Rgion Picardie) concernant la conception dun Environnement Virtuel Inform pour la formation la navigation fluviale. Ce travail est dores et dj planifi dans le cadre dune thse de doctorat en cours de prparation dans lquipe ICI du laboratoire HEUDIASYC. 241

Annexes
Annexes Descriptions A B C D E F G Les EVC par secteur dactivit Exemple de transcription audio dans ANVIL Notions de probabilits Algorithme dEstimation et Maximisation (EM) Grammaire utilise pour la reconnaissance de parole Exemple de fichier de trace dans VIRSTORIA Exemples de gestes dans VIRSTORIA Pages 245 249 253 257 259 265 269

243

Handipoints

Kiwi Heroes Chobots DIVE

Coaches Centre

Twinity

Amazing Wor Near

Jumpstart

NuNu

Grockit MinyanLand Whyville Medikidz Audrees world GoSupermodel Stardoll

BlueMars 2150

Ecobuddies

Education Formation

Ekoloko All Star Babies WoogiWorld Garden Buddy

C3L3B

30 ans + Cybertown

ANNEXE

Girl Ambition Lolas Land

Les EVC par secteur dactivit [KZERO, 2009]


Frenzoo RoiWorld Girl Sense Digital Dollhouse 20 ans + Zwinky Precious Girls Club Worlds (DMC) vLES Revnjenz Webcarzz Freaky Creatures RideMakers 10 ans + HipHops VW Planet Cazmo Franktown Rocks Barbie Girls

Black Manba

Cha of C 8D

Free Real

PodPops Lego Buildabearville

Mode Style de vie


Disparu En ligne En dveloppement

Club Po Saddle club

Webkinz

Hot Wheeles ActionJetz

Musique

Cration de contenu

Hello kitty

Ty-girls/ Beanie Babies

Jeu
Konstruction Zone Xivio VizWoz Lives2Play Taatu SL Teen Grid Smallworlds Metaplace Freggers Freakatars

TV/Film/ Livre

Pixie Hollow Roblox Zula Cars

My Mi

WeeWorld Muxlim IMVU

Chugginton Mini-Match Spicy Town

M sMeet

Nicktropolis Bunnytown

Cybertown There Kaneva

Yogg

Activeworlds vMTV

Mycosm

Vivaty

Twinne Omnidate iheartland

Multiverse

Sports

Planet Soccer Live NFL Rushzone Action Allstars Galactick Football TechDeck Live Sportsblox Football Superstars Empire of Sports Interzone 10 ans + WilliNilli Handipoints KooDooz Kiwi Heroes Chobots Jumpstart NuNu DIVE Coaches Centre 20 ans + 30 ans +

HiPiHi Lively Second Life

Vector City Racers UpperDeck U

30

Twinity

Grockit MinyanLand Whyville Medikidz Audrees world GoSupermodel Stardoll

BlueMars

Ecobuddies

Education Formation

Ekoloko All Star Babies WoogiWorld Garden Buddy

C3L3B

30 ans +

Cyb

Frenzoo

Black Manba

Girl Ambition Lolas Land

245 Girl Sense

RoiWorld 20 ans + Worlds (DMC) vLES Revnjenz Webcarzz Freaky Creatures

Digital Dollhouse

Zwinky Precious Girls Club

HipHops VW

Planet Cazmo

Barbie Gi

Cration de Cars Chugginton contenu Mini-Match


Spicy Town Nicktropolis Bunnytown

Zula

Taatu SL Teen Grid Smallworlds Metaplace Freggers Cybertown


Konstruction Zone Xivio

Freakatars

WeeWorld Muxlim IMVU

Rse

Me sMeet

Onv

TV/Film/ Livre

Annexe A

Activeworlds
Pixie Hollow Zula Cars

vMTV
SL Teen Grid

Roblox

VizWoz Mycosm Lives2Play

There Kaneva Vivaty


My Mini Life

Yoggu

Twinners

Freakatars Omnidate SuperSecret Multiverse Taatu iheartland WeeWorld Habbo Smallworlds HiPiHi Freggers Muxlim Meez sMeet Onverse Zoopri

Sports

Planet Soccer Live Action Allstars

Chugginton Mini-Match Spicy Town

NFL Rushzone
Bunnytown

Metaplace Cybertown

Lively IMVU

Papermin

Galactick Nicktropolis Football

Vector City Racers UpperDeck U

TechDeck Live

Sportsblox
Activeworlds

Football Superstars
vMTV

Second Life There Yoggurt Kaneva Vivaty Mycosm Twinners


Omnidate iheartland

Club Pe

Ourspar

Empire of Sports Interzone

Multiverse

Sports

Planet Soccer Live Action Allstars

10 ans +

NFL Rushzone

20 ans +

30 ans +

HiPiHi Lively Second Life

30 a

WilliNilli

KooDooz
Galactick Football TechDeck Live

VectorHandipoints City Racers UpperDeck U

Kiwi Heroes

Sportsblox

Coaches Centre

Twinity SceneCaste
Qwaq Vastpark

Chobots

Jumpstart

NuNu
10 ans +

DIVE Grockit Empire of Sports MinyanLand


Interzone

Football Superstars

Ecobuddies

Whyville
20 ans + 30 ans + 30 ans +

BlueMars 2 Erepu 30 ans +


Twinity

Education Formation
Education Formation

Ekoloko KooDooz Medikidz WilliNilli All Star Babies Kiwi Heroes WoogiWorld Handipoints Audrees world Garden Buddy
Chobots Jumpstart NuNu

C3L3B
Coaches Centre

Geosim

Amazing Worl Near

Cybe

DIVE Grockit MinyanLand GoSupermodel Whyville

Frenzoo

Black Manba

Ecobuddies Ekoloko All Star Babies WoogiWorld Garden Buddy

Stardoll
30 ans +

BlueMars 2150

RoiWorld Medikidz C3L3B Girl Sense Lolas Audrees Land Digital Dollhouse world
GoSupermodel Stardoll Girl Ambition

Girl Ambition

20 ans + Worlds (DMC) vLES

Cybertown

Zwinky

Frenzoo

Black Manba

Precious Girls Club

HipHops VW

Revnjenz Webcarzz Freaky Creatures RideMakers 10 ans +


8D

Cham of P C

Mode Style de vie


Disparu Style de En ligne En dveloppement
Disparu En ligne En dveloppement

Lolas Land

RoiWorld Girl Sense Digital Dollhouse

20 ans + Planet Cazmo

Barbie Girl

Zwinky Precious Girls Club

Franktown Worlds (DMC) Rocks

Free Realm

vLES

HipHops VW

Saddle club
PodPops

Revnjenz Webcarzz Freaky Creatures RideMakers 10 ans +

Mode vie

Planet Cazmo Franktown Rocks

Webkinz Action Hello Barbie Girls Lego kitty Ty-girls/ Club Pon Beanie Babies Saddle club Buildabearville
ActionJetz Ty-girls/ Beanie Babies

Webkinz

Hot Wheeles

Musique
Musique

Hello kitty

Jeu

246

NuNu Ecobuddies

Min

Education Formation
Annexe A

Ekoloko All Star Babies WoogiWorld Garden Buddy

Girl Am

Lolas La

Mode Style de vie


Disparu En ligne En dveloppement

Rseaux sociaux Chat


Konstruction Zone VizWoz Lives2Play Taatu SL Teen Grid Smallworlds Metaplace Freggers IMVU Onverse There Kaneva Vivaty Omnidate iheartland Yoggurt Twinners Club Penguin Ourworld Ourspark Whirled Elf Island HiPiHi Lively Second Life Home SceneCaster Qwaq Vastpark Erepublik 20 ans + NASA Club Cooee Yoowalk Weblin Rocketon 10 ans + Muxilm Poptropica Freakatars WeeWorld Muxlim Xivio

My Mini Life SuperSecret Habbo

Roblox

Chapatiz ZooKazoo WowzieWorld Neopets Zoopri Papermint Seapals

Jeux ludiques
Tootsville

Meez sMeet

Cybertown

Activeworlds

Mycosm

Multiverse

Divers

f Sports

30 ans +

30 ans + Geosim Twinity

aches entre

Amazing Worlds Near

BlueMars 2150

L3B

30 ans + Cybertown World Of Warcraft Gaia Black Manba Dizzywood Chamber of Chat SpineWorld 8D 20 ans + Worlds (DMC) Free Realms vLES Revnjenz Webcarzz Freaky Creatures PodPops Lego Moshi Monsters FusionFall Robot Galaxy Barbie Girls Webosaurs Dofus 247

Monde Mirroir

rld

HipHops VW

Planet Cazmo

Roblox

VizWoz Lives2Play Taatu Freakatars

My Mini Life SuperSecret Habbo

Chapatiz ZooKazoo WowzieWorld Neopets Zoopri Papermint Seapals Club Penguin Ourworld Poptropica

Jeux ludiques
Tootsville

n Grid Smallworlds Metaplace Freggers IMVU

WeeWorld Muxlim

Meez sMeet Onverse

Annexe A

Activeworlds

Mycosm

There Kaneva Vivaty Omnidate iheartland

Yoggurt Twinners

Ourspark Whirled Elf Island

TV/Film/ Livre

Pix

Multiverse

Chugginton Mini-Mat

HiPiHi Lively Second Life Home SceneCaster Qwaq Vastpark Erepublik 20 ans + NASA Club Cooee Yoowalk Weblin Rocketon 10 ans + Muxilm

Divers

Spicy Town Bunnytown

Sports

Planet Soccer Live Action Allstars

NFL Ru

30 ans + Geosim Twinity

Galactick

Vector City Racers UpperDeck U

TechDeck Liv

Amazing Worlds Near

BlueMars 2150

30 ans + Cybertown World Of Warcraft Gaia Black Manba Dizzywood Chamber of Chat SpineWorld 8D 20 ans + Free Realms vLES Revnjenz Webcarzz Freaky Creatures RideMakers 10 ans + PodPops Lego Club Pony Pals Saddle club Webkinz Hello kitty ActionJetz Ty-girls/ Beanie Babies Buildabearville Hot Wheeles Moshi Monsters FusionFall Robot Galaxy Barbie Girls Webosaurs Dofus

Monde Mirroir
Jumpstart

10 ans + KooDooz

WilliNilli

Handipoints

Kiwi Heroes Chobots

NuNu

MinyanLan

Ecobuddies

Whyville

Education Formation

Ekoloko All Star Babies WoogiWorld Garden Buddy

Medikid

Au

s (DMC)

Go

HipHops VW

Girl Ambition Lolas Land

anet Cazmo

Jeux de rle
Mode Style de vie

Zwin

Jeux vido

Disparu En ligne En dveloppement

248

ANNEXE

B
Fin (s) 0,76 2,08 2,88 6,24 2,08 3,08 4,36 9,56 21,44

Exemple de transcription audio dans ANVIL

Cette annexe prsente un exemple dchanges verbaux entre les participants une session de jeu de lexprimentation il tait une fois . Phase dactivit

Sujets

Dbut(s)

noncs verbaux

Sujet1 Sujet3 Sujet1 Sujet1 Sujet3 Sujet1 Sujet1 Sujet1 Sujet3 Sujet3 Sujet1 Sujet1 Sujet3

19,28 21,72 25,40 28,32 30,04 35,12 36,48 38,48 41,04

31,00 33,84 36,24 37,52 40,80 44,84

Sujet2 Sujet3 Sujet1

69,48 71,12 73,16

71,12 74,48 75,48

Narration

Sujet1

46,28

69,08

Prparation

23,76 26,52

ctait moi qui devais commencer non, cest a ? non, cest moi qui commence, j crois ah, cest toi daccord hm, hm, hm, alors Bon, alors a commence bien, jai pas de personnages donc Ah oui, cest vrai. Oui, cest embtant a ptite question ! ) Ben, j sais pas. Est-ce quon est oblig de commencer par un personnage, (cest pas sr en fait) non, j crois pas), jai un objet, enfin un sort. J sais pas si je vais pouvoir faire grand chose avec a. Alors ben, on va partir dun lieu ! Alors ben, on va partir dun lieu oui, on va partir dun lieu, oui hm, hm, (se racle la gorge), comme a on va essayer de prendre la main assez vite Voil, on va, on va partir. Alors il tait une fois. Nous sommes dans un royaume Dans ce royaume, une reineune reineeuh (se gratte oreille) une reine avait pour compagnon un loup. Cette reine et ce loupet bien ma foi euh. Vivaient.euh, en total harmonie euh est-ce quil faut quon fasse le tour comme a, (ou nimporte qui peut intervenir euh) je sais pas en fait), je pense que nimporte qui peut intervenir 249

Annexe B Sujet3 Sujet1 Sujet1 Sujet2 Sujet2 Sujet1 Sujet1 Sujet1 Sujet3 Sujet3 Sujet2 Sujet1 Sujet1 Sujet1 Sujet2 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 75,36 76,36 77,64 80,96 85,52 85,96 89,24 97,24 102,00 106,76 108,20 114,80 122,24 131,96 132,56 146,16 149,48 151,28 154,68 155,00 156,40 157,04 160,12 174,12 174,84 188,28 188,96 195,00 203,04 76,24 76,84 80,00 84,88 88,60 86,20 91,36 99,64 103,96 107,20 113,88 119,44 129,84 132,56 143,56 149,00 151,28 154,00 155,00 156,16 156,88 158,04 172,40 174,80 187,96 188,88 194,60 199,60 205,04 nimporte qui peut intervenir Ya plus les rgles je pense que nimporte qui peut euh, ce loup en fait tait une personne qui avait t maudite Et en fait il avait subit une transformation daccord daccord, bien, bien jou cette transformation avait eu lieu dans une grotte cette grotte tait dans la montagne euh pendant un certain temps, la personne qui avait t transforme en loup avait t perdue de vue daccord (petit bruit avec la bouche) hmm, hmm cette personne, transforme en loup habitait un petit village, un petit village (rflchit) lointain jy croyait pas ce petit village en fait tait bord par une fort, euh.et en faite, cette personne habitait dans une toute petite chaumire la lisire de cette fort. bon, daccord. Bon dj, jai une ide pour la fin de lhistoire bon, daccord. Bon dj, jai une ide pour la fin de lhistoire parce que jai comme dnouement : cette histoire est lorigine du nom du royaume daccord et jai commenc par un royaume bien jou et j lavais fait exprs en fait euh, donc il y avait une petit chaumire (pause), et euh, lintrieur vivait une sorcire, une sorcire qui aimait bien empoisonner les gens quelle naimait pas daccord Voil, donc le village entier tait effray par cette sorcire et euh. Lele co comment dire, le chef du village a du coup dcider de lenvoyer en-prison hmm, daccord seulement comme elle a pas t contente, et bien euh, elle lui a envoy.. elle lui a jet un sort qui la transform en loup bien jou. (petit bruit avec langue). Jsuis coinc l ! Quest-ce que cest comme cartes chanceux ?

250

Annexe B Sujet2 Sujet1 Sujet3 Sujet1 Sujet2 Sujet3 Sujet1 Sujet3 Sujet1 Sujet2 Sujet2 Sujet3 Sujet1 Sujet1 Sujet3 Sujet2 Sujet3 Sujet2 Sujet1 Sujet2 Sujet1 Sujet3 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 Sujet1 205,04 206,52 208,20 208,72 210,52 210,92 211,64 212,36 213,04 230,16 236,16 245,44 249,68 254,28 255,76 256,40 256,96 258,08 260,36 264,52 265,32 269,96 291,48 293,40 297,00 298,84 299,60 301,56 303,20 305,04 206,16 208,40 208,72 209,72 210,92 212,16 212,88 212,88 226,92 231,28 244,08 249,24 250,56 255,76 256,40 256,68 260,28 258,56 264,88 265,24 269,72 271,72 292,96 296,76 297,60 300,72 300,72 302,40 305,04 305,52 chanceux ouais chanc chanceux. Alors l, cest pas facile, cest clair que Et toi, cest quoi ? drob drobe, ouis, ouais euh (oh attends, il est, il est en prison) (ouais remarque y a moyens) voi, il est en prison Il est en prison, donc elle a jet un sort au chef du village et la transform en loup ( petit bruit de langue) , ce loup..ayant drob la cl de la prison sest enfuit tout jamais euh euh () euh, (pendant des annes), il disparut sans se faire retrouver justement par cette mchante sorcire, donc on peut dire quil a t chanceux quoi et cette histoire est lorigine du nom du royaume qui sappelle le royaume du loup daccord mffll, mffll mais l, il faut quon ait yen a il faut quon en ait quune sur les six parce quil y a une erreur dans les petites feuilles la ouais, apparemment Ah, jai pas vraiment ... fait attention... oui ben, j pense parce quon peut pas les utiliser toutes, cest pas possible. Enfin j pense pas ; Ben, non parce que ouais hmm, pfffs, j pense quon a finit hein ? mais par contre euh. on a t assez rapide ... il vivait dans une grotte, on avait dit aprs, [rcapitule] Ah oui, trs juste, ouais. Il vivaient dans une grotte () prs dune montagne,*rcapitule+ Prs dune montagne, *rcapitule+ euh perdu de vue, j crois plus ou moins ouais, peut tre bien ouais il habite dans un village lointain ou un truc comme a au dpart ? ouais, peut tre bien ouais 251

Annexe B Sujet3 Sujet1 Sujet3 Sujet1 Sujet1 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 Sujet1 Sujet3 Sujet1 Sujet1 Sujet1 Sujet1 Sujet1 305,76 306,84 309,64 311,36 313,08 314,28 315,36 316,20 317,48 323,80 324,28 326,28 327,96 337,80 338,20 341,84 342,24 343,24 345,40 350,64 351,28 352,28 353,20 353,80 358,36 360,80 366,12 306,84 309,64 312,80 311,60 313,36 315,36 316,20 317,48 323,80 324,88 325,84 327,88 337,80 338,48 341,56 342,24 344,32 345,04 349,68 351,28 352,76 353,20 353,56 357,52 valuation 359,00 361,52 366,40 avec une fort, une chaumire daccord. donc ce y avait une mchante sorcire, si j me souviens qui aimait bien empoisonner les gens ouai voila et (qui effrayait) qui effrayait donc on la foutu en taule il a jet un sort au chef du village qui est devenu le loup donc et euh. il a drob la cl le loup a drob la cl de la prison bon, il tait pas en prison le loup mais cest pas grave cest pas grave, il la drob, ctait important pour lui. Pour que jamais plus personne (rire) ne subisse c quil avait subit. Non en fait ceci dit le loup non, cest la sorcire qui est en prison qui a jet un sort ; ouais au chef du village qui devient loup et le chef du village a drob la cl pour pas quelle sorte de faon ( ce quelle ne sorte jamais Ah daccord, bien jou ! Voil, et ben voil, il a eu la chance de rencontrer finalement (une princesse) une princesse. Une reine mme une reine carrment une reine et donc euh, cette histoire est lorigine du nom du royaume ! pas mal ! bon, vous en avez dautres ? cest rigolo

252

ANNEXE

C
somme

Notions de probabilits

C.1 Rappels de probabilits Soient un espace dobservables et une tribu dvnements sur .( , ) est

un espace probabilisable. Dfinition C.1.1 (probabilit) Une application probabilisable ( , ) si elle vrifie les axiomes suivants : Pour toute suite dnombrable ( deux deux disjoints, la srie . ) dvnements de qui sont pour est dite probabilit sur lespace

converge et a

( , ) est alors appel espace probabilis. Dfinition C.1.2 (variable alatoire) Nous appelons variable alatoire , toute fonction dun espace probabilisable ( , ) vers un autre ( , ) telle que pour tout vnement de , son image rciproque par soit un vnement de . Par la suite, toutes les dfinitions et thormes qui seront noncs le seront partir de variables alatoires, mais il est bien vident que des noncs analogues existent avec des vnements. Soient la variable alatoire
63.

des variables alatoires dfinies sur leurs tribus et . Soit de ( , ) vers le produit cartsien

dvnements respectives (non nommes ici) et valeurs dans

Lensemble forme lvnement que nous noterons ou encore ou encore simplement pour raccourcir les notations et lorsque le contexte est clair. Nous utiliserons des notations similaires pour et .

63

Typiquement, si lun des est un ensemble non dnombrable de nous prendrons la tribu borlienne pour , sinon, lorsque tous les sont dnombrables nous prendrons .

253

Annexe C Dfinition C.1.3 (probabilit conditionnelle) Soit telle que nous appelons probabilit conditionnelle la fonction qui alors associe64

Proposition C.1.1 nen sont pas. De plus, si pour tout noterons :

est une probabilit, mais

et

alors la dfinition prcdente existe toujours et nous

Dfinition C.1.4 (loi jointe) Nous appellerons loi jointe de lensemble de variables alatoires , la fonction n-aire suivante :

Cette loi jointe est alors une distribution de probabilit sur Thorme C.1.2 (Thorme de Bayes gnralis)

pour tout vnement Proprit C.1.3 (marginalisation) Nous avons . Par

gnralisation pour tout

, et par abus de langage, nous noterons souvent

Dfinition C.1.5 (Esprance, variance, cart-type) Nous appellerons esprance de la variable X, la valeur sa variance, la valeur et son cart-type, le nombre C.2 Indpendance conditionnelle La base du processus de reprsentation de la connaissance dans les rseaux baysiens rside dans les notions de probabilit conditionnelle et dindpendance conditionnelle.
64

Il est galement possible de rencontrer les notations suivantes mais, par la suite, nous nous conformerons aux notations introduites tant

quil ny a aucune ambigut.

254

Annexe C Dfinition C.2.1 (indpendance) Deux variables alatoires et sont dites (marginalement) indpendantes (not ) si le fait que se ralise ne donne pas dinformation sur et rciproquement. On a donc . Dans ce cas, la loi jointe de et vaut et , . et sont indpendantes est

Proposition C.2.1 Quelles que soient les fonctions quivalente .

Dfinition C.2.2 (Corrlation) Deux variables alatoires X et Y sont dites corrles si

Deux variables alatoires indpendantes sont non-corrles, mais la rciproque est fausse. Dfinition C.2.3 (indpendance conditionnelle) Soient trois variables alatoires , Alors est dite indpendante conditionnellement (not ) si et .

pour les valeurs de

et telles que et

. telles que

Thorme C.2.2 (formule dinversion de Bayes) Pour toutes valeurs de , nous avons

En effet, car

. sans se soucier

Ce type de condition sera not par la suite des valeurs de probabilits ventuellement nulles.

255

ANNEXE

Algorithme dEstimation et Maximisation (EM)

Lalgorithme EM est la base de beaucoup dentrainements statiques faisant intervenir des variables manquantes. Par exemple, les variables manquantes pourraient reprsenter la classe de observes et associ chaque observations . On note les variables les variables manquantes. Cet algorithme va maximiser, de faon itrative, de lensemble des

dans lespace des paramtres , la fonction de vraisemblance (critre de maximum de vraisemblance), c'est--dire la densit de probabilit observations conditionn sur lensemble des paramtres . , et le but

Formellement, lalgorithme EM spcifie une distribution jointe est de trouver lensemble des paramtres maximis :

tel que le logarithme de la vraisemblance soit

o la somme sur

reprsente lintgration sur toutes les variables caches

possibles (et supposes exhaustives et mutuellement exclusives). Sous lhypothse de variables indpendantes et identiquement distribues, on obtient :

Pendant ltape destimation, on value la distribution posteriori des variables caches en utilisant les anciennes valeurs des paramtres litration :

257

Annexe D On dfinit alors la fonction auxiliaire dentranement : comme tant lesprance mathmatique du

logarithme de la vraisemblance jointe sur lensemble complet des variables

On montre (convergence) que maximiser cette fonction est bien quivalent maximiser la vraisemblance des donnes observes. Dans ltape de maximisation, on recherche laide de mthodes habituelles doptimisation de fonction statistiques, lensemble des paramtres utiliser litration tel que :

258

ANNEXE

Grammaire utilise pour la reconnaissance de parole

Cette annexe prsente la grammaire utilise par la reconnaissance de parole dans VIRSTORIA. Les classes de mots sont dfinies avec des underscores , le signe + dfinit une relation OU et les signes . une relation ET entre les mots. ! ! Fichier de specification d'un modele cree automatiquement ! a partir du fichier /users/delphili/orogestuel/carte_lex.dat ! !=============================================================== ! ! Description de la syntaxe. ! Syntaxe { ! ! Liste des elements terminaux : mots, silences, .... ! Elements Terminaux { ! "Interruption" ; "Personnage" ; "Aspect" ; "Objet" ; "Lieu" ; "Evnement" ; "Orphelin" ; "Gant" ; "Empoisonn" ; "pe" ; "Prison" ; "Combat" ; "Monstre" ; "Sorcire " ; "Perdu de vue" ; "Trsor" ; "Montagne" ; "Rvlation" ; "Cheval" ; "Fe" ; "Drob" ; "Sort" ; "En mer" ; "Le temps s'coule" ; "Grenouille" ; "Cuisinier" ; "Heureux" ; "Porte" ; "Fort" ; "Dcs" ; "Mari" ; "Femme" ; "Bergre" ; "Secret" ; "Grimoire" ; "Ile" ; "Rencontre" ; "Fou" ; "Vieil homme " ; "Chanceux" ; "Fentre" ; "Tour" ; "Fuite" ; "Objet parlant" ; "Vieille femme" ; "Lointain" ; "Feu" ; "Route" ; "Quelqu'un est bless" ; "Aveugle" ; "Mendiant" ; "Laid" ; "Couronne" ; "Grotte" ; "Un objet se casse" ; "Idiot" ; "Voleur" ; "Empli de sagesse" ; "Bateau" ; "Nuit" ; "Un coup de foudre" ; "mauvais" ; "Oiseau" ; "Effray" ; "Anneau" ; "Chaumire" ; "Une poursuite" ; "Cl" ; "loup " ; "Cach" ; "Hache" ; "Rivire" ; "Une sparation" ; "Prsent" ; "Roi" ; "Force de la nature" ; "De la nourriture" ; "Ruine" ; "Une transformation" ; "arbre" ; "Reine " ; "Perdu" ; "Royaume" ; "Un pige" ; "Chapelle" ; "Prince " ; "Splendide" ; "Palais" ; "Un sauvetage" ; "Cuisine" ; "Princesse " ; "Maudit" ; "Ville" ; "Une dispute" ; "Maison" ; "Enfant " ; "Endormi" ; "village" ; "Un voyage" ; "escaliers" ; "Parents" ; "Animal parlant" ; "Plan" ; "Frre" ; "Soeur " ; "Ceci sait voler" ; "Epreuve" ; "Martre" ; "Dguis" ; "Rve" ; "Ennemi" ; "Minuscule" ; "orage" ; 259

Annexe E ! } #define SILDEB "_Sildeb_" #define SILFIN "_Silfin_" #define PAUSE "_Pause_" #define IGNORE "_Rejet4$_" ! ! Definition des ensembles de mots. ! Elements Non_Terminaux { ! _Vocabulaire_ = "Interruption" + "Personnage" + "Aspect" + "Objet" + "Lieu" + "Evnement" + "Orphelin" + "Gant" + "Empoisonn" + "pe" + "Prison" + "Combat" + "Monstre" + "Sorcire " + "Perdu de vue" + "Trsor" + "Montagne" + "Rvlation" + "Cheval" + "Fe" + "Drob" + "Sort" + "En mer" + "Le temps s'coule" + "Grenouille" + "Cuisinier" + "Heureux" + "Porte" + "Fort" + "Dcs" + "Mari" + "Femme" + "Bergre" + "Secret" + "Grimoire" + "Ile" + "Rencontre" + "Fou" + "Vieil homme " + "Chanceux" + "Fentre" + "Tour" + "Fuite" + "Objet parlant" + "Vieille femme" + "Lointain" + "Feu" + "Route" + "Quelqu'un est bless" + "Aveugle" + "Mendiant" + "Laid" + "Couronne" + "Grotte" + "Un objet se casse" + "Idiot" + "Voleur" + "Empli de sagesse" + "Bateau" + "Nuit" + "Un coup de foudre" + "mauvais" + "Oiseau" + "Effray" + "Anneau" + "Chaumire" + "Une poursuite" + "Cl" + "loup " + "Cach" + "Hache" + "Rivire" + "Une sparation" + "Prsent" + "Roi" + "Force de la nature" + "De la nourriture" + "Ruine" + "Une transformation" + "arbre" + "Reine " + "Perdu" + "Royaume" + "Un pige" + "Chapelle" + "Prince " + "Splendide" + "Palais" + "Un sauvetage" + "Cuisine" + "Princesse " + "Maudit" + "Ville" + "Une dispute" + "Maison" + "Enfant " + "Endormi" + "village" + "Un voyage" + "escaliers" + "Parents" + "Animal parlant" + "Plan" + "Frre" + "Soeur " + "Ceci sait voler" + "Epreuve" + "Martre" + "Dguis" + "Rve" + "Ennemi" + "Minuscule" + "orage" ; Rejet = _Rejet4_ . < _Rejet_ , _Vide_ >; ! } ! ! Definition de la syntaxe pour l'application. ! Entrees Syntaxiques { ! _Parole_ = SILDEB . ( IGNORE + () ) . ( _Vocabulaire_ + Rejet ) 260

Annexe E . ( IGNORE + () ) . SILFIN ; } ! !

} ! ! Description du lexique. ! Lexique { ! ! Liste des unites lexicales ... ! Unites = ( ! ! ); ! ! Descriptions des unites syntaxiques... ! Descriptions { ! ! "Interruption" = in . t . ei . r . y . p . s . j . on ; "Personnage" = p . ai . r . s . o . n . a . ge . (e+()) ; "Aspect" = a . s . p . ai ; "Objet" = o . b . ge . ai ; "Lieu" = l . j . eu ; "Evnement" = ei . v . ai . n . (e+()) . m . an ; "Orphelin" = o . r . f . (e+()) . l . in ; "Gant" = ge . ei . an ; "Empoisonn" = an . p . w . a . z . o . n . ei ; "pe" = ei . p . ei ; "Prison" = p . r . i . z . on ; "Combat" = k . on . b . a ; "Monstre" = m . on . s . t . r . (e+()) ; "Sorcire " = s . o . r . s . j . ai . r . (e+()) ; "Perdu de vue" = p . ai . r . d . y . $ . d . (e+()) . $ . v . y ; "Trsor" = t . r . ei . z . o . r . (e+()) ; "Montagne" = m . on . t . a . nj . (e+()) ; "Rvlation" = r . ei . v . ei . l . a . s . j . on ; "Cheval" = ch . (e+()) . v . a . l . (e+()) ; "Fe" = f . ei ; "Drob" = d . ei . r . o . b . ei ; "Sort" = s . o . r . (e+()) ; "En mer" = an . $ . m . ai . r . (e+()) ; "Le temps s'coule" = l . (e+()) . $ . t . an . $ . s . ei . k . u . l . (e+()) ; "Grenouille" = g . r . eu . n . u . j . (e+()) ; "Cuisinier" = k . Y . i . z . i . n . j . ei ; "Heureux" = oe . r . eu ; 261

Annexe E "Porte" = p . o . r . t . (e+()) ; "Fort" = f . o . r . ai ; "Dcs" = d . ei . s . ai ; "Mari" = m . a . r . i ; "Femme" = f . a . m . (e+()) ; "Bergre" = b . ai . r . ge . ai . r . (e+()) ; "Secret" = s . (e+()) . k . r . ai ; "Grimoire" = g . r . i . m . w . a . r . (e+()) ; "Ile" = i . l . (e+()) ; "Rencontre" = r . an . k . on . t . r . (e+()) ; "Fou" = f . u ; "Vieil homme " = v . j . ai . j . (e+()) . $ . o . m . (e+()) ; "Chanceux" = ch . an . s . eu ; "Fentre" = f . (e+()) . n . ai . t . r . (e+()) ; "Tour" = t . u . r . (e+()) ; "Fuite" = f . Y . i . t . (e+()) ; "Objet parlant" = o . b . ge . ai . $ . p . a . r . l . an ; "Vieille femme" = v . j . ai . j . (e+()) . $ . f . a . m . (e+()) ; "Lointain" = l . w . in . t . in ; "Feu" = f . eu ; "Route" = r . u . t . (e+()) ; "Quelqu'un est bless" = k . ai . l . k . un . $ . ai . $ . b . l . ei . s . ei ; "Aveugle" = a . v . oe . g . l . (e+()) ; "Mendiant" = m . an . d . j . an ; "Laid" = l . ai ; "Couronne" = k . u . r . o . n . (e+()) ; "Grotte" = g . r . o . t . (e+()) ; "Un objet se casse" = un . $ . n . o . b . ge . ai . $ . s . (e+()) . $ . k . a . s . (e+()) ; "Idiot" = i . d . j . au ; "Voleur" = v . o . l . oe . r . (e+()) ; "Empli de sagesse" = an . p . l . i . $ . d . (e+()) . $ . s . a . ge . ai . s . (e+()) ; "Bateau" = b . a . t . au ; "Nuit" = n . Y . i ; "Un coup de foudre" = un . $ . k . u . $ . d . (e+()) . $ . f . u . d . r . (e+()) ; "mauvais" = m . o . v . ai ; "Oiseau" = w . a . z . au ; "Effray" = ei . f . r . ai . j . ei ; "Anneau" = a . n . au ; "Chaumire" = ch . au . m . j . ai . r . (e+()) ; "Une poursuite" = y . n . (e+()) . $ . p . u . r . s . Y . i . t . (e+()) ; "Cl" = k . l . ei ; "loup " = l . u ; "Cach" = k . a . ch . ei ; "Hache" = a . ch . (e+()) ; "Rivire" = r . i . v . j . ai . r . (e+()) ; "Une sparation" = y . n . (e+()) . $ . s . ei . p . a . r . a . s 262

Annexe E . j . on ; "Prsent" = p . r . ei . z . an ; "Roi" = r . w . a ; "Force de la nature" = f . o . r . s . (e+()) . $ . d . (e+()) . $ . l . a . $ . n . a . t . y . r . (e+()) ; "De la nourriture" = d . (e+()) . $ . l . a . $ . n . u . r . i . t . y . r . (e+()) ; "Ruine" = r . Y . i . n . (e+()) ; "Une transformation" = y . n . (e+()) . $ . t . r . an . s . f . o . r . m . a . s . j . on ; "arbre" = a . r . b . r . (e+()) ; "Reine " = r . ai . n . (e+()) ; "Perdu" = p . ai . r . d . y ; "Royaume" = r . w . a . j . au . m . (e+()) ; "Un pige" = un . $ . p . j . ai . ge . (e+()) ; "Chapelle" = ch . a . p . ai . l . (e+()) ; "Prince " = p . r . in . s . (e+()) ; "Splendide" = s . p . l . an . d . i . d . (e+()) ; "Palais" = p . a . l . ai ; "Un sauvetage" = un . $ . s . au . v . (e+()) . t . a . ge . (e+()) ; "Cuisine" = k . Y . i . z . i . n . (e+()) ; "Princesse " = p . r . in . s . ai . s . (e+()) ; "Maudit" = m . au . d . i ; "Ville" = v . i . l . (e+()) ; "Une dispute" = y . n . (e+()) . $ . d . i . s . p . y . t . (e+()) ; "Maison" = m . ai . z . on ; "Enfant " = an . f . an ; "Endormi" = an . d . o . r . m . i ; "village" = v . i . l . a . ge . (e+()) ; "Un voyage" = un . $ . v . w . a . j . a . ge . (e+()) ; "escaliers" = ai . s . k . a . l . j . ei ; "Parents" = p . a . r . an ; "Animal parlant" = a . n . i . m . a . l . (e+()) . $ . p . a . r . l . an ; "Plan" = p . l . an ; "Frre" = f . r . ai . r . (e+()) ; "Soeur " = s . oe . r . (e+()) ; "Ceci sait voler" = s . eu . s . i . $ . s . ai . $ . v . o . l . ei ; "Epreuve" = ei . p . r . oe . v . (e+()) ; "Martre" = m . a . r . a . t . r . (e+()) ; "Dguis" = d . ei . g . i . z . ei ; "Rve" = r . ai . v . (e+()) ; "Ennemi" = ai . n . (e+()) . m . i ; "Minuscule" = m . i . n . y . s . k . y . l . (e+()) ; "orage" = o . r . a . ge . (e+()) ; ! } ! } ! ! Modelisation acoustique. 263

Annexe E ! Acoustique { ! ! Affectation de modeles aux unites. ! Modelisations { ! ! } ! } ! ! Fin du fichier de specification. !

264

ANNEXE

F
Recognition Word

Exemple de fichier de trace dun utilisateur dans VIRSTORIA

Cette annexe prsente un exemple du contenu dun fichier de trace ralis lors dun test de VIRSTORIA par un des participants.
Time 00m 02s 394ms 00m 02s 554ms 00m 14s 976ms 00m 19s 996ms 00m 35s 040ms 00m 36s 188ms 00m 36s 635ms 00m 40s 065ms 00m 50s 128ms 00m 56s 774ms 00m 57s 286ms 00m 57s 640ms 00m 58s 496ms 01m 00s 166ms 01m 25s 228ms 01m 30s 229ms 01m 35s 252ms 01m 41s 882ms 01m 42s 469ms Speech State TRUE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE TRUE FALSE TRUE FALSE FALSE FALSE FALSE FALSE TRUE FALSE Handling State FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE FALSE FALSE TRUE FALSE FALSE Card type Storyline 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 Personnage 0 0 Phase of Game Prparation Prparation Prparation Prparation Prparation Prparation Prparation Prparation Prparation Prparation Prparation Prparation Prparation Prparation Prparation Prparation Prparation Phase of Story Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Non Verbal Behavior SignesVie SignesVie Adaptateurs SignesVie Adaptateurs Adaptateurs Adaptateurs SignesVie Adaptateurs Adaptateurs Adaptateurs Adaptateurs Adaptateurs SignesVie Adaptateurs SignesVie Handling Gestures OlivierJeT_Vu4x OlivierJeT_Vu4x OlivierAttenteMainsHanchesV1_T100 OlivierAttenteMainsHanchesV1_T300 OlivierMainDerriereDosV4_T128 OlivierMainFaceV5_T128 OlivierMainFaceV2_T128 OlivierMainFaceV3_T128 OlivierAttenteMainsHanchesV1_T300 OlivierAttenteMainsHanchesV1_T300 OlivierMainFaceV4_T128 OlivierMainFaceV3_T128 OlivierMainFaceV4_T128 OlivierAttenteMainsHanchesV1_T300 OlivierJeT_Vu4x OlivierJeT_Vu4x OlivierManipule1 OlivierAttenteMainsHanches+Dehancheme nt+MainCrois(800) OlivierAttenteMainsHanches+Dehancheme

"Reine"

Prparation Situation Initiale Adaptateurs Prparation Situation Initiale Adaptateurs

265

Annexe F
01m 44s 079ms 01m 44s 588ms 02m 12s 493ms 02m 25s 827ms 02m 35s 855ms 02m 55s 948ms 03m 00s 964ms 03m 11s 026ms 03m 16s 060ms 03m 26s 093ms 03m 51s 248ms 03m 56s 287ms 04m 01s 309ms 04m 06s 338ms 04m 07s 753ms 04m 08s 269ms 04m 19s 505ms 04m 21s 394ms 04m 23s 758ms 04m 26s 431ms 04m 27s 065ms 04m 27s 500ms 04m 36s 460ms 04m 51s 523ms 04m 56s 552ms 05m 01s 574ms 05m 06s 596ms 05m 16s 648ms 05m 26s 656ms 05m 36s 699ms 05m 46s 718ms TRUE FALSE FALSE FALSE FALSE FALSE TRUE FALSE TRUE FALSE FALSE TRUE FALSE FALSE TRUE FALSE TRUE TRUE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE "Royaume" FALSE TRUE FALSE FALSE FALSE FALSE FALSE TRUE FALSE TRUE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE 0 0 0 0 0 3 3 3 Personnage 3 9 9 Personnage 9 21 21 21 15 15 21 21 33 33 33 45 Evenement 45 45 45 45 Objet 45 45 45 52 Prparation Situation Initiale Adaptateurs Prparation Prparation Prparation Prparation Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Situation Initiale Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Handling Handling Adaptateurs Handling Adaptateurs SignesVie Adaptateurs Handling Adaptateurs SignesVie Adaptateurs SignesVie Adaptateurs Adaptateurs Adaptateurs Adaptateurs Handling Handling Adaptateurs Adaptateurs Adaptateurs SignesVie Adaptateurs SignesVie Adaptateurs SignesVie Dictics SignesVie Adaptateurs SignesVie nt+MainCrois(800) OlivierAttenteMainsHanches+Dehancheme nt+MainCrois(800) OlivierManipule1 OlivierManipule1 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierAttenteMainsHanchesV1_T300 OlivierAttenteMainsHanchesV1_T300 OlivierJeT_Vu4x OlivierManipule2 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainFaceV4_T128 OlivierMainFaceV3_T128 OlivierMainFaceV4_T128 OlivierMainFaceV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierManipule1 OlivierManipule2 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierJeT_Vu4x OlivierJeT_Vu4x OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierJeT_Vu4x OlivierJeT_Vu4x

"Royaume" "Reine" "Sorcire"

"Fuite"

266

Annexe F
05m 48s 454ms 05m 49s 518ms 05m 49s 602ms 05m 50s 118ms 05m 51s 729ms 06m 01s 771ms 06m 06s 810ms 06m 16s 853ms 06m 26s 889ms 06m 31s 889ms 06m 36s 894ms 06m 41s 917ms 06m 51s 974ms 06m 56s 985ms 07m 12s 049ms 07m 22s 073ms 07m 56s 569ms 08m 21s 621ms 08m 26s 630ms 08m 41s 685ms 08m 51s 739ms 15m 41s 202ms 15m 44s 140ms 15m 44s 186ms 15m 44s 802ms 15m 44s 890ms 15m 45s 346ms 15m 45s 759ms 15m 47s 195ms 15m 47s 243ms 15m 47s 735ms 15m 48s 231ms 15m 49s 417ms TRUE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE "Grimoire" TRUE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE TRUE TRUE TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE Objet 52 52 52 Aspect 52 52 52 68 68 68 68 68 68 68 72 72 72 72 72 80 80 80 80 80 Evenement 80 85 85 85 85 85 85 85 85 85 Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Perturbation Perturbation Perturbation Perturbation Perturbation Perturbation Action Action Action Action Action Action Action Action Action Action Action Action Action Action Action Action Action Action Action Action Action Rsolution Rsolution Rsolution Rsolution Rsolution Rsolution SignesVie SignesVie SignesVie Metaphorique Adaptateurs SignesVie Handling SignesVie Adaptateurs SignesVie Adaptateurs SignesVie Adaptateurs SignesVie Adaptateurs SignesVie Adaptateurs SignesVie Adaptateurs SignesVie Adaptateurs Adaptateurs Deictics Ponctuateurs Ponctuateurs Handling Handling Handling Adaptateurs Handling Adaptateurs Adaptateurs Handling OlivierJeT_Vu4x OlivierAttenteMainsHanchesV1_T300 OlivierAttenteMainsHanchesV1_T300 OlivierMetaMinuscule_T300 OlivierAttenteMainsHanchesV1_T300 OlivierAttenteMainsHanchesV1_T300 OlivierManipule1 OlivierAttenteMainsHanchesV1_T300 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierAttenteMainsHanchesV1_T300 OlivierAttenteMainsHanchesV1_T300 OlivierJeT_Vu4x OlivierJeT_Vu4x OlivierJeT_Vu4x OlivierJeT_Vu4x OlivierAttenteMainsHanchesV1_T300 OlivierAttenteMainsHanchesV1_T300 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierManipule1 OlivierManipule2 OlivierManipule2 OlivierPonctu4_T128 OlivierPonctu3_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierManipule1

"Petit"

"Orage"

267

Annexe F
15m 49s 464ms 15m 49s 796ms 15m 49s 843ms 15m 50s 175ms 15m 50s 223ms 15m 50s 555ms 15m 50s 603ms 15m 51s 476ms 15m 52s 475ms 15m 54s 400ms 15m 54s 447ms 15m 55s 187ms 15m 55s 234ms 15m 55s 650ms 15m 55s 819ms 15m 57s 007ms 15m 57s 055ms 15m 59s 312ms 15m 59s 643ms 16m 00s 524ms 16m 04s 494ms 16m 05s 371ms 16m 06s 071ms 16m 06s 363ms 16m 06s 413ms 16m 06s 827ms 16m 08s 914ms 16m 012s 330ms 16m 15s 883ms 16m 16s 312ms TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE TRUE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE 85 85 85 85 85 92 92 92 92 92 92 98 98 98 98 98 98 98 98 98 98 100 100 100 100 100 98 100 100 100 Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Narration Evaluation Evaluation Evaluation Evaluation Evaluation Narration Evaluation Evaluation Evaluation Rsolution Rsolution Rsolution Rsolution Rsolution Rsolution Rsolution Rsolution Rsolution Rsolution Rsolution Rsolution Rsolution Rsolution Finale Finale Finale Finale Finale Finale Finale Finale Finale Finale Finale Finale Finale Finale Finale Finale Handling Adaptateurs Adaptateurs Adaptateurs Adaptateurs Adaptateurs Adaptateurs Adaptateurs Ponctuateurs Handling Handling Ponctuateurs Ponctuateurs Ponctuateurs Handling Handling Handling Handling Adaptateurs Adaptateurs SignesVie SignesVie SignesVie Ponctuateurs Ponctuateurs Ponctuateurs Ponctuateurs Ponctuateurs SignesVie SignesVie OlivierManipule2 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierPonctu3_T128 OlivierPonctu4_T128 OlivierPonctu3_T128 OlivierPonctu1_T128 OlivierPonctu4_T128 OlivierPonctu2_T128 OlivierPonctu2_T128 OlivierManipule1 OlivierManipule1 OlivierManipule2 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4 _T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128 OlivierMainDerriereDosV4_T128

"Enfant"

D1

268

ANNEXE

Exemple de gestes dans VIRSTORIA

Cette annexe montre des exemples de gestes excuts par les avatars de VIRSTORIA durant une session de jeu.

269

Bibliographie
[Argentin, 1984] Argentin G. Le systme gestuel. In Bulletin de psychologie, 1984, vol. 37, n 11-14, p. 575-583. Argentin G. Quand faire, c'est dire. Psychologie Et Sciences Humaines. Lige, Bruxelles: Pierre Mardaga, 1989.

[Argentin, 1989]

[Argyle et Ingham, 1972] Argyle M. et Ingham R. Gaze, mutual gaze and proximity. In Semiotica, 1972, vol. 6, n 1, p. 32-49. [Avatare et al., 1997] Avatare A., Frcon E., Hagsand O., et al. DIVE - The Distributed Interactive Virtual Environment, 1997. [Badler et Tolani, 1996] Badler N.I. et Tolani D. Real-Time Inverse Kinematics of the Human Arm. In Presence, 1996, vol. 4, n 5, p. 393-401. [Badler et al., 1995] Badler N.I., Webber B.L. et Reich B.D. Towards Personalities for Animated Agents with Reactive and Planning Behaviors. In Lecture Notes in Artificial Intelligence, Creating Personalities, 1995, p. 4357. Bales R.F. Rles centrs sur la tche et rles sociaux dans des groupes ayant des problmes rsoudre. In Psychologie Sociale, Levy A. d. Paris: Dunod, 1965, p. 263-277.

[Bales, 1965]

[Bartkova et Jouvet, 1991] Bartkova K. et Jouvet D. Modelization of Allophones in a Speech Recognition System. In ICPhS (International Congress of Phonetic Science), 1991, p. 474-477, Aix-en-Provence, France. [Bastien et Scapin, 2001] Bastien J.M.C. et Scapin D.L. Evaluation des systmes d'information et critres ergonomiques. Kolski, C. Paris: Hermes, 2001. [Bateson, 1972] Bateson G. Vers une cologie d'esprit. 1re d. Paris, France: Seuil, 1972, 299 p. Bnard R. Raisonnement en contexte pour la simulation participative et l'tude des situations dynamiques collaboratives.

[Bnard, 2007]

271

Bibliographie 156 p. Thse: Informatique: Universit de Bretagne Occidentale: 2007. [Benford et al., 1995] Benford S., Bowers J., Fahln L.E., et al. User Embodiment in Collaborative Virtual Environments. In CHI'95 Conference on Human Factors in Computing Systems, 1995, p. 242-248, Denver, Colorado, USA. [Benford et al., 1996] Benford S., Brown C., Reynard G., et al. Shared spaces : Transportation, artificiality, and spatiality. In Computer Suported Cooperative Work (CSCW'96), 1996, p. 77-86, Boston, USA. [Bouchardon, 2008] Bouchardon S. Le rcit littraire interactif : une valeur heuristique. Communication & Langages, 2008. Bowers J., Pycock J. et O'brien J. Talk and Embodiment in Collaborative Virtual Environments. In ACM CHI'96, 1996, p. 58-65, Pittsburgh, USA.

[Bowers et al., 1996]

[Bowman et al., 2004] Bowman D.A., Kruijff E., Laviola J.J., et al. 3D User Interfaces:Theory and Practice. d. Boton, USA: 3D User Interfaces: Theory and Practice, 2004, 512 p. [Bradski, 2004] Bradski G.R. Open source probabilistic network library. Systems Technology Labs, Intel, 2004. Bremond C. Logique du rcit. Seuil d. 1973, 349 p. Breton G., Bouville C. et Pel D. FaceEngine a 3D facial animation engine for real time applications. In Virtual Reality Modeling Language Symposium, 2001, New York, NY, USA. Brooks R.A. Intelligence without representation. In Artificial Intelligence, 1987, vol. 47, n 1-3, p. 139159. Burkhardt J.-M. Ralit virtuelle et ergonomie : quelques apports rciproques. In Le travail humain, 2003, vol. 66, n 1, p. 65-91.

[Bremond, 1973] [Breton et al., 2001]

[Brooks, 1987]

[Burkhardt, 2003]

[Byrne et Anderson, 1997] Byrne M.D. et Anderson J.A. Enhancing ACT-R's perceptualmotor abilites. In Proceedings of the Nineteenth Annual Conference of the Cognitive Science Society, 1997. [Cadoz, 1994] Cadoz C. Le geste : canal de communication homme/machine. In Technique et science informatique, 1994, vol. 13, n 1/1994, p. 3161.

272

Bibliographie [Cahour et Legout, 2003] Cahour B. et Legout M.-C. Modes de communication non-verbaux en situation de cration collective d'histoires : prconisations pour les runions virtuelles avec clones. CNRS laboratoire IRIT, rapport final financ par FT R&D Projet Escape, Toulouse, 2003, 96 p. [Carbini et al., 2006] Carbini S., Delphin-Poulat L., Perron L., et al. From a wizard of Oz experiment to a real time speech and gesture multimodal interface. In Signal Processing, Multimodal Human-Computer Interfaces, Amsterdam, The Netherlands: Elsevier North-Holland, Inc., 2006, p. 3559-3577.

[Carlsson et Hagsand, 1993] Carlsson C. et Hagsand O. DIVE: a Platform for Multi-User Virtual Environments. In Computers & Graphics, 1993, vol. 17, n 6, p. 663-669. [Casati et Pasquinelli, 2007] Casati R. et Pasquinelli E. How Can You Be Surprised? The Case for Volatile Expectations. In Phenomenology and the Cognitive Sciences 2007, vol. 6, n 1-2, p. 171-183. [Cassell, 1998] Cassell J. Embodied Conversation: Integrating Face and Gesture into Automatic Spoken Dialogue System. In Spoken Dialogue Systems, S. Luperfoy (dir.), MIT Press, 1998. Cassell J. Travaux de recherches au Medialab sur les Agents Conversationnels Incarns. Communications orales, France Tlcom R&D, Lannion, France, 2002. Cassell J., Bickmore T., Billinghurst M., et al. Embodiment in Conversational Interfaces: REA. In Conference on Human Factors in Computing Systems (CHI'99), 1999, p. 520-527, Pittsburgh, USA.

[Cassell, 2002]

[Cassell et al., 1999]

[Cassell et Vilhjalmsson, 1999] Cassell J. et Vilhjalmsson H. H. Fully Embodied Conversational Avatars: Making Communicative Behaviors Autonomous. In Autonomous Agents and Multi-Agent Systems, MIT Press d. Cambridge: Kluwer Academic, 1999, p. 45-64. [Cassell et al., 2001] Cassell J., Vilhjalmsson H. H. et Bickmore T. BEAT: the Behavior Expression Animation Toolkit. In SIGGRAPH01, 2001, p. 477-486, Los Angeles, CA, USA.

[Cavazza et Pizzi, 2008] Cavazza M. et Pizzi D. Narratology for Interactive Storytelling: A Critical Introduction. In 3rd International Conference on Technologies for Interactive Digital Storytelling and Entertainment (TIDSE 2006), 2008, p. 72-83, Darmstadt, Germany. [Chomsky, 1959] Chomsky N. A Review of B. F. Skinner's Verbal Behavior. In Paginated, 1959, vol. 35, n 1, p. 33.

273

Bibliographie

[Chomsky, 1997]

Chomsky N. Language and Cognition. In The Future of the Cognitive Revolution, David Johnson et Christina Erneling (dir.), 1re d. New York, USA: Oxford University Press, 1997, p. 15-31.

[Chow et Schwartz, 1989] Chow Y.-L. et Schwartz R. The N-Best algorithm: an efficient procedure for finding top N sentence hypotheses. In Human Language Technology Conference, 1989, p. 199-202, Cape Cod, Massachusetts, USA. [Clark, 1989] Clark A. Microcognition: Philosophy, Cognitive Science, and Parallel Distributed Processing. MIT Press d. Cambridge (USA): 1989, 240 p.

[Clark et Brennan, 1991] Clark H.H. et Brennan S.E. Grounding in communication. In Readings in Groupware and Computer Supported Cooperative Work: Assisting Human- Human Collaboration, Morgan-Kaufmann (dir.), 1991, p. 222233. [Cosnier, 1977] Cosnier J. Communications et langages gestuels. In Les voies du langage : communications verbales, gestuelles et animales, Jacques Cosnier, Alain Berrendonner, Jacques Coulon et Catherine Orecchioni (dir.), Paris: Dunod, 1977, p. 255-304.

[Cosnier et Vaysse, 1997] Cosnier J. et Vaysse J. Smiotique des gestes communicatifs. In Nouveaux Actes Smiotiques, 1997, vol. 7, n 28, p. 52-54. [Coulthard, 1977] Coulthard M. An Introduction to Discourse Analysis. d. London Longman, 1977.

[Damiano et al., 2005] Damiano R., Lombardo V. et Pizzo A. Formal Encoding of Drama Ontology In Third International Conferenceon Virtual storytelling (ICVS 2005), 2005, vol. 3805, p. 95-104, Strasbourg, France. [De Loor et al., 2008a] De Loor P., Bnard R. et Brossard C. Interactive Co-Construction to Study Dynamical Collaborative Situations. In 10th Virtual Reality International Conference, 2008a, p. 85-91, Laval, France. [De Loor et al., 2008b] De Loor P., Manach P., Fronville A., et al. Requirement for enactive machine : Ontogenesis, interaction and human in the loop. In 5th International Conference on Enactive Interfaces, ENACTIVE08, 2008b, Pisa, Italy. [Dehn et VanMulken, 2000] Dehn D.M. et Vanmulken S. The impact of animated interface agents : a review of empirical research. In International Journal of Human-Computer Studies, 2000, vol. 52, p. 1-22.

274

Bibliographie [Dempster et al., 1977] Dempster A.P., Laird N.M. et Rubin D.B. Maximum Likelihood from Incomplete Data via the EM Algorithm. In Journal of the Royal Statistical Society, 1977, vol. 39, p. 1-38. [Dtienne et Traverso, 2008] Dtienne F. et Traverso V. Mthodologies d'analyse de situations coopratives de conception. Presses universitaires de Nancy, 2008. [Ding et al., 2009] Ding L., Wang H., Chaillou C., et al. Distant Human Representation for Computer-Mediated Communications: Mixing Video and Avatar. In Virtual Reality International Conference (VRIC'09), 2009, Laval, France. [Donikian, 2001] Donikian S. HPTS: a behaviour modelling language for autonomous agents In Fifth international conference on Autonomous agents, 2001, p. 401 - 408, Montreal, Canada. Dumas C. Un modle d'interaction 3D : Interactions hommemachine et homme-machine-homme dans les interfaces 3D pour le TCAO synchrone. 217 p. Thse: Informatique: Universit des Sciences et Technologies de Lille: 1999. Efron D. Gesture and environment. d. New York: King's Crown press, 1941. Ekman P. L'expression des motions. In La Recherche, 1980, vol. 117, p. 1409-1415. Ekman P. An argument for basic emotions. In Cognition and Emotion, 1992, vol. 6, p. 169-200.

[Dumas, 1999]

[Efron, 1941]

[Ekman, 1980]

[Ekman, 1992]

[Ekman et Friesen, 1969] Ekman P. et Friesen W.V. The Repertoire of Nonverbal Behavior : Categories, Origins, Usage, and Coding. In Semiotica, 1969, p. 49-98. [Fabre et al., 2002] Fabre M., Moore D.J. et Hobbs D.J. Expressive Agents: Non-verbal Communication in Collaborative Virtual Environments. In The First International Joint Conference on Autonomous Agents & MultiAgent Systems 2002, Bologna, Italy.

[Federico et Pablo, 2004] Federico P. et Pablo G. Transferring game mastering laws to interactive digital storytelling. In TIDSE 2004 : Technologies for interactive digital storytelling and entertairnment 2004, vol. 3105, p. 48-54, Darmstadt, Germany. [Feyereisen et al., 1988] Feyereisen P., Van De Wiele M. et Dubois F. The meaning of gestures: what can be understood without speech? In Cahiers de psychologie cognitive - European bulletin of cognitive psychology, 1988, vol. 8, n 1, p. 3-25.

275

Bibliographie

[Fodor, 1975]

Fodor J.A. The Language of Thought. 1re d. Crowell Press, 1975, 214 p. Foerster H.V. Cybernetics: Transactions of the Sixth Conference. 1re d. New York, USA: Josiah Macy Jr. Foundation, 1949, 220 p.

[Foerster, 1949]

[Foulon-Molenda, 2000] Foulon-Molenda S. A-t-on besoin de se voir pour cooprer ? Contribution thorique issue de la psycho-linguistique. In Travail Humain, 2000, vol. 63, n 2, p. 97-120. [Fuchs et al., 2001] Fuchs P., Moreau G. et Jean-Paul Papin. Le Trait de la Ralit Virtuelle. Paris: Presses de l'cole des Mines, 2001, 537 p. Once Upon a Time: The Stoytelling Card Game. Web Site, 1994, Url: http://www.atlas-games.com/onceuponatime/index.php. Gibson J.J. The sens considered as perceptual systems. Houghton Mifflin Co d. Boston: 1966.

[Games, 1994]

[Gibson, 1966]

[Goebbels et Lalioti, 2001] Goebbels G. et Lalioti V. Co-presence & Co-working in Distributed Collaborative Virtual Environments. In Proceedings of ACM SIGGRAPH, 1st International Conference on Virtual Reality, Computer Graphics and Visualization (Afrigraph 2001), 2001, p. 109-114, Cape Town, South Africa. [Goffman, 1974] Goffman E. Les rites d'interaction. d. Paris: Les ditions de Minuit, 1974, 236 p. Goffman E. Faon de parler. d. Paris: Les ditions de Minuit, 1987. Goldberg D.E. Genetic Algorithms in Search, Optimization, and Machine Learning. d. Reading, MA: Addison-Wesley Professional, 1989, 432 p.

[Goffman, 1987] [Goldberg, 1989]

[Goldin-Meadow, 1999] Goldin-Meadow S. The role of gesture in communication and thinking. In Cognitive Sciences, 1999, vol. 3, n 11, p. 419-429. [Goodwin, 1982] Goodwin C. Conversational Organization: Interaction Between Speakers and Hearers. d. New York, USA: Academic Press, 1982.

[Grasbon et Braun, 2001] Grasbon D. et Braun N. A Morphological Approach to Interactive Storytelling. In Artificial Intelligence and Interactive Entertainment, Cast01, Living in Mixed Realities, 2001, p. 337-340, Sankt Augustin, Germany.

276

Bibliographie [Greimas, 1966] Greimas A.J. Smantique structurale : recherche de mthode. Paris: Larousse, 1966, 262 p. Greimas A.J. Du sens : essais smiotiques. Edition du Seuil. 1970, 313 p. Grudin J. Computer-supported cooperative work: history and focus. In Computer, 1994, vol. 27, n 5, p. 19-26.

[Greimas, 1970]

[Grudin, 1994]

[Grzeszczuk et al., 1998] Grzeszczuk R., Terzopoulos D. et Hinton G. NeuroAnimator: Fast Neural Network Emulation and Control of Physics-Based Models. In Computer Graphics Proceedings (SIGGRAPH 98), 1998, p. 9-20, Orlando, FL, USA. [Gullberg, 1998] Gullberg M. Gesture as a communication strategy in second language discourse: A study of learners of French and Swedish . Lund, Sweden: Lund University Press, 1998.

[Guye-Villme et al., 1998] Guye-Villme A., Capin T.K., Pandzic I.S., et al. Nonverbal Communication Interface for Collaborative Virtual Environments. In CVE'98, 1998, University of Manchester, UK. [Guynup et Carlson, 2000] Guynup S. et Carlson K. Avatar as Content Delivery Platform. In Future Generation Computer Systems, 2000, vol. 17, p. 65-71. [Hall, 1971] Hall E.T. The hiden dimension. ditions du Seuil . Paris: Garden City, N.Y. : Doubleday, 1971. Harnad S. The Symbol Grounding Problem. In Physica D: Nonlinear Phenomena, 1990, vol. 42, p. 335-346.

[Harnad, 1990]

[Hayne et Pendergast, 1994] Hayne S., C. et Pendergast M. Techniques and experiences with group support system implementation. In Proceedings of the 1994 conference of the Centre for Advanced Studies on Collaborative research, 1994, Toronto, Ontario, Canada. [Holland, 1975] Holland J.H. Adaptation in Natural and Artificial Systems: An Introductory Analysis with Applications to Biology, Control, and Artificial Intelligence. d. Boston: The MIT Press, 1975, 228 p. Howard I.P. Spatial vision within egocentric and exocentric frames of reference. In Pictorial communication in virtual and real environments, d. Bristol, PA, USA: Taylor & Francis, Inc. , 1991, p. 338-358.

[Howard, 1991]

277

Bibliographie [Imbert et al., 1999] Imbert R., Antonio A., Segovia J., et al. A Fuzzy Internal Model for Intelligent Avatars. In Workshop on Behavior Planning for Life-Like Characters and Avatars, 1999, p. 151-167, Sitges, Spain. Imbert R., Snchez M.I., Antonio A.D., et al. The Amusement Internal Modelling for Believable Behaviour of Avatars in an Intelligent Virtual Environment. In The 13th Biennial European Conference on Artificial Intelligence. Workshop in Intelligent Virtual Environments, 1998, Brighton, UK. Jensen F.V. An introduction to Bayesian networks. 1st d. New York: Springer, 1997, 178 p. Johansen R. Groupware, Computer support for business teams. In 1988, New York, USA.

[Imbert et al., 1998]

[Jensen, 1997]

[Johansen, 1988]

[Johnson-Laird, 1993] Johnson-Laird P.N. The Computer and the Mind: An Introduction to Cognitive Science. 1re d. Harvard University Press, 1993, 448 p. [Johnson, 1997] Johnson D. The Future of the Cognitive Revolution. 1re d. New York, USA: Oxford University Press, 1997, 416 p. Kant I. Critique de la raison pure. 1re d. Ladangre, 1781. Kendon A. Studies in Dyadic Communication In Somme relationships between body motion and speech, Elmsford (dir.), New York, USA: Pergamon Press, 1967, p. 131-141. Kendon A. Current Issues in the Study of Nonverbal communication. In Nonverbal communication, interaction, and gesture. Selections from Semiotica, The Hague : Mouton Publishers, 1981, p. 1-53. Kendon A. How gestures can become like words. In Cross-cultural perspectives in nonverbal communication, Toronto, Canada: Hogrefe, 1988, p. 131-141. Kendon A. Gesture: visible action as utterance. d. Cambridge University Press, 2004, 400 p.

[Kant, 1781] [Kendon, 1967]

[Kendon, 1981]

[Kendon, 1988]

[kendon, 2004]

[Kieras et Meyer, 1995] Kieras D.E. et Meyer D.E. An Overview of the EPIC Architecture for Cognition and Performance with Application to Human-Computer Interaction. In Human-Computer Interaction, 1995, vol. 12, p. 391438. [Kipp, 2001] Kipp M. Anvil - A Generic Annotation Tool for Multimodal Dialogue. In 7th European Conference on Speech Communication and Technology (Eurospeech), 2001, p. 1367-1370, Aalborg, Danemark.

278

Bibliographie

[Kipp, 2004]

Kipp M. Gesture Generation by Imitation: From Human Behavior to Computer Character Animation. Dissertation.Com (d.) Florida, USA: Boca Raton, 2004, 280 p. Kraut R.E., Fussel S.R. et Siegel J. Visual Information as a Conversational Resource in Collaborative Physical Tasks. In HumanComputer Interaction, 2003, vol. 18, n Special Issue: Talking About Things in Mediated Conversations, p. 13-49.

[Kraut et al., 2003]

[Lamarche et Donikian, 2002] Lamarche F. et Donikian S. Automatic Orchestration of Behaviours through the management of Resources and Priority Levels. In First international joint conference on Autonomous Agents and MultiAgent Systems (AAMAS'02), 2002, p. 1309 -1316, Bologna, Italy. [Langhlin, 2005] Langhlin R.-B. A Different Universe: Reinventing Physics from the Bottom Down. New York, USA: Basic Books, 2005, 304 p. Le Mer P. Modle de communication Homme-Clone-Homme pour les Environnements Virtuels Collaboratifs non-immersifs. 163 p. Thse: Docteur en informatique: Universit des Sciences et Technologies de Lille: 2001. Le Mer P., Laborie F., Jacquemond D., et al. Viaconferencing 3D: Usability Study of a Collaborative Virtual Environment Prototype for CAD Project Reviewing In CollabTech 2005, 2005, Tokyo, Japan. Lebeltel O. Programmation Baysienne des Robots. 262 p. Thse: Sciences Cognitives: Institut National Polytechnique de Grenoble: 1999. Lefebvre L. Les indices non verbaux dans les interactions mdiatises. 299 p. Thse: Psychologie: Universit de Bretagne-Sud: 2008.

[Le Mer, 2001]

[Le Mer et al., 2005]

[Lebeltel, 1999]

[lefebvre, 2008]

[Lefebvre et al., 2007] Lefebvre L., Perron L. et Gueguen N. L'utilisation des indices non verbaux pour l'tude des interactions en petits groupes. In Congrs de la SFP, 2007, Nantes, Septembre 2007. [Leplat, 2000] Leplat J. L'analyse psychologique de l'activit en ergonomie. Aperu sur son volution, ses modles et ses mthodes Travail & Activit Humaine. d. Octares, 2000.

[Lombard et Ditton, 1997] Lombard M. et Ditton T. At the Heart of It All : The Concept of Presence. In Journal of Computer-Mediated Communication, 1997, vol. 3, n 2.

279

Bibliographie

[Lycan, 1990]

Lycan W.G. Mind and Cognition: A Reader. 1re d. Cambridge, Mass., USA: Basil Blackwell Publishers, 1990, 683 p.

[MacDorman et Ishiguro, 2006] Macdorman K.F. et Ishiguro H. The uncanny advantage of using androids in cognitive and social science research. In Interaction Studies, 2006, vol. 7, n 3, p. 297-337. [Machado et al., 2001] Machado I., Paiva A. et Prada R. Is the wolf angry or ... just hungry? Inspecting, modifying and sharing characters' minds. In Fifth Conference on Autonomous Agents, 2001, p. 370-376, New York, USA. [Machrouh et al., 2006] Machrouh J., Panaget F., Bretier P., et al. Face and Eyes detection to improve natural human-computer dialogue. In Second International Symposium on Communications, Control and Signal Processing, 2006, Marrakech, Morocco. [Masse, 2000] Masse L. Aspects structurels et fonctionnels d'indicateurs gestuels dans l'analyse d'entretiens thrapeutiques. In Revue internationale de psychologie sociale, 2000, vol. 13, n 4. Masse L. Aspects structurels et fonctionnels d'indicateurs gestuels dans l'analyse d'entretiens thrapeutiques. Universit Paris 8, St Denis, 2001. Mateas M. Interactive Drama, Art, and Artificial Intelligence. 284 p. Thse: Doctor of Philosophy: Carnegie Mellon University: 2002.

[Masse, 2001]

[Mateas, 2002]

[Mateas et Stern, 2005] Mateas M. et Stern A. Structuring Content in the Faade Interactive Drama Architecture In Proceedings of Artificial Intelligence and Interactive Digital Entertainment Conference (AIIDE 2005), 2005, Marina del Rey, CA, USA. [McCulloch, 1965] Mcculloch W.S. Embodiments of Mind. 1re d. Cambridge, Mass, USA: MIT Press, 1965, 402 p.

[McCulloch et Pitts, 1943] Mcculloch W.S. et Pitts W. A logical calculus of the ideas immanent in nervous activity. In Bulletin of Mathematical Biology, 1943, vol. 5, n 4, p. 115-133. [McNeill, 1992] Mcneill D. Hand and Mind: What Gestures Reveal about Thought d. Chicago: University of Chicago Press, 1992.

[Mehrabian et Morton, 1967] Mehrabian A. et Morton W. Decoding of inconsistent communications. In Journal of personality and social psychology, 1967, vol. 6, n 1, p. 109-114.

280

Bibliographie

[Mori, 1970]

Mori M. Bukimi no tani: The uncanny valley. In Energy, 1970, vol. 7, n 4, p. 33-35. Morin E. La mthode, tome 3 : La Connaissance de la Connaissance. Points Essais (d.) 1re d. Paris, France: Seuil, 1992, 236 p.

[Morin, 1992]

[Morningstar et Farmer, 1990] Morningstar C. et Farmer R. The Lessons of Lucasfilm's Habitat. In The First International Conference on Cyberspace , 1990, Austin, USA. [Mynatt et al., 1997] Mynatt E.D., Adler A., Ito M., et al. Design for network communities. In SIGGHI Conference on Human Factors in Computing Systems (CHI 97), 1997, Atlanta, USA. Nam P., Wuillemin P.-H., Leray P., et al. Rseaux baysiens. Eyrolles (d.) 3me d. Paris: 2007, 424 p. Nakanishi H. FreeWalk : A social interaction platform for group behaviour in a virtual space. In International Journal of HumanComputer Studies, 2004, vol. 60, p. 421-454. Navarro C. Partage de l'information en situation de coopration distance et nouvelles technologies de la communication : bilan de recherches rcentes. In Travail humain, 2001, vol. 64, n 4, p. 297319.

[Nam et al., 2007]

[Nakanishi, 2004]

[Navarro, 2001]

[Neal et Hinton, 1998] Neal R. et Hinton G.E. A view of the EM algorithm that justifies incremental, sparse and other variants. In Learning in Graphical Models, M. I. Jordan (dir.), d. Boston: Kluwer Academic Publishers, 1998, p. 355-368. [Newell, 1994] Newell A. Unified Theories of Cognition. 2me d. Cambridge, USA: Harvard University Press, 1994, 549 p.

[Noriega et Bernier, 2007] Noriega P. et Bernier O. Multicues 3D Monocular Upper Body Tracking Using Constrained Belief Propagation. In British Machine Vision Conference 2007, 2007, Warwick, UK. [Noser et Thalmann] Noser H. et Thalmann D. Sensor based synthetic actors in a tennis game simulation. In Computer Graphics International 97, p. 189198, Hasselt-Diepenbeek, Belgium. Olivier F. De l'identification de structure de rseaux baysiens la reconnaissance de formes partir d'informations compltes ou incompltes. 231 p. Thse: informatique, gnie traitement du signal: Institut National des Sciences Appliques de Rouen: 2006.

[Olivier, 2006]

281

Bibliographie

[Olson et Olson, 2000] Olson G.M. et Olson J.S. Distance Matters. In Human-Computer Interaction, 2000, vol. 15, p. 139-178. [Ousland, 1999] Ousland A.R. Comparison of Multimedia Conferencing in 2D and 3D Environments. EURESCOM Project P807, JUPITER II, 1999. Oviatt S. Ten myths of multimodal interaction. In ACM, 1999, vol. 42, n 11, p. 74-81. Pearl J. Probabilistic Reasoning in Intelligent Systems: Networks of Plausible Inference. 1st d. San Francisco: Morgan Kaufmann, 1988, 552 p. Pelachaud C. Communication and Coarticulation in Facial Animation. 251 p. Thse: Philosophy: University of Pennsylvania: 1991. Perron L. Non verbal et univers virtuels : comment collaborer via des clones. In 15me Confrence Francophone sur l'Interaction Homme-Machine, 2003a, Caen, France. Perron L. Projet Ehuman ESCAPE Masque : Animation de clones et comportement non-verbal en trio. France Telecom, Rapport interne, Lannion, France, 2003b, 44 p. Perron L. An avatar with your own gestures. In INTERACT'05 Workshop "Appropriate Methodology for Empirical Studies of Privacy", Communicating Naturally through Computers 2005, p. 1216, Rome, Italy. Perron L. What Gestures to Perform a Collaborative Storytelling? In International Conference on Virtual Storytelling, 2007, Saint-Malo, France. Piaget J. La naissance de l'intelligence chez l'enfant. Classiques (d.) 4me d. Neuchatel, Suisse: Delachaux & Niestl, 1963, 370 p. Propp V. Propp's Morphology of the Folk Tale. 2nd d. University of Texas Press, 1928, 158 p. Propp V. Theory and History of Folklore. Theory and History of Literature (d.) 2nd d. University of Minnesota Press, 1968, 252 p. Pylyshyn W.Z. Computation and Cognition: Toward a Foundation for Cognitive Science. 2me d. Cambridge, Mass., USA: The MIT Press, 1984, 320 p.

[Oviatt, 1999]

[Pearl, 1988]

[Pelachaud, 1991]

[Perron, 2003a]

[Perron, 2003b]

[Perron, 2005]

[Perron, 2007]

[Piaget, 1963]

[Propp, 1928]

[Propp, 1968]

[Pylyshyn, 1984]

282

Bibliographie

[Querrec, 2002]

Querrec R. Les systmes multi-agents pour les environnements virtuels de formation : application la scurit civile. Universit de Bretagne Occidentale: 2002. Rabiner L. A tutorial on hidden markov models and selected applications in speech recognition. In Proceedings of the IEEE International Conference on Robotics and Automotion (ICRA'89), 1989, vol. 77, p. 257-286. Renault O., Magnenat-Thalmann N. et Thalmann D. A Vision-Based Approach to Behavioral Animation. In Journal of Visualization and Computer Animation, 1990, vol. 1, n 1, p. 1-11. Reynolds C.W. Flocks, herds and schools: A distributed behavioral model. In Proceedings of the 14th annual conference on Computer graphics and interactive techniques, 1987, p. 25 - 34. Reynolds C.W. Competition, Coevolution and the Game of Tag. In proceedings of Artificial Life IV, 1994, p. 59-69.

[Rabiner, 1989]

[Renault et al., 1990]

[Reynolds, 1987]

[Reynolds, 1994]

[Rickel et Johnson, 1998] Rickel J.W. et Johnson W.L. Animated Agents for Procedural Training in Virtual Reality: Perception, Cognition, and Motor Control. In Applied Artificial Intelligence, 1998, vol. 13, p. 343-382. [Riva et Galimberti, 1998] Riva G. et Galimberti C. Computer-mediated communication : identity and social interaction in an electronic environment. In Genetic, Social and General Psychology Monographs, 1998, vol. 124, p. 434-464. [Rorty, 1990] Rorty R. L'Homme Spculaire. Franois Wahl (d.) 1re d. Paris: Seuil, 1990, 438 p. Sacks H., Schegloff E.A. et Jefferson G. A Simplest Systematics for the Organization of Turn-Taking for Conversation. In Language, 1974, vol. 50, n 4, p. 696-735. Saugis G. Interface 3D pour le travail coopratif synchrone, une proposition. Thse: Informatique: Universit des Sciences et Technologies de Lille: 1998. Scheflen A.E. The significance of posture in communication systems In Psychiatry, 1964, vol. 27, p. 316-321. Schreer O., Tanger R., Eisert P., et al. Real-Time Avatar Animation Steered by Live Body Motion. In Proc. of 13th Int. Conference Image

[Sacks et al., 1974]

[Saugis, 1998]

[Scheflen, 1964]

[Schreer et al., 2005]

283

Bibliographie Analysis and Processing (ICIAP 2005), 2005, p. 147-154, Cagliari, Italy. [Schroeder, 2002] Schroeder R. The social life of Avatars: presence and interaction in shared virtual environments. 1st d. Springer, 2002, 223 p.

[Schuemie et VanDerMast, 1999] Schuemie M.J. et Vandermast C.A.P.G. Presence : Interacting in Virtual Reality ? In Proceedings Twente Workshop on Language Technology 15 (TWLT 15), 1999, p. 213-217. [Simonin, 2007] Simonin J. Aide en ligne adaptative et assistants conversationnels anims : mises en uvre et valuation ergonomique. 233 p. Thse: Informatique: Universit Henri Poincar - Nancy 1: 2007. Sims K. Evolving Virtual Creatures. In Proceedings of the 21st Annual Conference on Computer Graphics (Siggraph '94), 1994, p. 15-22, Orlando, FL, USA. Szilas N., Marty O. et Rety J.-H. Authoring highly generative interactive drama. In ICVS 2003 : international conference on virtual storytelling, 2003, vol. 2897, p. 37-46, Toulouse, France. Szilas N. et Rety J.-H. Minimal Structures for Stories. In 1st ACM Workshop on Story Representation, Mechanism and Context (SMRC 2004), 2004, New York, NY, USA. Thie S. et Wijk J.V. A General Theory on Presence : Experimental Evaluation of Social Virtual Presence in a Decision Making Task. In Presence in Shared Virtual Environments Workshop, 1998, University College London. Tolani D. An Inverse Kinematics Toolkit for Human Modeling and Simulation. Thse: Computer: Universtity of Pensylvannia: 1998.

[Sims, 1994]

[Szilas et al., 2003]

[Szilas et Rety, 2004]

[Thie et Wijk, 1998]

[Tolani, 1998]

[Tonnoir et Berenblit, 2002] Tonnoir S. et Berenblit C. Apports perceptivo-cognitifs des avatars dans des environnements virtuels familier, semi-familier et non familier. In 14th French-speaking conference on Humancomputer interaction (IHM'02), 2002, Poitiers, France. [Van de Panne et Fiume, 1993] Van De Panne M. et Fiume E. Sensor-Actuator Networks. In Computer Graphics Proceedings, ACM SIGGRAPH'93, 1993, p. 335342, Anaheim, CA, USA. [Varela, 1989] Varela F. Autonomie et connaissance : Essai sur le vivant. Edition du Seuil. Paris: 1989, 247 p.

284

Bibliographie [Varela et al., 1993] Varela F.J., Thompson E., Rosch E., et al. L'inscription corporelle de l'esprit. Paris: Edition du Seuil, 1993, 377 p. Vilhjalmsson H. H. Autonomous Communicative Behaviors in Avatars. 50 p. Thse: Master of Science: Computer Sciences University of Iceland: 1997. Vilhjalmsson H. H. Avatar Augmented Online Conversation. 206 p. Thse: Philosophy: Massachusetts Institute of Technology: 2003.

[Vilhjalmsson, 1997]

[Vilhjalmsson, 2003]

[Wallace et al., 1994] Wallace J.G., Silberstein R.B., Bluff K., et al. Semantic Transparency, Brain Monitoring and Evaluation of Hybrid Cognitive Architectures. London, UK, 1994, p. 43-58. [Waters, 1987] Waters K. A muscle model for animating three-dimensional facial expressions. In SIGGRAPH'87, 1987, vol. 21, p. 17-41, Anaheim, CA, USA. Wolff M. Apports de l'analyse gomtrique des donnes pour la modlisation de l'activit. In Formalismes de modlisation pour l'analyse du travail et l'ergonomie Jean-Claude Sperandio et Marion Wolff (dir.), d. Paris, France: Presses Universitaires de France, 2003, p. 195-227.

[Wolff, 2003]

[Wolff et Visser, 2005] Wolff M. et Visser W. Mthodes et outils pour l'analyse des verbalisations : une contribution l'analyse du modle de l'interlocuteur dans la description d'itinraires In Activits, 2005, p. 99-118.

285

UNIVERSIT DE TECHNOLOGIE COMPIGNE

France Telecom R&D 2 avenue Pierre Marzin 22300 Lannion

Universit de Technologie Compigne Centre de recherche de Royallieu 60205 Compigne

Vous aimerez peut-être aussi