Vous êtes sur la page 1sur 22

Conception dun systme de communication multichelle

Sofiane Gueddana
Laboratoire de Recherche en Informatique
Universit Paris-Sud
91405 Orsay Cedex France
+33 6 99 45 04 09

sofiane.gueddana@laposte.net
ABSTRACT
De nos jours, la plupart des systmes de communication sont
bass sur plusieurs services spars, correspondants diffrents
niveaux de dtail. Cette sparation impose de changer de service
pour changer de niveau de dtail. Nous proposons une approche
nouvelle de services unifis pour des systmes de communication
qui peuvent tre qualifis de multi-chelles. Un systme de
communication multi-chelles est capable de transmettre un
niveau d'information variable et permet des transitions fluides
entre ces niveaux, pour sadapter aux contextes de son utilisation.
L'objectif de mon stage a t de concevoir et de raliser un
systme
de
communication
multi-chelles,
exploitant
principalement la vido et dont lutilisation est destine aux
membres du cercle familial. Aprs avoir tudi et prsent les
aspects thoriques lis la conception dun tel systme, nous
prsenterons le prototype conu et ralis. Enfin, nous verrons les
rponses quil a apportes aux problmatiques initialement
poses.

Categories and Subject Descriptors


H.4.3 [Information System Application]: Communication
Applications; H.5.1 [Information Interfaces and Presentation]:
Multimedia Information Systems; H.5.3 [Information Interfaces
and Presentation]: Group and Organization Interfaces

General Terms: Design.


Keywords
Communication mdiatise, vido, systme multi-chelles,
technologie domestique, systme interactif, interaction hommemachine, sonde technologique.

1. INTRODUCTION
Les technologies de la communication voluent vers une
diversification des usages et des services proposs, et la plupart
des systmes de communication se basent sur plusieurs services,
correspondants diffrents niveaux de dtail. Pourtant, ils
imposent la plupart du temps de changer de service pour changer
de niveau dinformation. Par exemple, les tlphones portables les
plus rcents combinent un ensemble de services correspondants
diffrents niveaux de dtail (e.g. identification de l'appelant, SMS,
MMS, messagerie vocale, tlphonie et ventuellement
visiophonie). Cet ventail de possibilits permet de contrebalancer
l'accessibilit permanente lie la possession du tlphone.
Cependant, les transitions entre niveaux sont gnralement
difficiles, voire impossible.
Lapproche nouvelle que nous proposons surmonte cette difficult
en introduisant la notion de systme de communication multi-

chelles : Un systme de communication peut tre qualifi de


multi-chelles s'il est capable de transmettre un niveau
d'information variable et permet des transitions fluides entre ces
niveaux. Cette dfinition est rapprocher de la notion d'espace
gomtrique 2D zoomable l'infini [44].
Le stage de recherche que jai effectu, avait pour but de
concevoir et de raliser un systme multi-chelles qui utilise les
images fixes et la vido pour la communication dans un cadre
familial et domestique. Les usages auxquels nous nous sommes
intress couvrent la fois la simple coordination entre individus,
la communication informelle ainsi que le partage dobjets
physiques ou informatiques.
Dans ce rapport, nous tudierons les aspects thoriques lis la
conception dun tel systme et nous prsenterons le prototype
conu et dvelopp. Dans une premire partie, nous commenons
par un aperu du contexte scientifique spcifique notre
problme. Nous prsenterons dabord, le contexte gnral des
outils en interaction Homme-Machine puis nous dcrirons la
stratgie de conception participative que nous avons adopt.
Ensuite, nous explorerons quelques systmes communiquant
utilisant limage, nous dgagerons les difficults que la littrature
nous permet de prvoir. Puis, nous prsenterons une synthse
bibliographique sur les rles pour notre contexte familial, de la
vision dans la communication et sur la capacit de la vido les
vhiculer. Ensuite, la revue de quelques logiciels de
communication nous permettra de situer relativement notre
approche. Dans une seconde partie, nous expliciterons les services
que doit fournir le systme que nous nous proposons de raliser,
et les contraintes quil doit prendre en compte. Ensuite, nous
dtaillerons la conception et le dveloppement de ce systme,
autour de la notion de systme de communication multi-chelles,
et au regard des requis prcdents. Puis nous prsenterons un
scnario dutilisation mettant en relief quelques fonctions que
notre systme ralise. Nous terminerons ce rapport en concluant
sur les lments de rponses quil a apport et les amliorations
possibles qui restent raliser.

2. CONTEXTE GENERAL
Dans cette partie, nous prsentons le contexte scientifique de
notre tude. Dabord, nous dfinirons notre stratgie de recherche
et les paradigmes dinteraction dans lesquels les nouveaux outils
sont conus. Ensuite nous dcrirons la mthodologie de
conception participative que nous avons choisi et en particulier les
sondes technologiques utilises dans le contexte familial. Puis,
nous tudierons lutilisation de la vido dans le contexte de la
communication informelle. Ensuite, nous verrons les rles
importants pour la communication familiale de la vision et nous
valuerons la capacit de la vido les vhiculer. Enfin, nous
ferons la revue de quelques logiciels de communication pour
situer notre approche.

2.1 Stratgie de recherche en Interaction


Homme-Machine
Les modles utiliss par les chercheurs en Interaction HommeMachine sont des simplifications abstraites de la ralit choisies
en fonction de leur capacit reprsenter les problmes poss,
prdire le rel et produire des solutions utiles. Ces modles qui
permettent de guider la conception de systmes interactifs sont
souvent issus des sciences humaines (e.g. psychologie,
ergonomie, sociologie).

Figure 1. Modles et conception participative.


Les thories qui guident la conception des systmes interactifs
viennent souvent des sciences humaines, en particulier de la
psychologie (par exemple la perception pr-attentive [54]), de
lergonomie et de la sociologie. Elles peuvent se rsumer dans des
principes gnraux (Gestalt perception), peuvent constituer des
thories part entires (Thorie cologique de la perception [28])
ou tre des techniques descriptives plus proches de
limplmentation (Machines tat, GOMS [8]). On utilise aussi
des lois empiriques qui sont issues dobservations contrles (par
exemple, loi de Fitts [25]).
L'observation de l'interaction entre des utilisateurs et le systme
tudi, plus ou moins ralis ou simul, fournit galement de
nombreuses informations utiles sa conception, permettant de
corroborer ou invalider les hypothses issues des modles
thoriques. La conception d'un systme interactif doit donc
reposer sur des itrations rptes entre une approche thorique et
la ralisation d'artefacts permettant l'valuation de cette approche
(Figure 1).
Norman en 1990 [42] a mis en vidence limportance de la
correspondance entre les modles mentaux des utilisateurs et le
modle conceptuel utilis dans la conception : Lutilisation de
mtaphores appropries et lexploitation des affordances1
naturelles conduit des systmes exploitant nos rflexes naturels,
plus intuitifs et demandant peu dapprentissage. Les mtaphores
sont un outil efficace pour la conception dinterface : en calquant
le fonctionnement dune application sur celui dun lment
courant du monde rel, on dcharge lutilisateur de la phase
dapprentissage [21].

environnement est directement la perception de possibilits


d'interaction avec ceux-ci. Ceci notamment par le fait qu'ils
obissent tous aux mmes lois universelles et familires de la
physique. Les ordinateurs eux, sont pour la plupart rigides et sont
rarement dusage intuitifs. Ils se comportent selon les rgles
dfinies par leurs concepteurs et programmeurs et ncessitent un
apprentissage.
Aux dbuts de linformatique, plusieurs personnes devaient
partager un seul ordinateur. Avec lavnement des ordinateurs
personnels, chaque personne pouvait avoir une machine.
Aujourd'hui, chacun peut avoir sa disposition de nombreux
systmes informatiques interactifs. Weiser en 93 [55], voyant la
convergence de plusieurs facteurs dans cette volution (une
miniaturisation plus importante, lacclration et la baisse des prix
des processeurs, le nombre plus important dordinateurs par
personne et le dveloppement des rseaux non filiaires) a prdit
larrive de lubiquitous computing2 : invisible everywhere
computing : Invisibles car petits, embarqus, ddis une tche.
Plusieurs par personne, de diffrentes tailles, accessibles
distance sans fils, configurables dynamiquement donc et rpartis
dans lenvironnement. Les badges actifs dvelopps par Olivetti
sont un bon exemple dapplications ubiquitaires : ils permettent
de recevoir des messages, et de rappeler les rendez-vous et les
runions, ils sont munis de cadrans alphanumriques et ragissent
des balises dissmines dans lenvironnement qui les connectent
au rseau informatique et localisent leur propritaire. Ils
ragissent la lumire et sont dsactiv dans lobscurit [33].
Cest aussi dans cette optique que sest dveloppe la ralit
augmente. La ralit augmente (ou ralit mixte) vise
"augmenter" les proprits des objets de notre environnement de
capacits de traitement d'information, par exemple en superposant
des informations limage du monde rel, comme lapplication de
maintenance dimprimantes (Karma de Feiner & Macintyre en 91
[22]). Dautres applications existent : donner voir les anciens
btiments dune ville (tourisme augment), pour les archologues
voir les annotations en mme temps que le site de fouille
archologique, et en particulier en mdecine, o les donnes 3D
provenant de limagerie mdicale et limage normale sont
fusionnes. La ralit augmente inclut aussi les interfaces
tangibles dfinies par Ishii [36] comme lincarnation
dinformations virtuelles dans des objets physiques, comme dans
la Marble Anwsering Machine de Bishop [16], et permettent ainsi
de se dispenser des interfaces usuelles comme les crans et les
boutons. Les interfaces tangibles permettent aussi lutilisateur de
contrler lordinateur travers des objets physiques (en utilisant
les objets habituels comme cest le cas du Digital Desk de Wellner
[56]). Les interfaces tangibles peuvent aussi servir communiquer
directement de faon tactile entre deux personnes distantes,
comme dans le cas de In Touch [7].

Les objets du monde physiques sont pour la plupart facile


utiliser, tout le monde sait comment interagir avec eux. Ils sont
faciles adapter des situations diffrentes, et portent en eux leur
mode demploi. Selon lapproche cologique de la perception de
Gibson [28], la perception des objets constituant notre

De manire plus gnrale, la ralit augmente cherche tablir


des ponts entre le monde physique et le monde informatique
travers de nouveaux paradigmes d'interaction. Pour raliser la
ralit mixte, il faut augmenter lutilisateur, augmenter lobjet ou
augmenter lenvironnement. Augmenter lutilisateur cest lui faire
porter linterface ( wearable computing [39]). Augmenter
lobjet cest utiliser un objet ou un ensemble dobjets comme
interface, comme dans le projet Table probe ou story table

Opportunits d'interaction offertes par le systme

En franais, informatique ubiquitaire ou dissmine

. Pour augmenter lenvironnement, il sagit daugmenter


plusieurs lments de lenvironnement, et aboutit des systmes
immersifs dans lesquels linterface est autour de lutilisateur
(AmbientRoom de Ishii & al [36]), par exemple, cela peut
consister dtecter lutilisateur et utiliser ses gestes pour piloter le
systme.
Nous avons vu les nouveaux paradigmes dinteraction dans
lesquels notre systme va sinscrire, nous prsenterons prsent
les nouvelles mthodologies de conceptions que lon utilisera.

2.2 Conception participative


Le processus traditionnel de production de logiciel se droule de
la faon suivante (appele en management cycle de vie en V):
d'abord les spcifications du besoin des utilisateurs sont produites
et fixe, puis on conoit la solution logicielle rpondant ces
besoins, ensuite on dveloppe cette solution. Enfin on livre
l'utilisateur final un logiciel dfinitif et fonctionnel.
La conception participative a un droulement diffrent (appel en
management cycle de vie en toile ou en spirale): Il s'agit de partir
aussi des spcifications mais pour concevoir et produire d'abord
un prototype, ensuite ce prototype est valu auprs de l'utilisateur
final et son usage observ, puis l'valuation et l'observation est
analyse afin de spcifier les nouveaux besoins et enfin relancer le
cycle de conception et de dveloppement.
La spcificit de la conception participative tient surtout dans la
participation de l'utilisateur final dans le processus de conception.
Dans la conception des interfaces des systmes interactifs, il s'agit
de trouver l'quilibre entre les moyens technologiques,
l'utilisabilit des systmes pour la tche laquelle ils sont ddis,
et les interactions ncessaires de lutilisateur. La conception
participative est centre sur l'utilisateur et allie l'ingnierie aux
connaissances des sciences humaines et aux mthodes du design
et de l'innovation. Elle en emprunte et en drive les techniques.
Parmi ces techniques on peut citer: l'incident critique, les
scnarios, le brainstorming et le prototypage.
Cette mthode de conception engendre un phnomne de coadaptation empchant de prdire priori la dfinition de loutil
idal. En effet, au cours de la conception de ce dernier, les
concepteurs corrigent et amliorent les dispositifs quils
dveloppent en tenant compte des remarques des utilisateurs.
Chaque itration du cycle de conception, va modifier la
perception de ces derniers qui devront se radapter pour soumettre
nouveau leurs commentaires.
La production de prototype fait intervenir plusieurs techniques qui
visent des amliorations justifies du design, en considrant
plusieurs alternatives de conception et en s'assurant de leurs
utilisabilit. Les prototypes raliss doivent tre rapides faire,
construits de faon modulaire pour supporter une volution
incrmentale, afin de pouvoir incorporer facilement des
changements dans la conception et peut-tre aboutir un produit
final. Les techniques de prototypage peuvent tre de diffrents
niveaux: simulation papier ou vido, ralisation plus ou moins
complte du systme.
Les techniques dvaluation utilises peuvent tre soit subjectives
(l'introspection, les interviews, les questionnaires, les notes
d'observation, etc) soit objectives par observation directe,
enregistrement et codage de donnes (tudes d'utilisabilit,
enregistrement audio ou vido, capture clavier et souris, etc).
Elles peuvent tre formelles et cibles comme les

exprimentations contrles, ou informelles et de porte plus


large. Souvent, la combinaison de plusieurs techniques est
ncessaire afin de ne pas ngliger des aspects importants.
La conception est aussi une activit crative gnratrice d'ides.
Elle s'inspire des systmes existants tout en restant critique et
tente de comprendre les utilisateurs. Par exemple les ateliers
(workshops) de conception participative rassemblent les
utilisateurs, les concepteurs et les chercheurs, et organisent les
ides travers des scnarios, des brainstorming et des analyses de
tches pour les prsenter par des prototypes et des simulations.
La conception doit aussi tenir compte des spcificits des supports
utiliss : par exemple le point d'attention des utilisateurs lors de la
consultation de vidos est au centre de l'cran.
Utilises en interaction homme machine, ces techniques ont pour
objectifs de confronter au plus tt les prototypes produits partir
des modles thoriques au besoin rel, de corriger le modle
thoriques et de concentrer le dveloppement sur les vrais
problmes. Le rsultat de cette faon de procder est d'obtenir une
meilleure adquation du modle thorique la ralit et entre les
logiciels produits, l'activit laquelle ils rpondent et l'utilisateur
qui ralise cette tche.
Si le concepteur est expert dans la production de solutions
logicielles des besoins quon lui soumet, lutilisateur est expert
de la tche quil doit accomplir et mme sil nest pas toujours
conscient de ses besoins et ne peut pas les expliciter, sa
participation aux produits quil utilise est nanmoins trs utile,
voire indispensable.

2.3 InterLiving et le concept de sondes


technologiques
InterLiving est un projet de recherche europen qui a rcemment
impliqu le LRI et l'INRIA (projet IST Disappearing Computer
initiative, jan 2001 - dc 2003). L'objectif de ce projet tait la
conception de nouvelles technologies de communication pour
l'environnement familial. Lune des originalits de ce projet tait
qu cette quipe de chercheurs pluridisciplinaire (ethnologie,
psychologie, design industriel et informatique) ont t associes
trois familles sudoises et trois familles franaises. Une part de la
coopration entre les chercheurs et les familles stait effectue
par le biais d'interviews et de rencontres-ateliers classiques, mais
cette coopration stait galement effectue par l'installation de
sondes technologiques chez les familles.
Dans le projet InterLiving, les mthodes classiques de conception
participative ont t compltes par la ralisation de sondes
technologiques. Les contraintes lies au contexte familial ne
permettaient pas aux chercheurs d'analyser in situ l'utilisation de
ces technologies. Les sondes avaient permis la fois de tester de
nouvelles technologies, de collecter des donnes d'utilisation dans
un contexte rel et d'encourager les familles rflchir avec les
chercheurs leurs besoins et aux solutions qui pouvaient tre
mises en oeuvre pour y rpondre. Lutilisation des sondes au sein
des familles avait aussi pour but de dvelopper des technologies
de la communication influenant le mode de vie des gens les
utilisant. Lutilisation des sondes permettait de comprendre
comment linformatique et les nouvelles technologies pouvaient
sinsrer dans la vie quotidienne de la famille. Il a t montr par
Dewsbury 2001 [17], quune utilisation approprie de ces
technologies pouvait amliorer la qualit de vie des personnes qui
les utilisent.

Le concept de sonde technologique diffre de celui de prototype


sur plusieurs points. Une sonde est trs simple et propose trs peu
de fonctionnalits, alors qu'un prototype peut en offrir plusieurs.
De plus, une sonde est mallable et est destine tre abandonne
: elle doit inspirer des ides, et les utilisations non envisages sont
encourages. D'ailleurs, puisqu'elle est destine tre jete,
l'utilisabilit d'une sonde n'est pas une caractristique aussi
importante qu'elle puisse ltre pour un prototype. Et surtout, une
sonde doit tre instrumente afin de fournir des donnes
d'utilisation.
Au cours du projet InterLiving, plusieurs sondes avaient t
labores, telles que le VideoProbe [12] et MirrorSpace [48].

2.3.1 VideoProbe

Figure 3. Mcanisme de vieillissement des images : les couleurs


et les contrastes disparaissent progressivement
Les rsultats du VideoProbe ont t intressants. En effet, les
scnes changes entre les familles, intentionnellement ou
automatiquement ont t utiles et reprsentent un usage nouveau
de la photographie, qui a t intgr par les familles au mme titre
quun rpondeur tlphonique. La prsence du VideoProbe a
augment la frquence des appels tlphoniques et a contribu
rapprocher les familles.
Un autre projet appel Digital Family Portrait men par
Mynatt & al en 2001, visait aussi surmonter le problme de la
distance gographique dans une famille. Toutefois, ce projet
sadressait aux personnes ges dont lloignement physique rend
difficile leur surveillance par les autres membres de la famille.
Dans ce projet, un systme combine des informations disparates
pour fournir aux autres membres de la famille une information
rsume dans un portrait. Contrairement au VidoProbe, le
Digital Family Portrait nest pas centr sur la communication. Son
objectif est la surveillance dun proche distance.

2.3.2 MirrorSpace
MirrorSpace [48] est un systme de communication vido original
reposant sur la mtaphore du miroir qui prend en compte la notion
de distance. Tandis que les systmes traditionnels se contentent de
crer un espace partag correspondant une distance
interpersonnelle particulire, mirrorSpace est l'inverse conu
pour offrir un continuum de distances permettant l'expression
d'une grande varit de relations entre individus (Roussel & Al
2003).
Figure 2. Le VidoProbe install chez une famille.
VidoProbe [12] est un dispositif qui permet de prendre
automatiquement des images de la vie familiale et de les partager
entre les foyers dune mme famille (Figure 2). Il est constitu
dun cran et dune camra, et se trouve connect des
vidoProbes situs dans dautres foyers de la mme famille. Les
photos qui sont prises par un videoProbe sont instantanment
partages et peuvent tre consultes sur les videoProbes distants.
Afin dviter aux utilisateurs du VidoProbe dtre submergs par
un nombre dimages grandissant d aux nombreuses photos quils
prennent, VidoProbe propose une solution ce problme en
incluant un mcanisme de vieillissement des images analogue
celui des photos relles : au fur et mesure que le temps passe, les
couleurs, ainsi que le contraste des images disparaissent. Au bout
dun certain temps, si les images nont pas t explicitement
retenues, elles sont limines (Figure 3).

Figure 4. MirrorSpace
Les flux vido des lieux relis par mirrorSpace sont affichs sur
un cran unique, fusionnant par transparence l'image des
participants locaux et distants. Afin de permettre des formes de
communication intimes o le regard joue un rle trs important, la
camra est place au centre de l'cran. Un utilisateur peut ainsi se
placer trs prs de celle-ci tout en tant toujours capable de voir la
personne distante et de communiquer avec elle (Figure 4). Le
dispositif comporte galement un capteur de proximit qui mesure
en continu la distance la personne ou l'objet le plus proche. Les
distances mesures sont utilises pour appliquer un effet de flou
sur chacune des images affiches. Cet effet a pour but de situer de
faon intuitive les personnes ou objets perus travers
mirrorSpace dans un espace virtuel partag. Le flou permet de
percevoir le mouvement d'une personne loigne avec un

minimum d'implication. Il offre galement un moyen naturel et


intuitif pour initier ou viter une transition vers un mode de
communication plus engag en se dplaant simplement vers le
dispositif (Figure 5) ou au contraire en s'en loignant.

Figure 5. Diminution de l'effet de flou accompagnant


l'approche d'une personne
Le logiciel cr pour ces installations a t conu selon le principe
des sondes technologiques voqu prcdemment. loccasion
des diffrentes expositions, il a ainsi enregistr de nombreuses
donnes d'utilisation qui ont permis de mieux comprendre
comment les utilisateurs peroivent le systme et den amliorer la
conception matrielle, logicielle et esthtique.
Nous avons prsent la mthode de conception participative, et
nous avons expliqu un concept important pour notre projet, celui
de sonde technologique dont nous avons dcrit plusieurs
applications. Le chapitre suivant est consacr dautres systmes
de communication centrs sur la notion de communication
informelle que nous allons expliquer.

2.4 Communication informelle et


MediaSpaces
La prsence physique dans un mme environnement commun
permet la connexion non planifie entre les personnes pour des
communications informelles. Contrairement aux communications
formelles qui sont prvues lavance, avec des participants fixs
et un ordre du jour, les communications informelles sont
imprvues, spontanes et opportunes, et seffectuent dans un
langage informel. Cette distinction que nous faisons entre
communication informelle et formelle est thorique. Dans sa
pratique, la frontire est floue et les situations de communication
mlent formel et informel.
Ces communications informelles sont particulirement
importantes et sont essentielles pour la survie du groupe quil soit
professionnel ou familial. Au quotidien et particulirement au
travail, la plupart des communications qui se produisent sont
informelles et il est important de pouvoir tomber sur
quelquun certains moments, tel que les aparts au cours dune
runion ou les rencontres dans les couloirs, et cest parfois de
cette faon que des lments importants sont changs.
Les dispositifs de communication traditionnels utilisant la vido,
tels que les systmes de vidoconfrences sont adapts un usage
formel. Cet usage de la vido semble inadapt, do peut-tre une
raison de son chec. Les dispositifs orients vers la
communication informelle ont connu plus de succs, malgr les
difficults inhrentes ce type de communication. Parmi ces
derniers, on peut citer MirrorSpace mais aussi les MediaSpaces.
Un MediaSpace est un dispositif permettant un groupe
ventuellement gographiquement dispers, de communiquer par
lintermdiaire de moyens audiovisuels et informatiques.
Techniquement, un MediaSpace repose sur un rseau audio/vido

pilot par des moyens informatiques ; chaque utilisateur dispose


dune station de travail, ainsi que dun moniteur vido, dune
camra, de haut-parleurs et dun microphone. A laide de logiciels
adapts, tout utilisateur peut tablir une connexion audio/vido
avec nimporte quel autre membre du groupe.
Les principales installations MediaSpace sont au nombre de
quatre : le premier est le MediaSpace du Xerox PARC en
Californie qui a donn son nom au concept [52] ; RAVE de
Xerox EuroPARC en Grande-Bretagne est son descendant direct
[27], et CAVECAT de lUniversit de Toronto repose sur une
partie de la technologie de RAVE [40] ; enfin Cruiser de Bellcore
est un systme MediaSpace assez diffrent des trois prcdents
[23]. Depuis ces premires expriences, plusieurs autres
laboratoires ont dvelopp des MediaSpaces titre exprimental,
comme le CoMedi au CLIPS-IMAG Grenoble [15].
Les MediaSpaces, permettent de saffranchir de la distance entre
les correspondants, pourtant ils sont principalement utiliss par
des personnes prsentes dans un mme btiment. Ils ont pour
objectif de renforcer la communication et la collaboration au sein
dun groupe. Cet aspect est compltement absent dans le
vidophone. Les MediaSpaces sont aussi un bon outil pour
faciliter la communication informelle entre les membres dun
groupe. Et cela travers les opportunit de rencontre non
planifies, similaire croiser une personne dans le couloir ou jeter
un coup dil dans un bureau ouvert, mais aussi en renforant la
perception du groupe, permettant par cela une contextualisation
de laction personnelle.
Les services offerts par un MediaSpace sont dtablir des
connexions audio/vido avec tout autre utilisateur du
MediaSpace. Ces connexions peuvent tre de diffrents types :
- une connexion rciproque de type vidophone: un utilisateur
initie une connexion avec un autre utilisateur, et tous deux sont
alors relis par une connexion audio/vido qui peut tre
interrompue linitiative de lun quelconque des deux utilisateurs.
- une connexion de courte dure, qui permet de jeter un coup
doeil (glance) chez un autre utilisateur.
- une connexion de longue dure, loffice-share, qui peut durer
de quelques heures plusieurs annes: cette connexion est tablie
de faon permanente entre deux utilisateurs, qui leur permet ainsi
de partager un bureau virtuel. Cette connexion permet une
communication informelle sur une longue dure [18].
- une connexion background, qui est une connexion de longue
dure, unidirectionnelle et uniquement vido, avec une partie
commune, typiquement la caftria, ou bien un quipement vido
tel un magntoscope ou un tuner TV.
Ces modes de communication soulvent de nombreuses questions.
La plus importante est srement celle de la protection de lespace
priv des utilisateurs du systme: les utilisateurs doivent
clairement avoir des moyens de contrler laccs leur espace
priv. Un MediaSpace doit inclure des mcanismes de protection
de lespace priv de lutilisateur. Mais on peut aussi sinterroger
sur lutilisation mme du MediaSpace. Le MediaSpace ne vise pas
remplacer la communication humaine directe ; il offre des
possibilits de communication supplmentaires [5]. Pour protger
lespace priv des utilisateurs, les MdiaSpaces ont t dots de
mcanismes de contrle. Pour que la connexion stablisse, il faut
que lutilisateur accepte explicitement. Toutefois, pour un service

comme le glance, cette ngociation explicite est trop intrusive


[13], aussi il fallait associer au contrle la notion de notification.
Le systme dorigine a t progressivement modifi et enrichi. De
ce point de vue, un MediaSpace peut tre un bon terrain
dexprimentations sur le fonctionnement dun groupe. Lapport
de la psychologie sociale et de lanthropologie est capital pour la
comprhension des interactions au sein dun groupe [31]. Le
MediaSpace favorise la communication, mais certaines
particularits de la communication humaine ne peuvent tre
transmises par le systme. Le contact visuel direct en est
lexemple le plus flagrant : pour croiser le regard de son
interlocuteur, il faudrait regarder lobjectif de la camra, ce qui
empche de regarder en mme temps lcran du moniteur.
La vision par ordinateur peut apporter des avantages certains ce
type de systmes de communicantion. Elle offre la possibilit de
capter le comportement de l'utilisateur dans son milieu naturel
sans adjonction d'artifices contraignants comme les cordons de
connexion du gant numrique. Lune des applications de la vision
par ordinateur est le suivi de mouvement. Les techniques
ncessaires existent dj isolment, mais elles prsentent des
faiblesses. Coutaz [14] propose un processus de coopration entre
ces techniques jouant la fois sur la redondance dinformation et
la complmentarit fonctionnelle pour doter les interfaces utilisant
la vision par ordinateur de robustesse et dautonomie.
Les problmes centraux qui dterminent le succs dun
mediaspace sont intgration dans les habitudes des utilisateurs, sa
flexibilit par rapport aux besoins de ses usagers et les
mcanismes permettant la prservation de lintimit des
utilisateurs. Lorsque ces exigences sont atteintes, lespace partag
par le mediaspace devient un lieu social dchange et de
communication.
Ces conclusions nous donnent un aperu des points essentiels
quil faut prendre en compte pour la conception dun systme de
communication utilisant la vido. Dans le chapitre suivant nous
avons choisi danalyser le rle de la vision dans la communication
et la capacit de la vido vhiculer ce rle. Ce chapitre servira
dterminer les comportements visuels que notre systme utilisant
la vido, permettra aux membres dune famille dutiliser pour
communiquer, et dont il faudra tenir compte pour sa conception.

2.5 Le rle de la vision dans la


communication.
Dans la communication naturelle, la vision a un rle important,
qui peut-tre partiellement vhicul par lutilisation de la vido
dans la mdiation de la communication distance.
Exception faite des tudes sur les coups dil (glance), la plupart
des tudes sur lusage de la vido la considrent comme un
complment la communication audio, contrairement aux projets
MirrorSpace et VideoProbe qui se basent sur limage seule
comme support de la communication. Cependant, on peut
souligner limportance du canal oral puisque sa suppression a un
impact norme sur la communication [9], probablement parce que
loral est le support langagier naturel. Allant dans le sens de cette
explication, parmi les usages intentionnels faits par les familles
utilisant le videoProbe, plusieurs reprises les utilisateurs ont
simplement laiss un message crit pos devant le vidoProbe.
Cela montre quil reste difficile de se dispenser totalement du
langage pour communiquer.

La plupart des tudes prenaient comme rfrence la


communication face face, car cest l que lon constate les
mcanismes naturels de comportement visuels dans la
communication. La communication face face (Face-to-Face) est
un processus multimodal, qui engage une interaction complexe
entre des comportements verbaux et visuels. Malgr la nature
multimodale de la communication prsentielle, la technologie de
communication distante la plus persuasive et la plus populaire
reste le tlphone, qui nest le support que de la modalit vocale.
Les tentatives denrichissement de la modalit vocale par lajout
dinformations supplmentaires nont pas conduit aux
amliorations attendues dans la communication distance. Les
tudes faites en laboratoires pour montrer les bnfices de la
modalit visuelle dans la communication, ont montr peu
damliorations objectives [9]. Les technologies qui ont ajout
limage la voix, comme les vidophones ou les dispositifs de
vidoconfrence nont toujours pas prouv leur russite sur le
march [19].
Aussi, pour mieux situer le rle que peut jouer la vido dans la
communication, nous allons dabords dfinir les aspects
importants de la communication, voir comment les
comportements visuels se manifestent et valuer lefficacit de la
vido pour vhiculer ces comportements.

2.5.1 La communication
Il y a plusieurs aspects fondamentaux dans la communication qui
ont besoin dtre pris en compte, quelque soit le mode de
communication utilis. Daprs Clark & Brennan [11], la
communication est une activit qui ncessite la coordination
conjointe du processus et du contenu par les participants.
Dans la coordination du processus, il y a deux aspect important :
la prise de parole et la disponibilit. Pour la communication
utilisant limage seule, seul le second aspect nous intresse. La
plupart des communications ne sont pas planifies, elles
requirent que les participants puissent savoir prcisment quand
les autres personnes sont disponibles et la pertinence de
commencer une interaction spontane, et cette connaissance est
base sur la perception du mouvement et des activits des autres
[32].
Dans la coordination du contenu, il sagit de comment les
participant atteignent et maintiennent une comprhension
commune dans une conversation [11]. Un aspect important de la
coordination du contenu est la rfrence. La rfrence permet aux
participants didentifier conjointement les objets de la
communication [10]. Un autre aspect de la coordination du
contenu concerne ltat affectif des participants et lattitude
interpersonnelle. Cest une information sociale sur les sentiments
des participants, leurs motions, et lattitude lgard des autres
participants et envers lobjet de la communication.

2.5.2 Le rle et la fonction de linformation visuelle


dans la communication
Les premiers travaux sur le rle de linformation visuelle dans la
communication ont montr quil est subtil et complexe. Dun
point de vue thorique, nous avons besoin de comprendre en
dtail la fonction que linformation visuelle joue dans la
communication. Dun point de vue pratique, il faut comprendre

quand et comment linformation visuelle est utilise pour la


communication.
Dans la communication visuelle, il y a deux types dinformations
visibles. Le premier est linformation propos des comportements
des autres participants, c'est--dire le regard, lexpression du
visage et la posture. Le second ensemble dinformations visuelles
est lenvironnement que les participants partagent.
Le regard est la faon dont on extrait des informations visibles de
lenvironnement. La direction vers laquelle une personne regarde,
la dure du regard dans une certaine direction, et la faon de
regarder sont des aspects importants du comportement visible.
Le regard est en gnral un indicateur de lattention et peut tre
dirig vers les autres participants, aussi bien que vers des lments
physiques de lenvironnement. Les gens sont trs bons pour
dterminer lendroit o les autres regardent. Cela facilite
lattention conjointe, et permet une grande flexibilit dans la
rfrenciation des objets. Le regard est aussi un indicateur de
lattitude interpersonnelle ou affective. Les gens valuent les
autres daprs leur faon de regarder : Ceux qui regardent peu
leurs interlocuteurs sont jugs dfensifs ou vasifs , ceux
qui regardent beaucoup sont jugs amicaux et sincres [38].
Pour prserver le contact oculaire dans les systmes vido, les
participants doivent regarder directement la camra, mais comme
la personne doit regarder limage de lautre personne, ou un cran
dordinateur, le contact oculaire nest pas possible. Le compromis
typique dans les vidophone ainsi que pour les ordinateurs est de
placer la camra au dessus de lcran. Il y a des nouvelles
techniques pour sauvegarder le contact oculaire : Le ClearBoard
[35] surimpose la vido des autres participants sur un tableau
commun, et la camra prserve le contact visuel en utilisant des
miroirs semi-rflchissant (tunnel vido). Sellen [49] dcrit un
dispositif combinant cran et camra o la camra est intgre
un cran suffisamment petit pour que le contact visuel soit
possible. Ott [43] propose un systme dans lequel limage de
lutilisateur vu de face est calcule numriquement partir des
images de deux camras situes lune en dessous et lautre audessus de lcran et pointes vers lutilisateur. Cette dernire
approche est la plus intressante car elle ne ncessite pas de
matriel spcifique.
Lexpression faciale est porte par les yeux, les sourcils, le nez, la
bouche et le front [20]. Le visage est aussi une source
dinformation riche sur ltat motionnel des participants. Les
yeux, la bouche et les sourcils sont hautement expressifs. Ekman
et Friesen [20] ont montr que les personnes quelque soit leur
culture sont capable de reconnatre sept expressions faciales
distincte daprs des photographies (la joie, la tristesse, la
surprise, la colre, le dgot, la peur et lintrt).
La posture est linformation fournie par linclinaison du corps et
lorientation du corps dun participant, en particulier son tronc et
le haut de son corps. La posture est un autre indicateur de lintrt
et de lengagement dun participant [6]. La position corporelle et
lorientation peuvent aussi tre utilises pour inclure ou exclure
une personne de la communication [30].
Le fait que les participants aient accs un espace physique
partag signifie que dautres types dinformations visibles sont
disponibles. Les interactions sur le lieu de travail ne sont
gnralement pas planifies [58] et linformation visible

reprsente un mcanisme pour initier de telles communications.


Les participants peuvent faire des infrences sur la disponibilit
des autres pour la communication en se basant sur linformation
visible. La disponibilit de cette information aide dans le
processus dinitiation et de terminaison dune communication.
Lenvironnement visible inclut des informations propos des
objets et des vnements dans lenvironnement partag aussi bien
que leur configuration spatiale. Lenvironnement visible fournit
une information contextuelle cruciale [59].

2.5.3 Lusage de la vido pour vhiculer des


informations visuelles
Trois hypothses sur lefficacit de la vido pour ce rle sont
tudies et prsentes : (a) La vido comme support de
comportements visibles et de communication non verbale. (b) La
vido fournit une information visuelle sur la disponibilit des
personnes et encourage la communication non prvue et
spontane. (c) La vido est aussi un support linformation
proprement visuelle propos dobjets ou dvnements qui ont
une importance pour les tches collaboratives (la vido comme
donne).
Lhypothse de communication non verbale est que les
comportements visibles comme le regard, les gestes, lexpression
faciale et la posture peuvent tre vhiculs par la vido. Il y a trois
versions de cette hypothse : (a) la vido fournit des indices
cognitifs facilitant le partage de la comprhension ; (b) la vido
offre des lments de coordination de la communication ; (c) la
vido offre des indices sociaux et permet laccs linformation
motionnelle. La premire hypothse suppose un usage de la
vido utilise comme complment de la parole ne nous intresse
pas, dans le contexte de ce travail. En ce qui concerne lhypothse
de la coordination de la communication, les systmes de
communication vido en gnral, ne reproduisent pas les
processus du face face. Ils ont tendance prsenter limage
depuis un seul cran, ce qui compromet la direction de la tte et la
direction du regard. Le dispositif utilis pour le MirrorSpace [48],
est lun des plus intressant de ce point de vue, car non seulement
il permet la conservation de la direction du regard (on peut
plonger dans le regard de lautre) mais il introduit la distance au
dispositif comme moyen de communication. Lusage de la vido
change surtout lissue et le caractre des communications qui
requirent laccs laffect et aux facteurs motionnels. Les
groupes utilisant vido ont tendance saimer les uns les autres
[60]. Les contraintes technologiques qui limitent la perception du
regard et lutilisation du contact oculaire, contribuent la
difficult pour la vido transmettre les signaux non verbaux
[60].
La seconde hypothse est que la vido fournit une information sur
la disponibilit, le mouvement et linterruptibilit des autres
personnes. Linformation dans lenvironnement visible facilite la
connexion pour des communications non planifies. Deux classes
dapplications vidos ont testes, les hypothses suivantes : (a) le
coup dil (glance) qui permet lutilisateur de regarder
rapidement dans le bureau dun collgue, pour sassurer de sa
disponibilit la communication. Et (b) des liens permanents dans
lesquels un canal vido persistant est maintenu entre deux
endroits spars. Fish & al [23] ont test diffrents types de coups
dil et lefficacit de chaque type tablir une interaction
spontane. Les rsultats ont montr que les participants veulent

contrler directement quand et avec qui ils se connectent et


utilisent le coup doeil comme prparation la communication.
La vido peut aussi tre utiliss de faon continue entre les
bureaux de deux collaborateurs distants [23]. Ce lien est sens
approximer le partage physique dun mme bureau. Toutefois,
Fish & al [23] ont rapport que lusage de ces dispositifs a donn
lieu des interactions brves plutt que des communications
longues. Les tudes sur terrain reliant des lieux publics, rapportent
une utilisation frquente de ces liens pour saluer [1]. Ces rsultats
montrent quil manque des preuves que les coups dil et les liens
permanents puissent tre utiles tablir la connexion. Ces
dfaillances semblent dues des facteurs de lvaluation, ou des
problmes dimplmentation comme limpossibilit dinterrompre
le lien permanent ou de lutiliser pour autre chose [57]. En
labsence de mcanismes de contrle et de notification,
lutilisation de la vido pour fournir des informations sur la
disponibilit est compromise par les besoins sociaux de
prservation de lintimit, ce rsultat rappelle les conclusions que
nous avons tirs de ltude des mdiaspaces.
Une hypothse alternative est que le bnfice majeur de la vido
est li sa capacit transmettre des informations complexes et
dynamiques sur les objets 3D partags, plutt que sur les
participants eux-mmes. Cette approche est motive par le fait que
les participants passent la plupart du temps regarder les objets
du travail plutt que les autres personnes. Ainsi, cette information
transmise en temps rel peut tre utilise pour la coordination du
contenu entre les quipes distribues et constitue un contexte
physique partag.

2.5.4 Conclusion sur lusage de la vido pour la


communication visuelle
Nous avons prsent les fonctions des informations visibles dans
la communication, et les arguments des trois hypothses propos
du rle de la vido dans la communication interpersonnelle.
A lexception des communications qui ncessitait laccs
linformation affective, peu de rsultats soutiennent lhypothse
de la communication non verbale. Linformation visuelle change
lissue des tches dpendant de laffect et de lmotion, soutenant
lhypothse des indices sociaux. Cette hypothse est trs
importante dans le cadre prsent de la communication familiale,
car les liens entres les membres dune familles sont de nature
affective. Les lments de coordination du processus de
communication relativement restent mal transmis par la vido.
Une explication possible est que les systmes actuels ne simulent
pas avec assez de prcision certains aspects de la communication
face face, comme la spatialisation de la vido [50].
Malgr limportance montre par les tudes de laspect
opportuniste des communications, le rle de la vido dans
linitiation de telles communications nest pas trs clair. Dautres
facteurs de conception ont aussi besoin dtre pris en compte
comme le temps mis tablir la communication, le style de
linitiation et les problmes dintimit [57]. Il serait aussi
intressant de voir quelles alternatives technologiques pourrait
fournir linformation sur la disponibilit et tre un substitut pour
linformation visuelle, comme les badges actifs [45]. Il est aussi
intressant de voir comment les technologies de communication
asynchrones pourraient substituer partiellement les rencontres
spontanes.

Finalement, la vido comme donne est un secteur prometteur.


Les travaux rcents sur lhypothse de la communication non
verbale offrent indirectement un support pour les objets et
lenvironnement partags. Toutefois, comme pour la connexion
opportune, il y a des problmes sociaux lis lintimit et
laccs qui doivent tre rsolus pour la vido comme donne.
Globalement, ces travaux suggrent que le bnfice de la vido est
spcifique aux tches et aux situations, et dpends des dispositifs
utiliss. La vido est donc utile pour initier des communications
opportunistes, pour partager des objets et pour communiquer le
rapport affectif et ltat motionnel. Notre systme de
communication prendra en compte ces rsultats en fournissant des
fonctionnalits pour supporter ces types de communications. Pour
situer notre projet relativement aux logiciels de communication
existant nous allons prsenter quelques un de ces logiciels.

2.6 Revue de quelques dispositifs de


communication interpersonnelle.
Les dispositifs de communication matriels (tlphones) ou
logiciels (messagerie instantane, vidoconfrence) actuels offrent
souvent diffrents services pour communiquer. Ces services
permettent une communication synchrone ou asynchrone, avec
diffrentes quantits dinformations et sont plus ou moins
engageants et intrusifs. Toutefois, ils sont organiss comme des
collections de services spars, sans relle cohrence densemble
ni transition entre chaque mode.
Du ct matriel, les tlphones mobiles les plus rcents
combinent un ensemble de services correspondants diffrents
niveaux de dtail (e.g. identification de l'appelant, SMS, MMS,
messagerie vocale, tlphonie et ventuellement visiophonie). Cet
ventail de possibilits permet de contrebalancer l'accessibilit
permanente lie la possession du tlphone. Cependant, les
transitions entre niveaux sont gnralement difficiles, voire
impossible. On ne peut pas prolonger une conversation
tlphonique par une conversation textuelle, lorsquon entre dans
un lieu silencieux, et faire la transition entre tlphonie et SMS.
Ou envoyer sur la messagerie tous les appelants except ceux dont
on attends un coup de fil lorsquon est occup, en liant
lidentification de lappelant et messagerie.
Du ct logiciel, il existe beaucoup de produits qui permettent la
communication interindividuelle. Certains sont spcifiquement
conus pour la communication vido, et dautres recouvrent des
modalits diverses (textuelle, audio, tlphonie via ip, vido, etc)
En ce qui concerne la vido, on peut citer iChat [3]. Cest le
logiciel dApple qui permet la vidoconfrence, il est orient vers
la communication vido comme complment de la communication
audio. Le mode vido permet de se voir et de choisir la position et
la taille de cette vue miroir sur l'image de l'autre. Les images des
utilisateurs distants, lorsque ces dernier sont plusieurs, sont
tournes sur les cot de faon donner limpression dun petit
espace 3D.
Les logiciels plus gnriques et plus populaires comme MSN
Messenger [41] ou AIM [2] (AOL Instant Messenger) sont
structurs autour dune liste de contact. Ils permettent de savoir
qui est connect, quand il se connecte, et qui est disponible la
communication. Leur fonction par dfaut (double click sur un
lment de la liste) est le chat, qui se transforme en envoi de-mail
pour les personnes non connectes. MSN remplit aussi la fonction

de connexion vido ou audio, permettant de faire de la


vidoconfrence, seulement ces fonctions sont prsentes comme
des extensions du chat. On peut signaler le logiciel Skype [29],
bien quil ne vhicule que laudio, il a lavantage dtre oprant
avec des tlphones classiques.
Ces diffrents logiciels ralisent certes une communication
multimodale ou vido seule, mais ils noffrent aucune transition
entre les modes. Aucun de ces logiciels ne permet de modifier sa
guise la quantit dinformation transmise ou reue ( part limage
miroir dans iChat), comme lintelligibilit du son ou la taille de
limage vido. Au mieux on peut modifier le volume du son du
correspondant, ou diviser par deux la taille de limage sur son
cran. Pour MSN qui supporte des modes multiples de
communication et donc des niveaux diffrents de dtail, il nexiste
aucune continuit entre les diffrents niveaux, et il est toujours un
peu trange dexpliquer formellement lautre personne quon
veut couper le lien vido et continuer avec le texte. De plus,
aucune rciprocit nest exige, le correspondant doit lui aussi
couper son image de son cot, ce quil fait en gnral.
Ces systmes ne peuvent sutiliser pour des connexions longues
ou permanentes. Ce type de communication en tout ou rien
combin la taille fixe de limage vido limite lusage que lon
peut en faire une vague simulation dune communication face
face, c'est--dire seconder la communication en audio. Il est
difficile dimaginer utiliser ce type de connexion de faon
permanente, par exemple pour faire du office share ou pour
partager son salon. Un autre inconvnient tablir une liaison
permanente est lencombrement de lcran de lordinateur par
limage et par linterface du logiciel, invitable moins de
consacrer sa machine cette application. Un autre problme
dintgration li plutt au systme quaux applications ellesmmes est le contrle exclusif du priphrique par lapplication,
qui empche que lon puisse utiliser la mme image dans
plusieurs logiciels.
Enfin, MSN prsente certains problmes de protection de la vie
prive. Il permet mme de modifier intentionnellement ltat
affich aux autres utilisateurs, donc de se connecter de faon
furtive et de pouvoir observer ltat des autres personnes sans tre
vu. Toutefois, il nest pas possible de filtrer slectivement les
demandes de connexions et de permettre certaines personnes et
pas dautre de demander la connexion, ce qui restreint lusage
des groupes homognes.
Bien entendu, tous ces logiciels ne supportent pas des fonctions
comme le glance utilis dans les mdiascapes, ce qui restreint les
initiatives dtablissement de la connexion vido, bien quils
fournissent une information sur la disponibilit des autres.
Enfin, le fait que ces logiciels soient construits partir de listes de
contacts ou de carnets dadresse, ils ne tiennent pas compte de
lexistence des groupes et se basent sur la pr-existance de liens
dans la ralit, prolongs par le logiciel. Par exemple, grce au
logiciel, il est possible de faire la connaissance de quelquun par
lintermdiaire dun autre, comme cela se produit incidemment
dans la ralit lorsquon arrive chez un ami et quon le trouve
avec quelquun. Mais il faut pour cela que lintermdiaire invite
explicitement les deux personnes partager la mme discussion,
ce qui ne se produit quasiment jamais. Un autre aspect qui nest
pas support est quon ne sait jamais qui connat qui et qui parle
qui. Parfois, la motivation se joindre une discussion tient

justement la perception dune discussion prexistante. Grce


ces logiciels, on peut arriver la situation trange o A parle avec
B et sparment avec C, et B et C qui parlent aussi sparment,
sans quaucun ne sache que les trois personnes parlent ensemble.
Un dernier problme li cette organisation autour dune liste est
la gestion de la liste elle-mme, quand on ne dsire plus tre vu
par quelquun. Alors que dans la ralit physique les liens qui se
desserrent entre les individus se passent progressivement et les
personnes disparaissent lun de la vue de lautre, dans ce type de
logiciel il faut supprimer explicitement la personne de sa liste de
contacts, si on ne veut plus quelle voie les informations que lon
destine aux autres membres de la liste, tels que les images et les
noms dont on se dote, ainsi que les moments o lon se connecte.
Globalement, cest principalement sur le modle du tlphone que
sont calqus les communications, et quils soient matriels ou
logiciels ces systmes de communication interpersonnelle
proposent des modalits diffrentes de communication sans
transition entre chaque modalit, ni contrle de la quantit
dinformation offerte dans chaque modalit. Ils prsentent des
lacunes dans la protection de lintimit et ne soutiennent pas la
notion de groupe social.
Aprs ce tour dhorizon thorique et technique, nous allons
maintenant prsenter le systme que nous avons ralis, tenant
compte des diffrentes conclusions tires dans cette premire
partie.

3. SYSTEME DE COMMUNICATION
MULTI-ECHELLES
Nous expliciterons les contraintes que respecte le systme que
nous avons ralise. Ensuite, nous dtaillerons la conception et le
dveloppement de ce systme. Enfin nous prsenterons un
scnario dutilisation mettant en relief quelques fonctions que
notre systme prend en charge.
Contraintes du projet: multichelles, communication proche et
sonde technologique
Dans la problmatique du sujet de mon stage, nous avons identifi
trois points principaux. La conception dun systme mutichelles,
ddi la communication dans le cadre domestique et familial,
ayant les caractristiques des sondes technologiques
Multi-chelles
Un systme de communication peut tre qualifi de multi-chelles
s'il est capable de transmettre un niveau d'information variable et
permet des transitions fluides entre ces niveaux. Cette dfinition
est rapprocher de la notion d'espace gomtrique 2D zoomable
l'infini (Perlin & Fox 93). En particulier, les notions de zoom
smantique et de zoom continu dans un espace 2D correspondent
exactement aux concepts de niveau d'information (niveaux d'ordre
smantique) et de transitions fluides.
Pour tenir compte de ces caractristiques, la communication entre
deux foyers doit tre envisage de manire synchrone (i.e. directe,
en temps rel) ou asynchrone. Elle doit sadapter au contexte, et
notamment selon leur disponibilit, les utilisateurs prfreront une
communication plus ou moins directe et plus ou moins riche.
Dans certains cas, lutilisation du systme de communication doit
tre considre comme une activit de premier plan. Dans
dautres, elle doit tre une activit secondaire parmi dautres.

Pour faire varier le niveau de dtail associ un flux dimages, on


peut faire varier la taille mais aussi le taux de rafrachissement des
images transmises et/ou affiches. Pour enrichir les images on
peut aussi utiliser des procds de composition spatiale ou
temporelle des images. Des modes de communication lgers
peuvent sappuyer sur un principe de rendu stylis. Dautres
techniques pourront au contraire enrichir le message transmis, en
combinant par exemple des images plus anciennes la dernire
image capture. Ces diffrents procds denrichissement ou
dallgement de limage transmise doivent tre articuls de faon
passer dun niveau lautre dune faon fluide et constituer
une adaptation contextuelle.
Enfin, le systme peut combiner diffrents mdia (e.g. image, son,
texte) et utiliser diffrents capteurs (e.g. dtecteur de mouvement,
capteurs de pression) pour dterminer le contexte d'utilisation, et
saffranchir des priphriques traditionnellement associs aux
systmes informatiques (e.g. clavier, souris). On peut galement
utiliser la camra comme priphrique dentre, en sappuyant sur
des techniques classiques de vision par ordinateur.
Communication dans le cadre domestique et familial
La famille est dabord un groupe dindividus qui est li par une
connaissance et une confiance mutuelle. Pour tenir compte de
cette caractristique, le systme doit tre capable de grer une
communication multisite, et crer un rseau entre tous les
membres.
Du point de vue de lusage du systme, un des problmes
rsoudre concerne le choix de la mtaphore et des techniques de
visualisation des images provenant des diffrents sites. La plupart
des systmes reposent sur la mtaphore de la fentre ou du miroir
et ne sont pas adapts des communications mettant en jeu plus
de deux sites.
La communication entre les membres dune mme famille est
quasi exclusivement informelle. Aussi linformation sur la
disponibilit des autres est cruciale, et le besoin de perception
priphrique de lactivit de chacun des membres doit tre
supporte par le systme, afin de coordonner leurs changes.
Cependant, si une liaison vido permanente parait la meilleure
solution pour assurer la communication de linformation sur la
disponibilit des personnes, il est vident que la vie prive de
chacun doit tre prserve. Lun des inconvnients pour les
familles du VideoProbe a t quune fois quune photo tait prise,
ils navaient aucun moyen dempcher sa diffusion. Il est essentiel
pour assurer ladoption du dispositif de communication dans le
contexte familial dassurer chacun des moyens de protger son
intimit tout en lui permettant de la partager. Un autre aspect de la
coordination des changes est lappel explicite. En effet, si on
peut se contenter de partager incidemment sa vie avec ses proches,
parfois on a besoin de les solliciter pour des communication de
premier plan, de les appeler ou au moins de leur laisser un
message.
Enfin, le lien familial est aussi souvent le lieu dchanges autres
que de communication ou dactivits; on partage souvent ses
photos, ou bien on montre aux autres membres des films ou des
vidos enregistres. En gnral, des objets de toutes sortes
circulent entre les membres, intentionnellement ou incidemment
et conduisent la constitution dun contexte partag. Le systme
doit pouvoir servir ce type de circulation.

Sonde technologique
Le processus de conception de ce systme de communication doit
tre aliment par lutilisation de sondes technologiques. Pour cela,
le systme doit tre instrument afin de rcolter des donnes utiles
sur lusage qui en est fait. Ces donnes doivent dabord mesurer
limpact que son introduction dans le contexte domestique a sur
les participants, et rendre compte de lefficacit du systme
rapprocher les diffrents membres. Ensuite, les donnes peuvent
servir comprendre comment le systme est utilis afin de
pouvoir lamliorer. Enfin, les donnes rcoltes peuvent tre
tudies sous leur aspect social, anthropologique et psychologique
pour mieux comprendre le fonctionnement des groupes familiaux
distants travers leurs interactions.
Pour tenir compte de ces aspect, le systme peut enregistrer trois
types de donnes diffrentes : Le rsultat final que lutilisateur
voit sur son cran peut servir analyser comment se passe
linteraction. Capturer les sources dimages utilises et les valeurs
des capteurs permet de rejouer les squences enregistres tout en
changeant les algorithmes qui rgissent linteraction. On peut
aussi enregistrer des donnes quantitatives et qualitatives, comme
le nombre et la dure des contact ou la proportion de contacts qui
aboutissent un change, afin danalyser plus globalement les
rsultats des interactions.

3.1 Conception et dveloppement du


prototype :
La conception du prototype, que nous avons appel PleMle,
devait donc tenir compte de la communication domestique et
familiale par une approche multichelle, et dans une moindre
mesure des caractristiques de sonde technologiques.
Pour la communication intime et informelle, sinspirant du
vidoProbe, lobjectif de la conception tait de tenir compte de
deux aspects : Le premier est le partage accidentel de vido des
personnes, d'objets et de situations de tous les jours. En effet, le
videoProbe a rvl l'importance pour les familles des images
illustrant les petits moments de la vie quotidienne que l'on ne
pense pas capturer intentionnellement. Ce type de partage
similaire l office share soutient laspect opportuniste de la
communication, et doit pouvoir se transformer en une
communication intentionnelle. Le second, le partage intentionnel
de vidos ou dimages, comme on le fait physiquement en
montrant les photos des vacances aux autres membres de la
famille. Pour cela, nous avons pens que le panneau sur lequel on
accroche les photo, que lon trouve parfois chez les familles est un
bon modle pour le fonctionnement automatique du systme :
Lorsquil nest pas utilis pour la communication intentionnelle,
lappareil peut prsenter soit des photos ou des vidos
intentionnellement partages (par exemple, des photos de
vacances) soit des vidos enregistres automatiquement dans les
diffrents foyers.
Bien que ce soit lintrieur dune mme famille, cette forme de
partage despace priv pose des problmes de protection de
lintimit. En fait, il nest pas ncessaire davoir une liaison vido
continue, et il est plus utile de dtecter un certain type
dvnement intressant partager. En dehors de ces moments, on
peut protger lintimit des familles en rduisant la quantit
dinformation transmise.

Ce changement de quantit dinformation relativement au


contexte correspond la communication multichelles. Nous
avons pens utiliser une forme de tableau de photos ractives
, o certaines photos ou vido sont des objets partags, tandis
que dautres reprsentent des lieux partags. En fonction du
contexte, les images pourraient changer de taille et de position,
mais surtout de quantit dinformation. Pour effectuer ces
changements de niveaux dinformations, nous avons dcid
dutilis des techniques de composition temporelles ou des rendus
styliss, comme la peinture huile ou le flou.
Il est important tant donn le contexte de communication
familiale, c'est--dire assez proche voire intime de pouvoir se
regarder dans les yeux. Aussi au niveau matriel, ce prototype
tait destin fonctionner sur un dispositif qui permet de
supporter la communication du regard,. similaire celui du
MirrorSpace, prsent actuellement au LRI La prise de vue du
systme MirrorSpace est assure par une camra USB dmonte
dont la partie optique a t place au centre dune plaque de verre
elle-mme place devant lcran. Cette disposition permet aux
utilisateurs du systme dtre trs proches du dispositif tout en
tant la fois vus par la camra et capables de voir les images
affiches.
La premire question que pose la conception est la prsentation
des images sur lcran.

3.1.1 Prsenter et partager des photos ractives


Lide du tableau de photo de laquelle on est parti pose le
problme de la prsentation. En effet, comment doit-on disposer
et prsenter les images et les vidos partages ou enregistres et
les images venant des autres participants ? Nous avons envisag et
essay plusieurs modles avant de choisir.
Nous sommes partis dune disposition alatoire ayant une
volution lente et alatoire. Cependant, la disposition et
lvolution alatoires ont comme inconvnient principal
limpossibilit de prvoir quelle est la place de chaque image, et
fortiori la position de limage de la camra locale et des lieux
distants. Un autre problme li cette mthode est que les images
locales et distantes peuvent tre caches et donc linformation sur
les autres personnes indisponible. Ce type dvolution est aussi
problmatique pour laspect multichelle du systme, changer le
niveau dinformation et la taille des images entre en conflit avec la
disposition alatoire, tant donn que si une image grandit elle
peut en cacher dautres. De cette premire disposition cest
surtout laspect volutif qui est intressant et a t retenu pour la
suite.
Comme autre modle, nous avons pens un modle en spirale.
Ce modle est intressant car il permet une reprsentation du
temps, ainsi une vido qui vient darriver ou une connexion vido
live peut apparatre au centre de la spirale et pousser les autres
images vers la priphrie et les images trop anciennes atteignant le
bord de lcran pourront tre supprimes. Son inconvnient
principal est quil semble peu adapt aux possibilits de
communication synchrone et en particulier multisite. De plus,
changer la taille des lments affichs tait assez compliqu dans
ce modle. De cette seconde disposition nous avons retenu la
ncessit doffrir une bonne reprsentation du temps.
Dans la littrature scientifique, lexemple du mdiaspace CoMedi
[15] utilise un porthole , une mosaque prsentant les diffrents

endroits, en fisheye, c'est--dire de forme hyperbolique, pour


supporter linformation sur la disponibilit du groupe. Cette
prsentation est intressante parce quelle permet de modifier le
niveau de granularit en largissant limage de la personne qui
nous intresse sans perdre compltement linformation sur les
autres personnes. Le modle hyperbolique du porthole du
mdiaspace CoMedi voqu prcdemment est aussi une solution
intressante pour disposer les images sur lcran. Cependant, il est
fait pour se concentrer sur une seule image et nest pas adapt
pour augmenter la granularit de deux images simultanment, en
particulier si ces images sont situes aux deux extrmes de la
grille.
Pour la disposition des images sur lcran, lutilisation dun
modle gomtrique sest impose. En effet, le systme tait plus
logique et plus intuitif partir du moment o des informations
implicites taient reprsentes gomtriquement. Notre choix sest
port sur une disposition circulaire et dynamique (Figure 5a).
Cette disposition permet aussi directement davoir une notion de
priphrie et de centre, vhiculant naturellement les fonctions de
perception priphrique et dactivit centrale de la faon suivant :
Au repos, les images sont places en priphrie et lorsquune
image est active, c'est--dire quand une personne veut utiliser le
systme ou quand le systme choisit une vido montrer, limage
se dplace au centre et grandit. Ce choix tait justifi sur le fait
que le point dattention dune personne consultant une vido est
port au centre de lcran. Cette disposition permet de changer de
niveau dinformation et dagrandir certaines images sans quelles
interfrent avec les autres. De plus, elles associent une position
sur le cercle un lieu ou une image. Toutefois, ce choix avait
plusieurs inconvnients. Le plus important est la faible possibilit
dvolution de la disposition : En rservant le centre limage
active, on ne peut faire voluer les images que le long du cercle,
ce qui rompt lassociation entre lieu et position. Lautre
inconvnient de cette disposition est la mauvaise exploitation des
coins de lcran, puisque le modle est circulaire, il aurait fallu un
cran circulaire. De plus la vido tant carre, il en rsulte aussi
une mauvaise exploitation de lespace central. Ce problme a t
contourn en utilisant une disposition en carr arrondi la place
de la disposition circulaire. Nous avons pens aussi utiliser un
modle semi-circulaire (Figure 5b), de la forme dun arc en ciel,
car sur la machine qui a servie au dveloppement lcran est de
format 16/9, la disposition en cercle ou en carr arrondi tant plus
adapte aux cran de format 4/3, comme celui des vidos utilises.
Un dernier problme est li lutilisation dans le temps. En effet,
il est important de savoir le moment o une vido arrive et lordre
darrive de plusieurs vidos, et le moment o une personne tait
devant lappareil et le temps coul depuis lequel elle ny est plus.
Nous avons amlior ce modle de prsentation en introduisant
une troisime dimension, utilisant la perspective : les vidos qui
arrivent du mme site sont place sur une ligne de fuite les plus
rcentes devant les plus anciennes en fonction de leur heure
darrive. Avec le temps, ces images drivent et rtrcissent pour
finir par atteindre le point de fuite, au bout dune priode plus ou
moins longue en fonction de lchelle temporelle utilise (Figure
5c). De plus, limage distante des diffrents sites se met aussi
driver partir du moment o il ny a plus de prsence dtecte
sur ces sites. Quand les vidos captures ou changes sont assez
frquentes, les images affiches successivement font apparatre les
lignes de fuites de la perspective, et on voit les moments o les
interactions ont eu lieu (par contraste aux vides des moments sans

interactions). Cette amlioration au modle de disposition permet


dune part de savoir quand chaque vido est arrive, les moments
o des interactions ont lieu, mais aussi approximativement depuis
combien de temps personne nest prsent sur chaque site. Le
modle rsultant volue avec le temps tout en donnant une assez
bonne reprsentation des dures.

Figure 5. (a) Prsentation circulaire, (b) semi-circulaire et


(c)Drive temporelle
Une autre question se pose du fait de la proprit communicante
du dispositif, savoir quelle correspondance existe entre les
diffrents plemles connects ensemble ?
Nous avons vu que la direction du regard joue un rle dans
lattention conjointe dans la communication, et que les individus
sont trs bons dans la prdiction de la direction du regard des
autres. Il parait important alors que les plemles aient des
prsentations identiques pour permettre aux participants de
deviner quelle est limage ou le lieu que le correspondant regarde
en ce moment. Un autre problme est relatif au partage de vidos
et de photos. Lorsque le systme est en veille il nous parait
important que la lecture dimages ou de vidos soit synchronis
sur tous les plemles afin de constituer un partage dobjet et
devenir potentiellement le sujet dune communication. Une
consultation automatique de cette sorte permet en regardant un
poste de savoir ce qui se passe sur les autres postes, et si une
personne y est prsente, ce quelle peut voir actuellement.

3.1.2 Visualisation et communication multi-sites


A part la disposition globale des images sur lcran, plusieurs
questions se sont poses sur la mtaphore et les techniques de
visualisation adapte au fait davoir plusieurs sites.
La mthode la plus couramment choisie pour le multisites est la
mosaque dans laquelle les diffrents intervenants sont placs cote
cote sur une grille.

MirrorSpace rsout ce problme de faon originale, en


superposant les images des diffrents sites par transparence. Cest
la mthode que nous avons choisi et implment (Figure 6). Cette
mthode est intressante bien quelle pose un problme quand les
images superposer sont plus de quatre, il devient difficile de
distinguer les visages et surtout qui est dans quel contexte. Nous
avons pens ce stade plusieurs modes de superposition,
comme lincrustation utilise dans lhypermirror ou la
multiplication, ou encore des mthodes qui amliorent le
contraste du rsultat final, comme le truchement dhistogramme
(Vernier & al). Nous avons pens aussi une superposition
partielle, cette solution semble intressante mais elle est difficile
mettre en uvre.
Nous avons aussi test une solution inspire par le multiblending
expliqu par Baudisch [4]. Limage de la camra locale
lorsquelle tait superpose limage distante tait pralablement
transforme en image en verre . Pour faire cela, nous avons
simplement utilis un filtre passe haut (emboss) pour ne garder
que les contours, puis superpos cette image en utilisant un mode
linear light proche de laddition. Plusieurs utilisateurs ont
trouv que le rsultat tait assez esthtique. Cette approche est
justifie par le fait que le systme visuel humain traite de faon
diffrencie les hautes et les basses frquences (voies visuelles
dorsale et ventrale).
Sur ce point, nous avons remarqu que la plupart des dispositifs
utilisant la vido pour la communication interpersonnelle donnent
systmatiquement plus de dtail pour le correspondant que pour
limage locale (cela est vrai pour les logiciels MSN et iChat, ainsi
que les systmes de vidophonie). La justification est que limage
du correspondant est le lieu de beaucoup plus de prlvement
dinformations (affectives, sociales, etc) tandis que lon connat
mieux ces informations pour soi mme et limage locale sert
surtout savoir ce quon donne voir, et est utile par exemple
pour se recadrer. Dans le systme que nous avons conu,
lapplication de cette remarque peut passer par lutilisation de
leffet verre prsent juste prcdemment ou tout simplement
par lutilisation dun alpha plus important pour le correspondant
que pour limage locale pour la superposition par transparence.

3.1.3 Dtecter des situations dusages


Un des aspects des systmes de communication multichelles est
leur capacit sadapter diffrentes situations dutilisation, pour
cela il faut pouvoir les dtecter.
Bien que nous devions au dpart utiliser des capteurs divers, par
exemple des capteurs de distance, tel que ceux utiliss pour le
MirrorSpace. Notre choix stait port sur lutilisation de l'image
en tant priphrique dentre car linformation quelle porte est
trs riche, et cette utilisation nous dispense dun priphrique
supplmentaire. Seulement utiliser le priphrique de capture
principal, c'est--dire la webcam, est aussi trs complexe et trs
coteuse en temps de calcul.

Figure 6. Utilisation de la superposition par transparence

Etant donne lexprience du VidoProbe pour lequel tait


utilise la dtection du changement de scne, nous avons pens
dtecter les mmes vnements, c'est--dire que quelque chose de
nouveau est devant la camra, pour dclencher le dbut de la
capture. Cependant, cette mthode a quelques inconvnients. En
effet, il y a trois vnements qui peuvent rsulter en une
diffrence entre les images actuelle et de rfrence : la prsence
dune personne devant la camra, le dplacement de la camra ou

un changement de la luminosit. En utilisant le dispositif prvu,


dans lequel la camra est fixe au centre de lcran, le deuxime
cas est limin. Reste le dernier cas, qui nest pas totalement
rsolu. Toutefois, il y a une dbut de solution mais que nous
navons pas test : dans la plupart des situations, un changement
de luminosit affecte toute limage, alors que la prsence dune
personne affecte une partie seulement de limage.
Nous avons choisi et implment la mthode utilisant la
diffrence entre limage courante et limage de rfrence
permettait cependant de dtecter la prsence dans la plupart des
cas. En utilisant la diffrence entre deux images successives il est
aussi possible de dtecter le mouvement.
Au dpart, la dtection de mouvement tait utilise pour capturer
la vido : la quantit de mouvement tait accumule et quand un
seuil tait dpass, la capture se dclenchait et en labsence de
mouvement, laccumulateur se vidait progressivement. Le
problme de cette mthode est quelle nenregistre que les scnes
de mouvement, et un utilisateur qui fait peu de mouvements
devant la camra tait rapidement ignor. De plus, la quantit de
mouvement (la surface de limage modifie) nest pas une
information trs pertinente pour lutilisateur, aussi nous avons
introduit lutilisation du temps, plus intuitive, et nous avons fini
par combiner les deux informations de prsence et de mouvement
de faon un peu similaire au VidoProbe. La combinaison que
nous avons utilise diffre cependant sur plusieurs points, tant
donn que nous souhaitons capturer de la vido et non des images
fixes : la prsence est dtecte partir du moment o la diffrence
entre image de rfrence et image actuelle persiste plus de 2
secondes. De faon similaire le mouvement est dtect si la
diffrence entre les images successives persiste pendant plus de 2
secondes. Si cette dernire est nulle pendant plus de 10 secondes,
limage de rfrence est mise jour. Ces choix sont plus justifis
par lutilisation qui est faite des vnements dtects que par la
dtection dune vraie prsence ou dun vrai mouvement.
Par ailleurs, nous avons rencontr aussi un problme
technologique dans lutilisation de la diffrence dimage pour la
dtection. Ce problme est li la sensibilit de la camra aux
conditions lumineuses : pour la lumire naturelle et celle des
ampoules incandescence quand elle est suffisamment forte
limage qui en rsulte est assez stable tandis que pour la lumire
des nons et des ampoules conomiques limage est lgrement
instable. Mais quand la lumire est faible limage est trs
parasite. De plus la stabilit de limage dpend de la camra
utilise. Il en rsulte pour la dtection utilisant la diffrence la
ncessit dun ajustement des seuils de ractions. Cet ajustement
peut-tre fait manuellement, en fonction de la camra et mis assez
haut par dfaut pour tenir compte des mauvaises conditions de
luminosit, il en rsulte que le systme de dtection voit mal
au sens o la modification de limage doit tre importantes pour
tre prise en compte.
Vers la fin de mon stage, nous avons explor et implment un
autre type dvnements : grce la librairie OpenCV [34], nous
avons pu utiliser la dtection et le suivi de visage pour extraire
trois vnements diffrents. Les deux premiers sont la prsence et
le mouvement dun visage face la camra. Le troisime est la
distance de ce visage : tant donn la faible variation de taille des
visages humains adultes, en particulier de la largeur, nous avons
pu en dduire la distance du visage lappareil. Cette dernire
mesure est prendre avec prcaution et serait fausse si un enfant

se sert de lappareil. Cette difficult pourrait tre contourne en


utilisant la reconnaissance de visage fournie par OpenCV pour
corriger la mesure.
La reconnaissance des visages est loin davoir pour seule
application la correction de la mesure de distance, et bien que
nous nayons pas conu des applications pour ce type
dinformation, nous avons cherch la tester pour en comprendre
les limites. Cette reconnaissance est assez efficace pour un petit
nombre de visages, comme cest le cas dans le contexte de lusage
domestique, et serait trs utile notre systme de communication.
Les vnements auxquelles nous nous sommes intress et ces
mthodes pour les dtecter, sont principalement orients pour
supporter une interaction intentionnelle de lutilisateur avec le
systme de communication. Notre systme ne se limite pas aux
usages intentionnels et doit permettre des usages accidentels .
Malheureusement, les mthodes utilisant la dtection du visage est
particulirement sensible la luminosit et lorientation du
visage. Et mme dans de bonnes conditions de luminosit, ce type
de dtection nest pas appropri pour la prsence dune personne
qui ninteragit pas avec le systme, et qui a peu de chance de se
placer assez prs et assez en face de lappareil. Cependant, pour la
dtection utilisant la diffrence dimage, elle est bien plus robuste,
mme si son utilisation en situation relle na pas t value.
Utilise pour enregistrer des vidos, les enregistrements sont assez
frquents. Mais il nest pas sr que les vidos rsultantes soient
suffisamment intressantes. En fait, il est difficile de dire priori
ce quest un vnement intressant partager et encore plus
difficile de le capturer compltement afin davoir une vido
intressante que lon voudrait garder. Ce problme ncessite
davantage dinvestigations qui amlioreraient nettement lintrt
de lenregistrement et du partage automatique.
Pour partager la vido comme donne dans la communication,
lutilisation de la dtection de visage pose certains problmes. Par
exemple, on ne peut se contenter de mettre un message crit sur
un papier devant le systme pour que celui-ci transmette le
message. Lutilisation de la diffrence par contre peut servir plus
facilement faire cela, il suffirait dagiter le papier puis de le
placer devant la camra et le systme se charge de transmettre
limage aux autres utilisateurs.
Un problme trs important que nous navons pas rsolu au cours
de ce stage est la possibilit dinteraction directe avec le systme
pour la consultation des vidos enregistres. En effet, il est
vident que si lon reoit une vido et que lon a envie de la
regarder il faut fournir un moyen de la dclencher manuellement,
sans cela il faudrait attendre que le systme la slectionne de luimme, ce qui peut prendre beaucoup de temps. Nous avons pens
pour cela deux solutions : la premire solution inspire de
lusage classique de la souris tait de disposer dun cran tactile et
de toucher llment que lon veut visualiser. Cette solution est
assez intuitive, mais elle a linconvnient dun quipement
spcialis incompatible avec le dispositif que nous avions prvu.
Elle est plus facilement ralisable en combinant lcran tactile
des techniques de vision par ordinateur pour simuler un point de
vue virtuel (e.g. le centre de lcran) partir des images de
plusieurs camras.
Nous avons aussi tent dutiliser des techniques rudimentaires
dinteraction par limage comme activer la zone o il y a le plus
de mouvement ou celle qui correspond la moyenne des
mouvements. Nous avons mme dvelopp ces solutions par

lintermdiaire dun spot que lon est cens pouvoir placer sur une
zone particulire. Malheureusement, le spot restait difficile
diriger, ces tentatives nont pas t trs concluantes, et nous ont
dcourag aller plus loin.

3.1.4 Prserver lintimit


Un autre aspect important du multichelles que nous avons
explor est la rduction dinformation. Cet aspect est essentiel
pour la protection de la vie prive des individus.
En plus de la rduction de la taille de limage ou de sa frquences
daffichage, il existe plusieurs faon de rduire la quantit
dinformation porte par une image. Notons que du fait de nature
dynamique des images vido, celles-ci sont perues comme plus
dtailles que les images fixes de la mme taille et de la mme
rsolution, car elles permettent de faire des infrences partir des
images successives pour extraire un plus grand nombre
dinformations. On peut signaler aussi que les diffrents filtres
nliminent pas tous les mmes types dinformations, par exemple
le filtre de publication utilis dans le mdiaspace CoMedi [15]
filtre uniquement les informations juges socialement
indsirables, en se basant sur une base dimage socialement
correctes.
Les filtres que nous avons utiliss avaient pour objectif de
diminuer le dtail des images et peuvent tre considrs comme
des filtres passe bas.
Dabord, nous avons utilis le flou gaussien pour effectuer cette
rduction dinformation. En appliquant un flou sur la vido, on
peut distinguer quil y a quelquun ou quelque chose, sans savoir
qui il est ou quelle est lactivit filme en fonction du niveau de
rduction utilis. Le flou peut-tre considr comme quivalent
une rduction de la rsolution ou une pixellisation. Cependant le
flou a lavantage esthtique de prserver la rsolution dorigine et
de donner une image plus. Toutefois, le flou gaussien est assez
gourmand en temps de calcul compar la rduction de
rsolution.
Nous avons explor aussi dautre faon de filtrer linformation
visuelle, par un rendu stylis. Nous avons pens deux types de
rendu : le premier bas sur la distorsion de limage est similaire
aux vitres de salles de bain. Et le deuxime est semblable leffet
peinture huile que lon trouve dans les logiciels de retouche
dimage du type de Photoshop. Le premier effet na pas t
dvelopp car nous navons pas trouv suffisamment
dinformations sur comment le raliser. Le dernier filtre a fait
lobjet de dveloppements et a t intgr dans le systme. En fait,
pour raliser cet effet de peinture huile, il faut remplacer la
couleur de chaque point de limage par la couleur la plus
frquente dans une zone circulaire autour de ce point. Nous avons
dvelopp deux versions de ce filtre, la premire base sur
linformation de couleur et la seconde sur linformation de
luminance. La seconde version du filtre a t retenue pour tre
intgre car elle avait un rsultat plus lisse. Lors de lintgration
de ce filtre nous avons rencontr un problme d au fait que ce
filtre est extrmement coteux en temps de calcul. Pour que ce
filtre cache suffisamment dinformation et prserve lintimit il
fallait que leffet soit trs prononc et le cot en temps de calcul
devenait extrmement lev pour gnrer le type de filtrage qui
nous intressait. Nous avons dabord pens exporter le calcul
sur une autre machine, comme cest le cas dans le mediaspace
CoMedi [15] pour le filtre de publication utilis. Mais tant donn

lobjectif de concevoir des technologies ad hoc, nous avons


prfr ne pas retenir cette possibilit, dautant plus que cela
pouvait encombrer le rseau et introduire du dlai dans les
communications synchrones. Pour rsoudre ce problme nous
avons dcid dutiliser une solution adapte notre usage : nous
utilisons ce filtre pour cacher une image qui variait peu et
correspondait labsence de toute personne. Aussi notre solution
tait de dcouper limage en petits morceaux et de faire un
morceau du calcul chaque fois. Cette solution a pourtant
linconvnient de donner des rsultats peu esthtiques lors des
transitions. En effet lorsquune personne vient se placer devant le
systme, la prsence est dtecte et le filtre est progressivement
supprim, mais ce dcoupage de limage devient visible car la
mise jour de chaque carr rsulte en un carr discontinu par
rapport ses voisins.
Enfin, Les rsultats du filtre peinture huile ne sont pas de la
mme qualit esthtique que celui nomm Aquarelle dans
Photoshop. Nous avons cherch un moment amliorer le filtre
produit et cela tait possible de plusieurs faons. Nous avons
pens lide dun filtre entre la peinture huile et le blur, ou
plus exactement une classe de filtres combinant ces deux filtres.
Cependant la conception du filtre peinture huile est seulement
un des lments du systme de communication.

3.1.5 Enrichir limage par le temps


Si il est possible de rduire grce filtres prcdents la quantit
dinformations transmises par les images sans modifier leur taille
ni leur rsolution, il est possible aussi de laugmenter.
On peut enrichir le message transmis, en combinant par exemple
des images plus anciennes la dernire image capture. De cette
faon, le passage dune personne laisserait des traces. Ce principe
de composition temporelle amne se poser deux questions :
dabord quel type de combinaison il faut utiliser, ensuite quelles
images plus anciennes faut-il garder. Nous avons dvelopp et
test diffrentes solutions pour ces deux problmes. Pour le
premier problme, nous avons essay deux possibilits de
combinaisons bases sur la superposition appele alpha blend. La
premire possibilit tait de superposer les n dernires images de
faon rcursive : limage la plus ancienne on superpose limage
suivante avec un alpha gal 50% pour chaque image, puis au
rsultat on superpose celle daprs et ainsi de suite jusqu
limage actuelle. Le rsultat de cette faon de procder est que
dans limage finale, la dernire image a comme importance 50%,
la prcdente 25%, la suivante 12,5% et celle de rang n a 100/2n
%. En pratique, le rsultat ressemble la rmanence vido
(appele aussi motion blur), prsente une trane lorsquil y a des
mouvements, si on prend un intervalle temporel assez faible
(moins de 0.5 sec) entre chaque image. Ce qui nous intressait
cest sa capacit enrichir limage en donnant une perception des
instants prcdents, aussi son utilisation devait tre faite avec un
intervalle temporel assez important (de lordre de 2-3 secondes).
Le problme avec cette mthode denrichissement est quelle ne
permet davoir plus de trois images mlanges, car au-del les
images ont une participation de moins de 7%, c'est--dire quils
ne sont plus perceptibles. Son avantage est de donner une certaine
perception de lordre temporel des images, puisque la plus
actuelle sera la plus visible et plus on recule dans le temps moins
limage est visible. Nous avons aussi explor une autre possibilit,
celle de superposer les n dernires images mais de faon obtenir
la fin une contribution de 100/n % pour chacune. Pour cela nous

avons compens leffet dattnuation du aux compositions


successives : le premier alpha blend se fait avec alpha =1/2, le
deuxime 1/3, le troisime , etc. Le rsultat de ce type de
composition est que toutes les images ont la mme participation
limage finale. Lavantage de procder de cette faon est quon
peut voir plus de trois images et en distinguer jusqu dix
diffrentes. Linconvnient de cette mthode est quelle ne permet
pas de savoir quelle est limage la plus rcente et laquelle est la
plus ancienne. Un autre problme rvl lusage est quelle
favorise les positions statiques. En effet, si dans un mouvement
sur dix images successives trois correspondent la position de
dpart, quatre correspondent aux diffrentes positions du
mouvement et trois correspondent la position darrive, on verra
principalement les positions darrive et de dpart car leurs
occurrences vont se renforcer les unes les autres et occulter les
images du mouvement. Cette mthode semble pourtant
intressante lorsquon veut superposer des instants qui ne
succdent pas, par exemple toutes les quelques minutes. En
gnral, lutilisation des deux mthodes prcdentes nous suggre
que le mieux serait davoir une composition entre les deux.
Un dernier problme relatif la mthode de superposition tient
lutilisation du alpha blending pour la composition des images. Ce
type de superposition donne limage finale un aspect terne et
gris, qui ne facilite pas la distinction entre les images initiales.
Mais il existe dautres types de superpositions qui sont plus
adapt au contexte de notre utilisation. Nous avons pens en
particulier la superposition par incrustation, car si le dispositif
ne change pas de place, cela signifie que le fond est toujours le
mme et quon pourrait superposer uniquement les parties
nouvelles de limage. Cette mthode na pas t dveloppe mme
si des modules allant dans ce sens ont t labors, car
lextraction du fond et du premier plan restent des techniques de
vision par ordinateur trop complexes pour entrer dans le cadre de
ce stage, tant donn que ce nest pas le sujet central.
La deuxime question pose par lenrichissement temporel des
images est moins technique mais plus complexe. Dans le
traitement de la premire question, nous avons suppos que les
images alimentant les procds expliqus taient prises
intervalles rguliers. Cette supposition limite lutilisation de ce
procd soit une fentre temporelle assez petite, de lordre de
quelques secondes, soit une fentre trop vaste ou les quelques
images prises au hasard et superposes ne sont pas toujours
reprsentatives de lactivit qui a lieu pendant ce temps l. Savoir
quelles sont les images intressantes superposer dpends aussi
de lusage que lon veut en faire. Dans notre cas, cest
principalement reprsenter lactivit et la disponibilit de lautre
personne. Cest lide du rsum gnr automatique qui se pose
et qui na pas t rsolue dans le contexte de ce stage.
Cependant, nous avons pens une autre faon dutiliser la
superposition temporelle, mais que nous navons pas test ni
valu, inspire par linstallation de Vincent Levy appele Le
panneau du temps qui passe. Dans cette installation, neuf images
sont affiches en mosaque : celle de linstant actuel, une seconde
avant, une minute avant, une heure avant, etc. Pour la
composition temporelle nous pouvons mlanger linstant actuel
les images provenant de quelques seconde avant, quelques minute
avant, etc. La diffrence avec cette mthode est quon ne va pas
supprimer la plus ancienne des images pour rajouter une plus
rcente, mais on aura plutt une modification de toutes les images

(puisque linstant actuel a chang, les autres qui y sont relatifs


aussi ont chang).

3.1.6 Lecture automatique et communication diffre


Pour remplir la fonction de consultation automatique, nous avons
explor deux points :
Le premier est la lecture vitesse variable de vidos enregistres.
Nous nous sommes intress ce point car contrairement aux
images fixes o on peut jeter un simple coup dil ou passer
plusieurs minutes les regarder, voire les afficher physiquement
ou en arrire plan dun bureau dordinateur, la consultation des
vido pose un problme de temps et de dure, particulirement
lorsquil sagit de vidos brutes et non montes. La lecture en
acclr permet davoir un aperu de quon ne veut pas voir,
tandis que le ralenti nous donne le temps de prendre encore plus
dinformations dans un flux qui passe. Lun des composants
dvelopps avait donc cet objectif.
Si nous nous sommes intresss ce point cest pour deux
raisons. Dabord pour explorer le problme du rsum
automatique : en se basant sur certains paramtres nous avons
voulu faire un systme qui va lire la vido en fonction de lintrt
du moment visualis : vite lorsque rien ne se passe, lentement
lorsque quelque chose de rapide se passe. Ce qui tait particulier
dans ce composant cest le fait quil passait de faon fluide dune
vitesse lautre.
Le dveloppement de ce composant a eu une continuation
imprvue : nous avons alors pens lapplication de ce procd
de lecture vitesse variable la vido capture par la camra. Ce
procd du temps rel vitesse variable a t appliqu pour
obtenir des transitions fluides entre la diffusion diffre et la
diffusion directe de limage. On pouvait alors ralentir le flux de
diffusion direct et passer dune faon fluide une diffusion
diffre et rciproquement. Dans notre systme de
communication, lors de la prsence dune personne, nous avons
choisi de diffuser son image en diffr. Cela permet
principalement dviter quune personne ne diffuse son image
alors quelle la juge gnante. Elle a un dlai dune dizaine de
secondes pour se rendre compte quelle est filme et de sortir du
champ de la camra. A partir du moment o elle nest plus visible
par la camra la diffusion est arrte, et comme la diffusion est
faite en retard les dix dernires secondes ne sont pas diffuses.
Quand la personne dsire passer de la simple prsence la
communication utilisant lappareil, le retard est progressivement
combl en acclrant le flux pour passer une diffusion en direct.
Rciproquement, lorsque la personne veut arrter la
communication et revenir une simple prsence, le flux est
retard en le ralentissant pour repasser une diffusion retarde.
Le deuxime point est limportance du feedback temporel lors de
la consultation dune vido. Nous avons pens implmenter un
trait qui se dplacerait de droite gauche sur limage, et qui
permettrait de situer linstant actuel dans la dure du flux : a
gauche le dbut et a droite la fin.
Pour assurer une communication asynchrone, nous avons conu et
dvelopp dans notre prototype un systme qui enregistre
automatiquement la vido partir du moment o on interagit avec
lappareil. Lenregistrement est arrt lorsque labsence est
constate. Nous avons prvu mais nous navons pas dvelopp, un
change des vidos enregistres ainsi que des images et des vidos
partages entre les plemles connects ensemble, lorsque

labsence est dtecte. Lors de labsence, la connexion vido nest


plus tablie et la bande passante rseau est libre pour ces
changes. Le rsultat prvu est que les diffrents plemeles vont
avoir les mmes fichiers images et vido, de cette faon on pourra
dclencher la lecture automatique simultanment des mmes
fichiers sur tous les pelemeles, crant un contexte partag.

3.1.7 Extensions du systme communicant


Lun des besoins importants identifi dans notre systme de
communication est lutilisation de laudio pour complter la
communication vido. Nous pensons que les capacits
communicantes du systme seraient tendues par le support de
telles fonctionnalits. Lutilisation de laudio ne se limite pas la
seule communication orale et une perception priphrique de
laudio pourrait avoir une place importante dans notre systme de
communication, en permettant le partage dun contexte audio.
Pour supporter ltablissement du canal audio deux questions se
sont poses : la voie que le canal oral allait emprunter et le
moment o ce canal allait tre tabli. Nous avons examin et tent
de dvelopper deux possibilits bases sur les deux outils Skype
[29] et les tlphones BlueTooth pour rpondre la premire
question. Rcemment, le logiciel de tlphonie via ip appel
Skype a mis la disposition des utilisateurs une API permettant
de le contrler de faon externe, depuis un autre programme.
Etant donn la popularit de Skype, cette API en faisait le
candidat idal remplir la fonction que lon avait besoin
dimplanter. Malheureusement, les tentatives de lutiliser se sont
heurtes de nombreux problmes dintgration dans
lenvironnement Mac OSX, lis au programme qui servait
dinterface cette API, nomm dbus [26]. A lheure de la
rdaction de ce rapport, lAPI a t amliore et adapte OSX,
et nous pensons que les problmes que nous avons rencontrs sont
dpasss. On peut signaler que ces problmes ne se posaient pas
dans lenvironnement Linux dans lequel notre systme tait aussi
test. Pour le bluetooth, son intrt dpasse simplement
ltablissement dun lien audio. Cependant, vu les difficults de la
premire solution, il remplissait la fonction que nous avions
besoin dutiliser. En ce qui concerne la deuxime question relative
au moment dtablissement du canal audio. Nous avions pens
dabords cliquer sur un lment qui apparat lors de linteraction
de deux personnes avec le systme. Nous avons pens aussi faire
un geste ou un mouvement de la tte, mais nos mthodes de
reconnaissance des gestes et de la tte ntaient pas au point pour
faire cela.
Finalement, nous nous sommes inspirs des donnes rcoltes par
le MirrorSpace et en particulier du jeu spontan de ses utilisateurs
de superposer leurs visages pour en faire une commande qui
tablit le lien audio. Linterruption de ce lien peut-tre faite en
sloignant de lappareil, c'est--dire en repassant de linteraction
la prsence simple. Lintrt de cette faon dtablir un canal
audio rside dabord dans sa spontanit et par la rciprocit
quelle exige. En effet, il nest pas besoin de dcrocher, il suffit de
se laisser superposer le visage. Linconvnient de cette faon
dappeler un correspondant rside dans lintimit quelle suppose,
gnralement on na pas envie de superposer son visage avec
nimporte qui, mais dans notre contexte lide reste tout de mme
acceptable.
Une autre utilisation de laudio laquelle nous avons pens et qui
nous semble primordiale est la notification par des sons quune
personne demande communiquer ou quelle est en train

dinteragir avec lappareil. En effet, la notification nous parait trs


importante car si on voit quune personne est prsente mais que
cette personne est occupe par autre chose, on peut faire des
signes devant la camra, mais si la personne ne regarde pas dans
la bonne direction, on a aucune chance dattirer son attention.
Nous avons identifi dautres besoins de notification. Comme la
prise en compte par lappareil de la personne qui se place devant.
Si cette personne ny fait pas attention, son image sera diffuse
sans quelle se rende compte. En gnral, il nous parait utile de
notifier les changements dtat de lappareil comme
ltablissement dun lien audio, le passage de lappareil en tat de
veille, etc.
Nous avons voqu prcdemment lutilisation de Skype et du
tlphone bluetooth. Cette possibilit dintgrer des outils
extrieurs nous semble importante dans le cadre de la
communication familiale. Nous pensons que dans ce contexte, il
faut que notre systme soit ouvert au sens o il est interoprant
avec dautres systmes dj existant dans les familles. Par
exemple, les tlphones bluetooth pourraient tre utiliss pour
identifier la personne qui est dans la pice ou encore en
approchant un tlphone du systme passer des images du
tlphone vers le plemle. Une autre utilisation possible de
linteroprabilit, cest la diffusion sur une tlvision dune vido
ou dune image dans le cadre de la consultation automatique ou
intentionnelle. En effet lcran dune tlvision est gnralement
assez grand et on peut y afficher sur tout lcran sans craindre de
cacher des parties du plemle, on disposerait alors de meilleures
possibilits de visualisation.

3.1.8 Aspects gnraux de conception


Le prototype a t conu de faon incrmentale laide de
brainstorming avec mon encadrant de stage. A chaque tape de la
conception, les choix de conception ont abouti au dveloppement
de composants autonomes accomplissant une partie des fonctions
du systme. Ces composants ont t ensuite valus sur le plan de
la performance et sur celui de linteraction. Quand le composant
dvelopp tait jug satisfaisant, il tait intgr aux autres
composants pour constituer par agrgation le prototype qui sera
prsent dans les parties suivantes du rapport. Il est important de
signaler que la plupart des composants conus et dvelopps ne
sont pas prsents dans le prototype final car soit ils nont pas
franchi ltape de la premire valuation, soit ils ont t intgrs
puis remplacs plus tard par dautres composants plus appropris.
Nous avons essay quand ctait possible dutiliser le principe de
redondance informationnelle qui facilite la comprhension pour
lusager du fonctionnement de lappareil. Par exemple, la taille et
la position sont deux indicateurs diffrents qui reproduisent la
mme information (au centre et grand signifie linteraction avec
lappareil, un peu priphrique et petit de taille signifie la
prsence, etc). Nous avons aussi essay davoir dans la mesure du
possible une vitesse dinteraction fixe pour donner lutilisateur
une interaction fluide. Par exemple, toutes les volutions sont
fonction du temps, et si dans un dplacement la machine est plus
lente parce quelle a plus de calculs faire, ce nest pas la vitesse
du mouvement qui est affecte mais la vitesse de rafrachissement.
Nous avons aussi liss les mouvements en utilisant les
algorithmes de easing quadratique afin de rendre les mouvements
et les volutions plus confortables et prdictibles, par exemple
pour les dplacements lutilisateur a surtout besoin de voir de
quelle position on part et laquelle on arrive, les dplacements

linaires ont linconvnient dun dplacement continu dont on ne


peut prvoir larrt.
Nous avons aussi constat dans la programmation comme dans la
conception du prototype que sans mme le vouloir
intentionnellement, nous avons introduit beaucoup dendroit des
comportements similaires celui des systmes perceptifs et
cognitifs humains. Que cela soit au niveau de la vision par
ordinateur, cest peut-tre vident, mais cest aussi dautres
niveaux moins vidents, par exemple lintroduction des seuil pour
passer des variables continues des tats discrets voque la
capacit catgoriser ou le comportement dun neurone, de mme
linterprtation dune prsence sans mouvement trop longue
rappelle la capacit des rcepteurs sensoriels qui soumis un
signal continu finissent par sadapter et considrer que ce nest
pas un signal.
Enfin, laspect sonde technologique est celui qui a t le moins
dvelopp dans ce stage. Bien que lenregistrement des sources
vido est dat de faon pouvoir les utiliser plus tard pour voir
comment lappareil a t utilis, lorganisation de toutes ces
fonctionnalits et le dveloppement du prototype ont t
prvilgis sur ce dernier aspect.

3.1.9 Aspects techniques et survol du code dvelopp


Le prototype du PleMle qui a t programm est dvelopp en
c++ sous les deux plateformes Mac OSX et Linux. Il sappuie
principalement sur la librairie Ncleo [47] qui permet dexplorer
les nouveaux usages de la vido et des nouvelles techniques
dinteraction homme-machine. Il utilise cette librairie aussi pour
la communication rseau pour lchange de vidos en TCP et
UDP, et utilise le module de rendez-vous Howl [46] pour trouver
automatiquement dautres PleMles sur rseau local. PleMle
utilise aussi sur OpenGL [51] pour ce qui concerne laffichage et
OpenCV [34] la librairie de vision par ordinateur, pour la
dtection et le suivi de visages.
PleMle a t test sur diffrentes machines, il tourne sans
problmes sur un PowerPC G4 ou un Pentium4 1,6GHz, mais de
faon plus fluide sur un Mac Mini ou un Mac Titanium. On peut
signaler que mme lors de la communication synchrone sur un
rseau local une latence de 1 2 secondes peut-tre observe.
Cette latence fait quon nobserve pas exactement le mme
rsultat sur les diffrents PleMles
PleMle prends en charge un fichier de configuration dans lequel
on peut spcifier les sources (images, vido et camra) quil doit
charger, ladresse ip ou le nom de service de autres PleMles
auquels il doit se connecter, et les modes de communications
(UDP, TCP ou les deux) quil doit prendre en charge. Il utilise
aussi un fichier de description quil fournit OpenCV lequel
lutilise pour la dtection des visages de face.
Le code du PleMle contient 10 fichiers principaux, consacrs
la gestion des lments sur lcran, aux filtres utiliss, la
dtection dvnements, au positionnement des lments, la
composition temporelle, et aux fonctions de communication
rseau.
Nous avons rencontr lors du dveloppement de ce programme
deux principales difficults. Dune part, lutilisation de la
programmation ractive base sur les vnements dont nous
connaissions les principes mais dont la pratique grce la librairie
Ncleo nous a permis de matriser en dtail le fonctionnement.

Dautre part, lvolution incrmentale du projet nous a empch


de pouvoir prvoir son volution et bien que nous avions utilis
une programmation modulaire, lvolution anarchique du code
nous a amen plusieurs plusieurs moments le restructurer
compltement afin de pouvoir continuer de le dvelopper. Nous
pensons prsent que la dfinition de rgles de programmation au
dpart nous aurait probablement permis de mieux matriser cette
volution. Enfin, nous avons approfondi notre connaissance du
langage c++ au contact de la librairie Ncleo, car certains aspects
les plus avancs nous taient jusqualors inconnus.

3.2 Scnario dutilisation : Un vnement


dans un salon partag
3.2.1 Mode demploi du systme
Dans ce scnario, on sintressera pour simplifier uniquement au
mode utilisant la dtection de visage.
Lorsquon est absent ou loin du dispositif, le PleMle se met en
veille, il va lire des vidos enregistres. Les images correspondant
chaque site distant ou local o il y a absence, se mettent
driver avec le temps le long dune ligne de fuite. Ces images
figes sont en plus brouilles par lapplication dun filtre
peinture huile .
Lorsquon est prsent mais assez loin du dispositif, mais dtect.
Le PleMle est toujours en veille, et continue de lire des vidos
enregistres ou partages, mais les images correspondant chaque
site distant ou local o il y a prsence ne drive plus et reviennent
la priphrie de lcran. Lapplication du filtre disparat et la
composition temporelle est utilise, elle mlange les images des
instants passs limage de linstant prsent diffr. Limage la
plus rcente que lon voit date dj de plusieurs secondes.
Lorsquon sapproche de face du dispositif. Le PleMle
interrompt lactivit de veille, les vidos en train dtre lues
reprennent leur place en priphrie, et les images correspondant
chaque site distant ou local o un utilisateur sest approch se
dplacent vers la position centrale et acclrent. Lorsquelle
atteint le centre le diffr nexiste plus et limage est en direct. Si
plusieurs images sont en position centrale, les plus rcentes
deviennent transparentes et on continue de voir toutes les images.
Si pendant cette phase deux visages sur les images centrales ont la
mme position et la mme taille alors un lien audio est tabli entre
les deux sites.
Lorsquon sloigne du dispositif, limage repart en priphrie en
ralentissant et en fonction de si on reste prsent ou si on sabsente,
soit la composition temporelle et le diffr reprennent, soit
limage sarrte et le filtre peinture huile et la drive
temporelle reprennent. Si aucune image de site distant nest au
centre de lcran, lactivit de lecture automatique reprends. Une
petite image correspondant limage capture pendant
linteraction apparat alors derrire limage locale.

3.2.2 Who, Where & What for


Utilisateurs : famille, groupes proches
Le systme que nous avons conu et dvelopp est destin la
communication dans un groupe proche comme une famille. Dans
ce scnario nous prenons le cas (rel) de plusieurs membres de la
mme famille qui vivent des distances importantes : Moi
Sofiane vivant Paris, mon frre Slim habitant Londre, ma sur
Hla Montral et mes parents Nbiha et Bchir habitant

Hammamet en Tunisie. Pour plus de ralisme, nous situons ce


scnario dans le futur, quand le rseau Internet pourra transporter
la vido rapidement sur ces distances importantes.
A quel endroit: Salon, LivingRoom
Le dispositif est destin tre utilis dans un cadre domestique,
dans la maison. En gnral, cest le salon qui est considr comme
le lieu ouvert o les changes entre les membres se passent. Pour
ce scnario, les plemles sont placs dans le salon de chacun des
participant, ou dans ce qui fait office de salon.
Pour faire quoi : Partager sa vie de tout les jours, des images
et des vido mais aussi pour communiquer ensemble
Le PleMle sert rapprocher les familles distantes
gographiquement. Pour cela, il permet de partager sa vie et la vie
des autres, travers des images de leur espace et de ce quil sy
passe mais aussi communiquer intentionnellement avec eux.

3.2.3 Dmonstration
En rentrant dune journe de travail, Sofiane arrive chez lui et
sinstalle devant sa tl afin de se dtendre. A cot de sa tl, son
PleMle tourne depuis plusieurs jours et il sest dbrouill pour
que chacun des membres de sa famille en ai un dans son salon.
(1) Drive automatique : Il y jette un coup dil et il vois que
limage qui lui vient du PleMle de sa sur Hla Montral a
presque disparu dans lhorizon de lappareil ; depuis la veille elle
nest pas revenue dans son salon. Par contre limage qui lui vient
de son frre Slim Londres drive depuis ce matin ; il ne doit pas
encore tre rentr du travail. Il voit aussi que quelquun est venu
dans la journe face lappareil dans le salon de ses parents en
Tunisie car limage a lair de driver seulement depuis quelques
heures, mais le rendu stylis lempche de voir de qui il sagit.

Figure 6. Lecture automatique de vidos


(3) Communication synchrone : Interrompant ses rflexions,
limage de Hla se met grandir et chasser la vido en lecture.
Sur son visage un grand sourire, et quand elle atteint le centre de
lcran et la taille maximale elle affiche le relev de ses rsultats
dexamens pour que Sofiane le voie. Il savance pour mieux
regarder, il voit alors quelle lui montre son relev de notes : elle a
russi sa rvision comptable. Son image se met aussi grandir et
se superpose limage de Hla.

Figure 6. Communication video synchrone


(4) Etablissement dun contact audio : Comme leurs deux
visages taient proches de la camra et au centre de lcran,
Sofiane entends le son du papier quelle agite devant lui, il lui dit
fait alors flicitations et la discussion sengage delle-mme.

Figure 6. Drive et perception du temps


(2) Consultation et enregistrement automatique de vidos :
Chacun de ses correspondant a un axe dans son cran, et il vois au
centre des vidos de sa discussion la veille avec son frre : Il avait
lair amus.

Figure 6. Etablissement dun contact audio


(5) Perception priphrique (peripheral awareness): Peu de
temps aprs limage venant de Tunisie cesse de driver et revient
vers le bord de lcran, Sofiane vois sa mre Nbiha dans
diffrentes images superposes. Hla se met alors faire des
signes de la main pour attirer son attention. Nbiha laperoit et
viens voir ce quil se passe, elle se superposent le visage et se
mettent bavarder intensment, Sofiane sloigne un peu de
lcran et son image se replace en priphrie.

Figure 6. Perception periphrique

4. Solutions apportes et problmes restant:


La conception et le dveloppement du systme de communication
multichelles centr sur lusage de la vido sont une tche difficile
qui implique des problmes nombreux et dautant plus complexes
quand ce systme regroupe plusieurs services et se destine
plusieurs usages. Nous avons essay en respect du principe de
conception en interaction homme-machine less is more et en
sinspirant des systmes assez simples du VideoProbe et du
MirrorSpace, de cacher au mieux la complexit lutilisateur et
daboutir un systme simple, homogne et complet, mais nous
nous navons pu apporter de rponse tous les problmes
soulevs par un tel systme dans les six mois de stages qui nous
taient impartis. Ce stage nous a tout de mme permis dapporter
des solutions logicielles ou des lments de conception rpondant
la plupart des contraintes que nous avons dfinies au dpart du
projet.
Ces contraintes sont au nombre de trois, la caractristique
multichelle, le contexte familial et laspect sondes
technologiques.
En ce qui concerne laspect multichelles, le PleMle permet de
communiquer de faon synchrone par le partage des images des
diffrents sites en temps rel. Il tait prvu pour supporter la
communication asynchrone en changeant vidos capture
intentionnellement ou accidentellement et des images et des
vidos intentionnellement partages. Nous avons conu ce dernier
aspect mais nous nen avons pas achev le dveloppement. Le
PleMle sadapte au contexte des utilisateurs en dtectant leur
prsence et leur besoin de communiquer, utilisant leur distance
lappareil et des procds bass sur la diffrence entre images ou
sur la dtection de visages, et en fonction de ces contextes, va
offrir une communication directe ou diffre, de premier plan ou
secondaire, en faisant varier le niveau de dtail associ au flux
dimages transmises ou affiches. Pour cela, il utilise des procds

de composition spatiale en jouant sur la position et la taille des


flux affichs, et temporelles en fusionnant des images successives
dans le temps. Il utilise aussi des filtres styliss de type peinture
huile et des mcanismes de diffusion diffre pour protger
lintimit de ses utilisateurs et leur permettre de communiquer de
faon plus lgres. Ces adaptations contextuelles offrant des
niveaux varis dinformations sont articules de faon continue
propre donner des transitions fluide dun niveau lautre.
Pour tenir compte de la communication dans le cadre familial, le
PleMle supporte une communication multi-sites. Pour cela, la
technique de visualisation quil utilise est la fusion des images des
correspondants par transparence. Afin de rendre possible une
communication informelle entre les membres de la mme famille,
le PleMle permet le partage accidentel ou intentionnel de scnes
de la vie quotidienne, la perception priphrique des autres
membres, et offre une information sur leur disponibilit, leur
permettant de coordonner leurs changes, sans utiliser des
connexions vidos permanentes et ininterruptibles, et en
prservant leur intim par lutilisation de filtres et la diffusion
diffre. Lchange de messages, dimages ou de vido ainsi que
lappel explicite, ont fait lobjet dune conception,mais nont pas
t dvelopp dans le PleMle faute de temps. Cest
lexploration de ce dernier point a dailleurs mis en vidence
limportance pour les systmes communicant pour lusage familial
dtre des dispositifs ouvert et interoprants avec les outils dj
utiliss par les familles. Allant dans ce sens, PleMle permet
denrichir la communication vido ltablissement dun canal
audio entre les sites utilisant les logiciels de tlphonie via ip.
Le dernier aspect, concernant les sondes technologiques, a t
moins pris en compte dans ce projet. Nous avions prvu au dpart
la capture du rsultat final de linteraction, des valeurs des
capteurs, de donnes quantitatives et qualitatives sur lusage et les
sources vido changes et utilises pour la communication.
PleMle tient compte uniquement du dernier point car il
enregistre et il date les sources vido des interactions avec le
systme, qui pourront tre analyses pour mieux comprendre
lusage qui en est fait et pouvoir lamliorer

5. CONCLUSION & PERSPECTIVES


Dans ce rapport, nous avons prsent un systme de
communication bas sur limage, pour le cadre domestique et
familial. La solution conue et dveloppe, fonde sur la notion
de communication multi-chelles, sadapte aux contextes dusages
des familles, leur permettant de partager des images de la vie
quotidienne tout en prservant leur intimit. Notre systme couvre
des situations de communication exigeant des niveaux
dinformations et dengagement variable, tout en permettant des
transitions fluides entre ces niveaux.
Dun point de vue thorique, notre tude du contexte gnral nous
a permis de dfinir la mthodologie de conception et dorganiser
les problmes lis lutilisation de la vido pour la
communication entre les membres distants dune mme famille.
Nous avons vu que la mthodologie de la conception participative
est approprie notre problme et que le concept de sondes
technologiques permet de lappliquer dans le contexte familial.
Nous avons dlimit les problmes quil faut prendre en compte
pour quun systme de communication utilisant la vido soit
adopt par ses usagers: la flexibilit des usages, lintgrabilit des
outils et la prservation de la vie prive. Ensuite, nous avons

prsent le rle de la vido comme vhicule de la communication


des indices visuels et nous avons dgag les aspects importants
pour notre contexte : dune part, la communication informelle et
la coordination des membres dune mme famille, dautre part, les
liens et les indices affectifs visuels et le partage de contexte
physique.
Du point de vue pratique, nous avons dvelopp autour de la
notion de communication multi-chelles les solutions
conceptuelles et logicielles permettant de prendre en compte tous
ces aspects. Le programme dvelopp, appel PleMle, permet
de dtecter et dadapter le niveau de dtail des situations
dusages diffrentes. Il rend possible de communiquer de faon
synchrone en direct ou en diffr, dtablir un lien audio ou de
supporter la communication priphrique, le partage de contexte
et la coordination, tout en fournissant des transitions fluides entre
tous ces modes. Nous avons prsent ces fonctions sous la forme
dun scnario dutilisation.
Malgr ces avances, le problme des outils de communication
multi-chelles dans le cadre familial est loin dtre entirement
rsolu. La prochaine tape est dabord de complter le
dveloppement de notre logiciel, le PleMle, pour rpondre aux
besoins que nous avons identifis mais quil ne supporte pas
encore, c'est--dire le partage dimages pour la communication
asynchrone et la notification. Ensuite, il sagit dinstrumentaliser
correctement le dispositif afin damliorer sa capacit rcolter
des donnes in situ. Enfin, il sagit dexplorer linteroprabilit du
systme avec dautres systmes existants, les possibilits
dutilisation de capteurs et de configurations matriels diffrentes,
et surtout dexprimenter le systme dans des conditions relles
chez des familles.

6. REMERCIEMENTS
Tout dabord, je tiens remercier toute lquipe du projet inSitu
pour son accueil chaleureux et en particulier Emmanuel Nars qui
ma aid chaque fois que jen avais besoin et Jacob Eisenstein
qui ma pass un morceau de code qui ma permis dutiliser
facilement OpenCV.
Je remercie surtout M. Nicolas Roussel, mon encadrant de stage,
dont laide et lclairage mont t trs prcieux et qui ma form,
soutenu et encourag jusqu la fin. Jaimerais aussi remercier
Michel Beaudouin-Lafon et Wendy Mackay dont les cours mont
t trs utile durant ce stage.
Je tiens aussi remercier les membres de ma famille qui du fait de
notre dispersion gographique ma rendu plus sensible la
situation que jai tudie. En particulier, je remercie ma sur Hla
et ma mre Nbiha qui ont contribu mon travail en jouant dans
mon scnario, et mon pre qui a tenu venir Paris pour me voir
soutenir ce projet.
Je voudrais aussi remercier mon ancienne colocataire Aurlie
Vandeginste pour sa contribution en me prtant sa machine pour
tester mon systme et en acceptant de jouer les utilisateurs nafs
(de moins en moins nave dailleurs). Je remercierais aussi
volontiers tous mes amis qui ont t intresss par mon systme et
qui en lessayant et en discutant de certains aspects mont inspir
des nouvelles ides ( savoir Fly, Dom, Dim, Cedbou, etc).
Jaimerais enfin remercier Lina qui, par lenthousiasme quelle &
montr pour ce travail, ma beaucoup encourag my investir et
ma persuad de son intrt.

7. BIBLIOGRAPHIE
[1] Abel, M.J. Experiences in an exploratory distributed
organization, In J. Galegher, R. Kraut & C. Egido,(Eds.),
Intellectual Teamwork, Hillsdale, NJ: Lawrence Erlbaum,
489-510, 1990.
[2] AOL, AIM (AOL Instant Messenger) http://www.aim.com/
[3] Apple, iChat AV
http://www.apple.com/macosx/features/ichat/
[4] Baudisch, P. and Gutwin, C. Multiblending: displaying
overlapping windows simultaneously without the drawbacks
of alpha blending. In Proceeding of CHI 2004, Vienna
Austria, pp. 367-374, April 2004.
[5] Bly, S.A., Harrison, S.R. & Irwin S. Media Spaces: Bringing
People Together in a Video, Audio, and Computing
Environment, Communications of the ACM, Janvier 1993.
[6] Bull, P.E. The interpretation of posture through an
alternative methodology to role play. British Journal of
Social and Clinical Psychology 17, 1-6, 1978.
[7] Buxton, W. Hill, R. & Rowley, P. Issues and Techniques in
Touch-Sensitive Tablet Input, Computer Graphics, 19(3),
215-224. 1985.
[8] Card, S., Moran, T. & Newell, A. The Psychology of
Human-Computer Interaction. Hillsdale, NJ: Erlbaum, 1983.
[9] Chapanis, A. Interactive Human Communication. Scientific
American, Vol. 232, pp 36-42, 1975.
[10] Clark, H. H., & Marshall, C. R. Definite reference and
mutual knowledge. In A. K. Joshi, B. Webber, & I. Sag
(Eds.), Elements of discourse understanding (pp. 10-63).
Cambridge: Cambridge University Press, 1981.
[11] Clark, H.H., & Brennan S.E. Grounding in Communication.
In L.Resnick, J. Levine & S. Teasley (Eds.), Perspectives on
Socially Shared Cognition (127-149). Hyattsville, MD:
American Psychological Association, 1991.
[12] Conversy, S., Roussel, N., Hansen, Evans, H. H., BeaudouinLafon, M. and Mackay, W. Partager les images de la vie
quotidienne et familiale avec videoProbe. In Proceedings of
IHM 2003, pages 228-231, ACM, International Conference
Proceedings Series. Novembre 2003.
[13] Cool, C., Fish, R.S., Kraut R.E., and Lowery, C.M. Iterative
Design of Video Communication Systems. In Proceedings of
ACM CSCW'92 Conference on Computer-Supported
Cooperative Work, Toronto, Ontario, pages 25-32. ACM,
New York, November 1992.
[14] Coutaz, J. Brard, F. and Crowley, J.L. Coordination of
perceptual processes for Computer Mediated
Communication, in Procs. of Second International
Conference on Automatic Face and Gesture Recognition,
Killington, Vermont, 1996.
[15] Coutaz, J., Brard, F., Carraux, E. & Crowley, L. Early
Experience with the Mediaspace CoMedi. EHCI 1998: 5772, 1998.
[16] Crampton Smith, G. The Hand That Rocks the Cradle. I.D.
May/June: 60-65. 1995.
[17] Dewsbury, G and Edge, M. "Designing the home to meet the
needs of tomorrow today", Open House International,

Vol. 26 (2). (2001)


www.rgu.ac.uk/files/DewsburyEdge2001.pdf
[18] Dourish, P. & Bly, S.A. Portholes : Supporting Awareness in
a Distributed Work Group, Proceedings of the CHI92
Conference on Human Factors in Computing Systems,
Monterey, p. 541, 1992.
[19] Edigo, C. Teleconferencing as a technology to support cooperative work: Its possibilities and limitations. In J.
Gallegher, R. E. Kraut, & C. Edigo (Eds.) Intellectual
teamwork: Social and technological foundations of
cooperative work (pp. 351-371). Hillsdale, NJ. Erlbaum
Associates, 1990.
[20] Ekman, P., & Friesen, W. V. Unmasking the face.
Englewood Cliffs, N. J.: Prentice-Hall, 1975.
[21] Erickson, T.D. Working with Interface Metaphors, in The
Art of Human-Computer Interface Design, Brenda Laurel,
ed., Addison- Wesley, 1990.
[22] Feiner, S., MacIntyre, B. and Seligmann, D. Karma
(knowledge-based augmented reality for maintenance
assistance), 1993.
http://www.cs.columbia.edu/graphics/projects/karma/
karma.html
[23] Fish, R., Kraut, R., Root, R. & Rice, R. Video as a
technology for informal communication. Communications of
the ACM, 36:1, 48-61, 1993.
[24] Fish, R.S., Kraut, R.E., Root, R.W. & Rice R.E. Evaluating
Video as a Technology for Informal Communications,
Proceedings of the CHI92 Conference on Human Factors in
Computing Systems, Monterey, p. 37, 1992.
[25] Fitts, P. The information capacity of the human motor system
in controlling amplitude and movement. In: Journal of
Experimental Psychology. 47 - p. 381-391, 1954.
[26] Freedesktop.org, dbus
http://www.freedesktop.org/Software/dbus
[27] Gaver, W., Moran, T., MacLean, A., Lvstrand, L., Dourish,
P. Carter, K. & Buxton, W. Realizing a Video Environment:
EuroPARCs RAVE System, Proceedings of the CHI92
Conference 1992.
[28] Gibson, J. The Ecological Approach to Visual Perception,
1979.
[29] Global P2P Telephony Company, Skype
http://www.skype.com/
[30] Goodwin, C. Conversational Organization : interaction
between speakers and hearers, Academic Press, New York
and London, 1981.
[31] Grudin, J. Why groupware applications fail: problems in
design and evaluation, in Office: Technology and People,
Elsevier Science Publishers, p. 245, 1989.
[32] Heath, C. C. & Luff, P. K. Disembodied Conduct:
asymmetries in video mediated Iinteraction in an office
environment, CHI'91: Reaching Through Technology. New
Orleans. pp. 92-106, 1991.
[33] Hopper, A., Harter A. and Blackie, T. The Active Badge
System. In Proceedings of ACM INTERCHI93 Conference

on Human Factors in Computing Systems, pages 335-341.


ACM, New York, 1993.
[34] Intel, L de la librairie OpenCV (Open Source Computer
Vision Library).
http://www.intel.com/research/mrl/research/opencv/
[35] Ishii, H. and Kobayashi, M., "ClearBoard: A Seamless Media
for Shared Drawing and Conversation with Eye-Contact,"
Proceedings of Conference on Human Factors in Computing
Systems (CHI '92), ACM SIGCHI, Monterey, pp. 525-532,
3-7 May 1992.
[36] Ishii, H. and Ullmer, B. Tangible bits: Towards seamless
interfaces between people, bits and atoms. In Proceedings of
ACM CHI 97 Conference on Human Factors in Computing
Systems, volume 1 of PAPERS: Beyond the Desktop, pages
234-241, 1997.
[37] Ishii, H., et al., ambientROOM: integrating ambient media
with architectural space, CHI'98,173-174, 1998.
[38] Kleck, R. E., & Nuessle, W. Congruence between the
indicative and communicative function of eye contact in
interpersonal relations. British Journal of Social and Clinical
Psychology, 7, 241246, 1968.
[39] Mann, S. Smart clothing: The shift to wearable computing.
Communications of the ACM, pages 23-24, August 1996.
[40] Mantei, M., Backer, R.M., Sellen, A., Buxton, W. Milligan,
T., Wellman B.: Experiences in the use of a Media Space,
Proceedings of the CHI91 Conference on Human Factors in
Computing Systems, Nouvelle-Orlans, p. 203, 1991.
[41] Microsoft, MSN Messenger http://messenger.msn.com/
[42] Norman, D. Psychology of Everyday Things. Basic Books,
1988.
[43] Ott, M., Lewis, J.P., Cox, I. Teleconferencing Eye Contact
Using a Virtual Camera, Adjunct Proceedings of
InterCHI93, Amsterdam, p. 109, 1993
[44] Perlin, K. and Fox, D. Pad: An alternative approach to the
computer interface. In Proc. of ACM SIGGRAPH, pages 5764. ACM Press, 1993.
[45] Pier, K. (Ed.) Active Badge Panel. Proceedings,Conference
on Organizational Computing Systems,November 5-8,
Atlanta, Georgia, 1991.
[46] Porchdog Software, Howl
http://www.porchdogsoft.com/products/howl/
[47] Roussel, N. de la librairie Ncleo
http://insitu.lri.fr/~roussel/projects/nucleo/
[48] Roussel, N., Evans, H. and Hansen, H. Proximity as an
interface for video communication. IEEE Multimedia,
11(3):12-16, July-September 2004.
[49] Sellen A., Buxton B. Using Spatial Cues to Improve
Videoconferencing, Proceedings of the CHI92 Conference
on Human Factors in Computing Systems (Video),
Monterey, p. 651, 1992.
[50] Sellen, A. Remote Conversations: Theeffects of mediating
talk with technology. HumanComputer Interaction, Vol. 10,
No. 4, pp.401-444, 1995.
[51] Silicon Graphics, OpenGL http://www.opengl.org/

[52] Stults, R. MediaSpace, rapport technique Xerox PARC,


1986.
[53] Tang, John C., Ellen A. Isaacs, and Monica Rua, "Supporting
Distributed Groups with a Montage of Lightweight
Interactions", Proceedings of the Conference on ComputerSupported Cooperative Work (CSCW) `94, Chapel Hill, NC,
pp. 23-34, October 1994.

[57] Whittaker, S. Rethinking Video as a Technology for


Interpersonal Communications: Theory and Design
Implications. In International Journal of Human-Computer
Studies, 42 (5) p. 501-529, 1995.

[54] Triesman, A. Preattentive Processing in Vision. Computer


Vision, Graphics, and Image Processing 31, 156-177, 1985.

[58] Whittaker, S., Frohlich, D. and Daly-Jones, O., "Informal


workplace communication: what is it like and how might we
support it?" in the Proceedings of the ACM 1994 conference
on Human factors in computing systems (CHI 94), pp. 131137, 1994.

[55] Weiser, M. Some computer science issues in ubiquitous


computing. Communications of the ACM, 36(7):75--83, July
1993.

[59] Whittaker, S., Geelhoed, E. and Robinson, E. 'Shared


workspaces: how do they work and when are they useful?'
mt. T Man-Machine Studies 39, 813442, 1993.

[56] Wellner, P. Interacting with paper on the digitaldesk.


Communications of the ACM, 36(7):87--96, July 1993.

[60] Williams, E. Experimental comparisons of face-to-face and


mediated communication: A review. Psychological Bulletin,
84(5), 963-976, 1977.

Vous aimerez peut-être aussi