Braffort HDR 2008

TRAITEMENT AUTOMATIQUE DE LA
LANGUE DES SIGNES FRANÇAISE
MÉMOIRE PRÉPARÉ EN VUE DE L’OBTENTION

DE L'HABILITATION À DIRIGER DES RECHERCHES
Annelies Braffort
LIMSI/CNRS
Juin 2008
A. Braffort - « TALS » juin 2008
2/70
Table des matières

Chapitre 1 - Introduction....................................................................................5
1.1 La langue des signes : positionnement scientifique..........................................................5
1.2 Traitement automatique de la langue des signes : forme parlée et forme écrite..............7
1.3 Le cœur de mes contributions : modélisation informatique de la langue des signes........8
1.4 Structure du mémoire : un déroulé logique....................................................................10
Chapitre 2 - Corpus de LSF.............................................................................12

2.1 Méthodologies pour l'annotation et l'analyse de corpus............................................13
2.1.1 Nature des corpus de LS : du dessin à la capture de mouvements................................13
2.1.2 Annotation de corpus vidéo : de nouvelles méthodologies...........................................15
2.2 Structuration des résultats d'annotation et d'analyse......................................................22
2.2.1 Étude du lexique pour la reconnaissance automatique................................................22
2.2.2 Étude linguistique du lexique.......................................................................................23
Chapitre 3 - Représentations informatiques de la LSF.................................25

3.1 Enjeu : prendre en compte la grande iconicité...............................................................26
3.2 Modélisation de l’espace de signation............................................................................28
3.2.1 Les entités.....................................................................................................................28
3.2.2 Les relations spatiales..................................................................................................30
3.3 Représentation des unités gestuelles...............................................................................32
3.3.1 Définition des problématiques......................................................................................33
3.3.2 Représentation des signes standards en contexte.........................................................36
3.4 Représentation des énoncés ...........................................................................................40
Chapitre 4 - Mise en œuvre...............................................................................46

4.1 Reconnaissance et interprétation....................................................................................47
4.2 Génération et animation..................................................................................................48
4.3 Interaction gestuelle en Communication Humain-Machine...........................................50
Chapitre 5 - Conclusion et perspectives..........................................................52

5.1 Bilan................................................................................................................................52
5.1.1 Les corpus de LSF........................................................................................................52
5.1.2 Les représentations de la LSF......................................................................................52
5.2 Les perspectives..............................................................................................................53
5.2.1 Les corpus de LSF........................................................................................................54
5.2.2 Les représentations de la LSF......................................................................................57
5.2.3 Agents Gestuels............................................................................................................58
Références..........................................................................................................61
3/70
4/70
A. Braffort - « TALS » Juin 2008
CHAPITRE 1 - INTRODUCTION
Ce chapitre présente le domaine sur lequel se concentrent mes

recherches. Je commence par préciser ce qu'est la langue des signes et
son contexte sociétal et scientifique, qui induisent mon positionnement
scientifique. Puis je présente le domaine du traitement automatique des
langues des signes. Enfin, je décris mon objectif scientifique ainsi que la
façon dont s'organisent mes recherches pour mener à bien cet objectif,
en donnant un aperçu de la chronologie de ces recherches. La fin du
chapitre explicite la structuration des différents chapitres de ce
mémoire.
1.1 LA LANGUE DES SIGNES : POSITIONNEMENT SCIENTIFIQUE
Les langues des signes, langues visuo-gestuelles pratiquées au sein des communautés de
sourds, assurent toutes les fonctions remplies par les autres langues naturelles vocales. Elles
sont, pour les sourds, le seul mode linguistique véritablement approprié, le seul qui leur
permette un développement cognitif et psychologique d’une façon équivalente à ce qu’il en
est d’une langue vocale pour un entendant.
La langue des signes permet de communiquer par un canal de réception visuel et un canal
d’émission gestuel. De ce fait, elle favorise l’émission d’une simultanéité d’informations, au
moyen d’un ensemble conséquent d’articulateurs1 (mains, bras, épaules, buste, tête, visage,
yeux) qui s'articulent de façon simultanée. De même, la façon d'organiser le discours est liée
aux capacités perceptives de la vue. Ainsi, le mouvement et l'utilisation pertinente de l'espace
situé devant le signeur (le locuteur en LS), nommé espace de signation, sont des éléments
exploités intensément en langue des signes. Enfin, elle fait un usage intensif de l’iconicité,
tant au niveau du lexique que des énoncés, grâce à sa capacité à dire sans montrer, mais aussi
à dire en montrant [Cuxac 00]. Ces notions sont rappelées à la section 3.1.
1
Articulateur : toute partie mobile du corps sur laquelle on peut agir volontairement et qui est fonctionnelle dans la
production de la parole, ce terme étant employé dans son sens premier, celui de langage incarné.
5/70
La langue des signes française a été longtemps interdite comme langue d’enseignement
pour les enfants sourds (de 1880 à 1991) et sa reconnaissance officielle comme langue de
France est très récente (loi de février 20051). Cela a particulièrement freiné la dynamique de
recherche, qui ne s'est vraiment développée que depuis peu d'années. Actuellement, la
situation est encore très insatisfaisante, en particulier dans les domaines de l’accès aux
informations et de l’éducation [Cuxac Brugeille Dalle et al. 03]. Le contexte de la recherche
scientifique s’inscrit dans cet environnement social particulier qui amène à être
particulièrement vigilant quant aux aspects éthiques et aux retombées des résultats de
recherche [Braffort 02]. Le domaine de la recherche, même s'il est assez récent, en particulier
en informatique, n'est pas exclu des débats passionnés, voire militants, qui perdurent encore
lorsqu'il est question de la langue des signes, car du regard que l'on porte sur cette langue va
découler un véritable choix sur ce que l'on considère comme faisant partie de la langue et
donc ce qu'il faut prendre en compte pour la modélisation.
Les premières recherches en linguistique, menées aux États-Unis, avaient essentiellement

pour but de faire reconnaître les langues des signes comme des langues à part entière aux
yeux de la communauté scientifique, ce qui n'était pas une évidence pour tous les linguistes à
l'époque. Cela s'est fait en prouvant l’existence dans les langues des signes d’un certain
nombre de propriétés que l’on trouve dans les langues vocales [Stokoe 60]. Encore
maintenant, la langue des signes est souvent étudiée au travers de modèles linguistiques issus
de l’étude des langues vocales par certains linguistes, qui y voient la possibilité de mieux la
comparer aux langues vocales. Le problème est que ce point de vue induit la mise à l'écart des
phénomènes relatifs à l'iconicité. En raison de sa nature visuo-gestuelle, son fonctionnement
repose sur des mécanismes physiologiques différents, ce qui induit des représentations
cognitives différentes [Courtin 02]. Cela incite à proposer des approches différentes, avec la
volonté de ne pas risquer de dénaturer la langue. C’est le point de vue adopté par Christian
Cuxac, qui propose un modèle original, global et cohérent du fonctionnement de la LSF basé
sur la prise en compte de l’iconicité comme principe organisateur [Cuxac 00 ; Cuxac 04]. Des
linguistes travaillant sur d'autres langues des signes commencent à adopter ce point de vue
[Liddell 00].
Les recherches en informatique concernent encore peu d’équipes, la plupart se

spécialisant sur une problématique particulière de traitement informatique telle que l’analyse
automatique de corpus vidéo (TCI/IRIT, Université Paul Sabatier Toulouse), la synthèse de
mouvements réalistes (Samsara/Valoria, Université de Bretagne Sud) ou les processus de
traitement automatique de langue (Geste/LIMSI, CNRS Orsay). Cette situation est assez
représentative de ce qui se passe au plan international. Par exemple, au niveau européen, la
liste des laboratoires cherchant à modéliser les langues des signes pour le traitement
automatique est assez courte. On peut citer l'université de Hambourg (UHH) en Allemagne,
qui étudie les corpus et la transcription de corpus, les universités d'Aachen en Allemagne et
du Surrey (UniS) en Angleterre qui s'intéressent à la reconnaissance automatique, ainsi que
l'université d'East Anglia (UEA) et l'institut ILSP d'Athènes en Grèce qui étudient la
génération automatique.
Les modèles informatiques sont en général basés sur des modèles linguistiques existants,
si bien qu'une part importante des modèles pour les langues des signes s'inspire des modèles
informatiques proposés pour les langues vocales. Pour ma part, j'ai choisi de proposer des
modèles informatiques nouveaux, qui permettent de représenter au maximum l'étendue des
1
Loi no 2005-102 du 11 février 2005 « pour l’égalité des droits et des chances, la participation et la citoyenneté des
personnes handicapées » : http://www.legifrance.gouv.fr/WAspad/UnTexteDeJorf?numjo=SANX0300217L
6/70
productions possibles en langue des signes, en m'inspirant du modèle linguistique proposé par
Christian Cuxac.
La section suivante présente plus précisément les problématiques du domaine du

traitement automatique de la langue des signes, ainsi que des domaines concernés de
l'informatique.
1.2 TRAITEMENT AUTOMATIQUE DE LA LANGUE DES SIGNES :

FORME PARLÉE ET FORME ÉCRITE
Dans le domaine du traitement des langues en général, on distingue les recherches

menées sur la forme parlée1 de celles sur la forme écrite. Pour la langue des signes, cela se
décline de la façon suivante :
• Forme parlée de la LSF. Elle est généralement stockée sous forme de vidéo, ou sous
forme de fichiers de données (type XML ou BVH) si les systèmes de capture utilisés
ne sont pas des caméras. L’analyse de cette forme parlée implique des recherches dans
le domaine du traitement d’images, du traitement du signal ou de la reconnaissance de
formes. En synthèse, la forme parlée est produite sous la forme d’une animation d’un
humain virtuel, nommé signeur virtuel, dont on va contrôler ou générer la gestuelle, ce
qui touche au domaine de l'informatique graphique.
• Forme écrite de la LSF. Si certains signeurs (locuteurs de LSF) créent ou utilisent des
formes graphiques pour noter les signes isolés ou les énoncés signés, par exemple dans
un contexte de création théâtrale ou en enseignement, il n’existe pas à ce jour de forme
écrite institutionnalisée de la LSF. Il s’agit cependant d’un thème de recherche
extrêmement important, si on considère les implications de l’usage d’un tel système en
particulier dans l’enseignement. Des projets de recherche ont été initiés récemment sur
ce thème en France [Garcia Aznar Bolot et al. 07]. On peut noter que la vidéo est
parfois utilisée pour remplir certaines fonctions de l'écrit [Brugeille 07], ainsi que les
signeurs virtuels [Efthimiou & Fotinea 07], en particulier dans le cadre de l'éducation.
Les domaines de recherche concernés concernent en particulier la linguistique et la
pédagogie.
Selon la forme de la langue que l’on va étudier (parlée ou écrite) et selon le point de vue
que l’on va adopter (analyse ou génération), les domaines de l’informatique concernés vont
être très différents : traitement du signal, traitement d’image, reconnaissance automatique,
infographie, animation 3d, représentation des connaissances, traitement automatique des
langues. Dans tous les cas, il va falloir développer des modèles fondamentaux qui permettent
de représenter des aspects du fonctionnement de la langue des signes.
La section suivante présente le cœur de mes contributions, qui portent sur la modélisation
de la langue des signes.
1
Forme parlée est entendue ici par opposition à forme écrite, indépendamment du canal vocal ou gestuel.
7/70
1.3 LE CŒUR DE MES CONTRIBUTIONS :

MODÉLISATION INFORMATIQUE DE LA LANGUE DES SIGNES
Le cœur de mes contributions porte sur la modélisation informatique du fonctionnement

de la LSF (figure1), en s’appuyant sur l’analyse de corpus. L'analyse de corpus donne lieu à
des recherches sur la méthodologie d'annotation de corpus de LSF. Les résultats de ces
recherches, ainsi que les connaissances acquises lors de l'annotation et de l'analyse de corpus,
sont appliqués aux domaines de la reconnaissance et de la génération automatiques, ainsi
qu'au développement de logiciels d'aide à l'annotation.
Figure 1: Schéma global.
Les prototypes ou applications qui sont mis en œuvre sont des moyens d'évaluer la
pertinence et l'efficacité de représentation des modèles proposés.
Mes recherches dans ce domaine se sont organisées en trois étapes :

1. Initiation des recherches en informatique sur la LSF. La LSF a été étudiée au
LIMSI à partir de 1992 dans le cadre de ma thèse [Braffort 96b]. Étant le premier
chercheur en informatique à étudier la LSF, je suis partie d'un terrain quasiment
vierge et j'ai choisi de procéder à une étude transversale afin de déterminer les points
durs et les modèles à concevoir dans le contexte de la reconnaissance automatique
d’énoncés en LSF. Parmi ces points durs, on peut noter la représentation du lexique
hautement déformable en contexte (emplacement des signes, verbes directionnels...)
et des autres unités gestuelles mises en œuvre en langue des signes (proformes1,
pointages...), ainsi que l'interprétation des informations spatio-temporelles véhiculées
par les gestes. J'ai proposé un modèle basé sur la représentation de l'espace de
signation, représentation de haut niveau agissant comme une mémoire contextuelle
1
Proforme : configuration de la main qui représente un point de vue sur une entité précédemment introduite dans le discours.
8/70
spatiale, permettant l'interprétation d'énoncés composés de signes dont la réalisation

dépend du contexte.
2. Premiers approfondissements des modèles. Certaines de ces problématiques ont
ensuite été approfondies dans le cadre de plusieurs thèses : la thèse de Fanch Lejeune
[Lejeune 04], qui a proposé des modèles basés sur les grammaires sémantico-
cognitives pour la représentation d'énoncés plus complexes ; celle de Bruno Bossard
[Bossard 06], qui s'est centrée sur les problématiques d'interprétation des gestes
bimanuels. Le modèle proposé par F. Lejeune a pu être mis en œuvre dans ce contexte
afin de permettre l'interprétation d'énoncés comportant des relations spatiales, telles
que « sur » ou « dans ».
3. Élaboration d'un modèle consolidé et étude de la génération. Le cadre applicatif
s'est ensuite étendu à la génération automatique pour les thèses en cours. Celle de
Michael Filhol [Filhol 08] propose un nouveau modèle pour représenter le lexique,
basé sur une approche géométrique et séquentielle, qui permet de prendre en compte
des possibilités de déformation des signes en contexte dès leur description. La thèse
d'Émilie Chételat-Pelé porte sur l'analyse des gestes non manuels, jusqu'alors négligés
dans les modèles informatiques. Elle a proposé en premier lieu une nouvelle
méthodologie d'annotation des corpus de langue des signes sur ces aspects [Chételat-
Pelé Braffort & Véronis 07] . Enfin, la thèse de Jérémie Segouat vient de débuter et
porte sur les problématiques de coarticulation lors de la génération d'énoncés par
enchaînement d'animations [Segouat Braffort Bolot et al. 08 ; Segouat Braffort
Choisier et al. 08].
Les modèles conçus dans un cadre applicatif courent le risque de se révéler trop ad hoc
pour être réutilisables dans un autre contexte. Ils peuvent incorporer des fonctionnalités
indispensables uniquement pour le cadre applicatif donné, ou au contraire ils peuvent négliger
des aspects qui seraient indispensables dans un autre contexte. Par ailleurs, un modèle
suffisamment générique pour couvrir différents cadres applicatifs, même s'il nécessite d'être
décliné sous des formes adaptées aux différents contextes, est un meilleur garant de la qualité
des modèles, assurant ainsi un moyen d'évaluation supplémentaire. Enfin, il permet
d'envisager à terme des systèmes comportant à la fois une partie reconnaissance et une partie
synthèse.
C'est une des raisons qui m'ont amenée à passer du cadre applicatif de la reconnaissance à
celui de la génération, tout en poursuivant des collaborations avec des équipe de recherches et
plus particulièrement l'une d'entre elle spécialisée dans l'analyse de corpus vidéo, ceci en vue
d'élaborer des modèles communs [Braffort & Dalle 07]. Au niveau national, si des recherches
spécialisées sont menées sur chaque sujet au sein des équipes, il a été constitué depuis 2000
des projets collaboratifs ou des groupes de travail, avec des équipes aux compétences
complémentaires, tant en informatique qu’en linguistique. Ces projets ont permis en
particulier la constitution de corpus à vocation pluridisciplinaire, la constitution de bases de
données, ou de logiciels d'aide à l'annotation et à l'analyse de corpus : projet national LS-
COLIN [Cuxac Braffort Dalle et al. 02] ; action CNRS AS-CLS [Gibet Toulotte et al. 04] ;
action CNRS AS-IG [Dalle Cuxac Boutet et al. 04] ; projet ANR/RIAM LS-Script [Garcia
Aznar Bolot et al. 07].
Ces projets collaboratifs ont été aussi l'occasion d'une réflexion commune sur la langue
des signes et la gestuelle coverbale [Dalle Cuxac Boutet et al. 04]. Les modèles ou
méthodologies développés pour la gestuelle coverbale, qui est étudiée par les informaticiens
depuis plus longtemps, peuvent donner des pistes de réflexion pour l'étude de LS et
9/70
réciproquement. Ainsi, si mes contributions concernent principalement la LSF, j’ai aussi

élaboré des modèles informatiques pour l’interaction gestuelle, dans un contexte d’interaction
multimodale [Braffort Gherbi 98 ; Gherbi Braffort 99 & 00 ; Martin Braffort & Gherbi 00] et
en réalité virtuelle [Bossard Convard Braffort et al. 04], dérivés de modèles conçus au départ
pour la langue des signes.
Le présent mémoire présente une synthèse des principaux résultats obtenus, agencés
selon la structure donnée ci-dessous.
1.4 STRUCTURE DU MÉMOIRE : UN DÉROULÉ LOGIQUE
J'ai choisi de présenter la synthèse de mes travaux de recherche suivant un ordre logique
plutôt que chronologique, afin qu'ils soient regroupés par thématiques principales.
Ainsi, le chapitre suivant (chapitre 2) porte sur la question des corpus de langue des
signes (parties colorées figure 2). Il développe les recherches menées autour des
méthodologies d'annotation et les principaux éléments constituant les bases de connaissances.
Figure 2: Recherches sur les corpus.
Le chapitre 3 concerne les modèles informatiques de la langue des signes. Ces modèles
prennent appui sur les bases de connaissances, comme illustré dans la (figure 3).
10/70
Figure 3: Modélisation de la langue des signes
A partir de ces recherches fondamentales, des implémentations sont réalisées dans différents
cadres applicatifs (figure 4) à des fins d'évaluation, voire même dans des applications grand
public. Le chapitre 4 présente des exemples de telles mises en œuvre.
Figure 4: Cadres applicatifs.
Le dernier chapitre (chapitre 5) est consacré à un bilan global ainsi qu’à une présentation
des perspectives sur l’ensemble de mes recherches.
Dans la suite de ce mémoire, les acronymes LS, LSF et LV correspondent respectivement

à Langue des Signes, Langue des Signes Française et Langue Vocale.
11/70
CHAPITRE 2 - CORPUS DE LSF
Ce chapitre expose mes activités de recherche relatives à la conception

de méthodologies pour l'annotation et l'analyse de corpus de LSF et à la
constitution de bases de connaissances grâce à ces annotations et
analyses (figure 5). La première section (section 2.1) porte sur les
méthodologies qui ont été proposées, basées sur l’utilisation de logiciels
d’annotation et d'analyse spécifiques. La deuxième section (section 2.2)
concerne la description des différents types de bases de connaissances
qui ont été élaborées à partir de ces analyses. Finalement, un bilan
(section 2.3) synthétise les apports sur ces deux aspects.
Figure 5: Recherches sur les corpus.
12/70
2.1 MÉTHODOLOGIES POUR L'ANNOTATION ET L'ANALYSE DE CORPUS
Les méthodes utilisées pour annoter et analyser les corpus de LS dépendent de la nature
des données étudiées. Cette section discute dans une première partie les différents types de
données ainsi que les avantages et inconvénients associés (section 2.1.1). Une deuxième partie
expose les méthodologies créées pour l'annotation et l'analyse de corpus vidéo de LS (section
2.1.2).
2.1.1 Nature des corpus de LS : du dessin à la capture de mouvements

Les premiers corpus de LSF ont longtemps consisté en des « dictionnaires papier »
contenant une liste de signes institutionnalisés représentés sous forme de dessins (figure 6), tel
que le « dictionnaire IVT1 » [Moody 98]. Les études basées sur des données avec ce type de
support sont limitées aux signes considérés hors contexte. La nature statique et
bidimentionnelle des dessins limite l'analyse des phénomènes liés aux aspects spatio-
temporels, qui sont pourtant fondamentaux en LS.
Figure 6: Représentation du signe [SOURD]

dans le dictionnaire IVT.
Les caméras vidéo grand public nous ont ensuite permis de réaliser des corpus stockés sur
des cassettes VHS (projet Cognisciences Pôle Paris-Sud [Calbris Cuxac & Leix 94]), avec une
qualité d’image souvent médiocre et se dégradant au cours du temps (figure 7a). La
démocratisation récente de la vidéo numérique nous permet maintenant de constituer des
corpus d’une plus grande qualité et d’une durée de vie a priori illimitée (figure 7b) [Braffort
Choisier & Collet 03.
1
IVT : International Visual Theatre : http://www.ivt.fr/
13/70
Figure 7: a) Extrait du corpus "Temps et Aspect" (1993)

b) Extrait du corpus LS-COLIN (2002).
Le corpus LS-COLIN, réalisé à l’INJS1 de Paris a été constitué dans le cadre d’un projet
ministériel fléché « Langage et Cognition » par un collectif pluridisciplinaire composé de
linguistes et d’informaticiens [Cuxac Braffort Dalle et al. 02]. Il contient 90 productions
complètes (environ deux heures d’enregistrement) répartis en différents genres discursifs
(narratif, explicatif, argumentatif et métalinguistique). Les treize locuteurs sourds adultes qui
ont participé à l’enregistrement présentent une grande variété sociolinguistique (âge, sexe,
région d’origine, profession). Ils ont été filmés dans le studio professionnel de l’INJS au
moyen de trois caméras numériques selon trois angles de vue (plan américain, vue rapprochée
et vue du dessus) synchronisées par un flash. Ce corpus est le premier qui soit suffisamment
étendu et de suffisamment bonne qualité pour permettre aux chercheurs d’établir des résultats
d’analyse statistique et de procéder à des analyses informatiques telles que le traitement
d’image. S'ils permettent d'observer l'aspect dynamique des productions, l'image reste
bidimensionnelle et limite l'analyse des phénomènes spatiaux. Les recherches menées dans les
équipes spécialisées dans l'annotation automatique de corpus vidéo, telles que celle de l'IRIT
[Gianni Collet & Dalle 07], devraient cependant permettre à terme d'acquérir des indices sur
ces aspects.
Certains systèmes de capture, issus des domaines de l’analyse du mouvement et de la

réalité virtuelle, permettent de capter les gestes dans les trois dimensions de l’espace (figure
8). Mais leur nature intrusive a un impact sur la « naturalité » des gestes réalisés et donc sur la
représentativité du corpus enregistré. A ce jour cela reste cependant le seul moyen d’acquérir
des informations précises et fines sur les mouvements pour analyser la nature des
mouvements en vue de leur modélisation pour la génération de mouvements réalistes [Gibet
Héloir Courty et al. 06 ; Héloir 08] ou pour la segmentation automatique [Héloir Gibet
Multon et al 05].
1
INJS : Institut National de Jeunes Sourds - http://www.injs-paris.fr/
14/70
Figure 8: Système de capture de gestes bimanuels.
J'ai commencé par étudier des données issues de « dictionnaires papier », puis des
données numériques acquises au moyen de capteurs de mouvements, pour lesquelles j'ai
développé des méthodologies spécifiques, comportant la mise en œuvre de processus de
traitement du signal [Braffort 96b]. Je ne détaillerai pas ces méthodes ici, car elles sont
intimement liées au système de capture utilisé et au cadre applicatif. Je synthétise dans la
section suivante les études qui ont été menées dans le cadre de corpus vidéo et qui sont de fait
beaucoup plus génériques.
2.1.2 Annotation de corpus vidéo : de nouvelles méthodologies

Les logiciels d’annotation de vidéos ont permis de franchir un cap méthodologique pour
l’analyse des productions en LSF. Les principaux sont SignStream [Neidle 02 ; Neidle
Sclaroff & Athitsos 01], ELAN [Wittenburg Brugman & Russel 06 ; Crasborn & Hanke 03 ;
Crasborn Sloetjes Auer et al. 06] ou ANVIL [Kipp 01]. Beaucoup d’entre eux permettent de
structurer l’annotation, sous forme de fichiers XML, ce qui est une première approche pour la
formalisation des phénomènes étudiés. Certains permettent aussi de réaliser des analyses sur
les données d'annotation. Si ce n'est pas le cas, il est possible d'utiliser des logiciels dédiés,
tels que les tableurs grand public ou des plateformes de traitement de données telles que
Scilab1.
Ceci dit, l’annotation de vidéos de LSF induit des problématiques de recherche

spécifiques, qui sont pour l'instant peu, voire pas du tout, abordées au sein de la communauté
scientifique travaillant sur la langue des signes. En revanche, les chercheurs étudiant la
gestuelle coverbale travaillent activement à la conception de méthodologies spécifiques,
comme M. Kipp, qui cherche à annoter la gestuelle coverbale à l'aide de critères numériques
[Kipp 04]. Les méthodes que l'on veut mettre en œuvre pour les LS peuvent prendre appui sur
celles développées pour le coverbal, tout en intégrant bien sûr les propriétés linguistiques
inhérentes à la LS.
Cette section expose trois études ayant amené à proposer de nouvelles méthodologies,
pour l'annotation des informations spatiales, des mouvements des éléments mobiles du visage,
1
Scilab : logiciel de calcul numérique pour les applications scientifiques : http://www.scilab.org
15/70
ainsi que pour l'exploitation des données d'annotation associées à des processus de traitement
d'images.
Annotation des informations spatiales

L’un des points durs relatif à l'annotation des corpus vidéo concerne les informations
spatiales. Par exemple, il est nécessaire d’annoter finement la direction du regard, pour
déterminer si le signeur regarde l’interlocuteur, ses mains ou encore une portion déterminée
de l’espace de narration, portion qui peut être ensuite reprise par un pointage ou par le
positionnement d’une unité gestuelle dédiée, le proforme.
Le problème vient du fait que cet espace est par nature continu, tandis que l'annotation
d'une vidéo avec les logiciels dont on dispose actuellement est quant à elle de nature discrète.
Il est donc nécessaire de définir une segmentation plus ou moins arbitraire de cet espace. Une
fois cette segmentation établie, il faut pouvoir identifier les différents segments d'espace. Pour
cela, des descriptions symboliques iconiques sont plus aisées à manipuler que des mots ou des
codes textuels.
La problématique de l’annotation de ces portions de l’espace de signation a été abordée

dans le cadre des stages de master de Jérémie Segouat [Segouat 03] et Clarine Tranchant
[Tranchant 07]. Ils ont proposé une segmentation basée sur les propositions de linguistes
[Prillwitz & Zienert 89 ; Crasborn Van Der Hulst & Van Der Kooij 01] complétées par une
analyse statistique à partir du corpus LS-COLIN pour lequel on dispose de plusieurs vues
permettant d'annoter selon les trois dimensions. Il a ensuite expérimenté l’utilisation de
plusieurs types d’icônes dédiées (figure 9). Cette proposition a ensuite affiné le cadre
linguistique de cette segmentation et ajouté une typologie de l'usage qui en est fait, afin
d'affiner la nature des informations annotées (notions de : partie/tout, localisant/localisé,
stable/déplaçable, contenant/contenu...).
Figure 9: Ensemble d'icônes pour l'annotation des

informations spatiales.
Ces études ont permis d'identifier les problèmes méthodologiques et de proposer des
premiers éléments de réponse. Il n'en reste pas moins que la nature bidimensionnelle des
images vidéo rend difficile l'annotation précise de la profondeur. C'est maintenant au cœur des
logiciels d'annotation qu'il convient de s'intéresser afin d'y adjoindre des capacités
supplémentaires, en particulier de visualisation 3d.
16/70
Méthodologie d’annotation des informations non manuelles

Un autre point dur concerne la description des aspects non manuels de la LSF, que nous
nommerons Gestes Non Manuels (GNM). Ces gestes ont été étudiés du point de vue
linguistique très globalement [Cuxac 00 ; Vergé 01]. Les notations comme HamNoSys
[Prillwitz & Zienert 89], D'Sign [Jouison 95] ou SignWriting [Sutton 95] ne donnent pas une
description détaillée des phénomènes. La figure 10 illustre ce point pour les sourcils.
Figure 10: Différentes notations pour "sourcils levés"
Il est nécessaire d’étudier finement ces phénomènes pour parvenir à leur formalisation
informatique. Les recherches les plus avancées sur ces aspects se trouvent plutôt dans la
communauté s'intéressant à la gestuelle coverbale. On peut citer en particulier les travaux
initiés par Ekman et Friesen [Ekman & Friesen 78], qui ont abouti à la définition du système
« Facial Action Coding System » (FACS). Il s'agit de vérifier l'adéquation de ce type de
modèle pour les gestes non manuels des LS et de l'enrichir le cas échéant.
Cette recherche est menée dans le cadre de la thèse d’Emilie Chételat-Pelé. Le premier
apport de ces travaux concerne la méthodologie d’annotation. La proposition consiste à
décrire les mouvements des éléments (sourcils, joue, paupières, bouche…), plutôt que les
positions finales comme cela a été le cas jusqu’alors, ce qui permet une finesse de description
bien plus grande. Ce choix méthodologique est complété par la création d’un ensemble de
symboles et des méthodes d’utilisation associées [Chételat-Pelé Braffort & Véronis 07 ;
Chételat-Pelé & Braffort 08a].
Ces symboles sont représentés sur la figure 11. Il s’agit de flèches dont l’orientation est
variable. Les flèches verticales indiquent qu’il y a contact entre les deux éléments du visage
(par exemple la flèche verticale vers le haut pour annoter la paupière inférieure qui monte
jusqu’à toucher la paupière supérieure), tandis que les flèches en diagonale sont utilisées
lorsqu’il n’y a pas de contact. Cela permet par exemple de distinguer les yeux fermés des
yeux plissés.
Figure 11: Liste des symboles utilisés
17/70
Les éléments du visage (yeux, bouche…) sont repérés par des points pertinents qui se
déplacent sur des axes. Par exemple, la bouche est décomposée en quatre points (un point à
chaque coin, un point au centre de la lèvre supérieure et un point au centre de la lèvre
inférieure). L’amplitude de la réalisation du mouvement est indiquée par un code couleur
(figure 12).
Figure 12: Les trois degrés d'amplitude d'un mouvement

(atténué, moyen, amplifié).
Les flèches peuvent se combiner pour décrire les différentes phases de réalisation d’un
geste non manuel : mouvement conduisant de la position initiale à la position adoptée, tenue
de ce mouvement, puis mouvement ramenant à la position initiale ou conduisant à une autre
position (figure 13). Les phases de réalisation sont ainsi isolées et peuvent être sujettes à une
analyse particulière (par exemple : le sens est-il le même lorsqu’une position est adoptée très
lentement ou très rapidement ?).
Figure 13: Les trois phases de réalisation

d'un haussement de sourcil.
De plus, comme chaque mouvement se définit par rapport au précédent, une infinité de
formes est possible. Par exemple si une flèche « haussement atténué » est utilisée, elle ne
prend sens qu’en contexte : si la flèche précédente était un « haussement amplifié » alors cela
signifie que l’élément est à une position encore plus haute que la précédente.
Cette méthodologie d’annotation a été testée sur un extrait du corpus LS-COLIN [Cuxac
Braffort Dalle et al. 02] à l’aide du logiciel Anvil [Kipp 01 ; Kipp 04]. Cela a permis de
décrire un certain nombre de phénomènes très fins intervenant en LSF. Un exemple est
détaillé ci-dessous.
18/70
Figure 14: Extrait d'annotation avec ANVIL, détails sur les sourcils et les paupières.
Dans la partie B de la figure 14, les trois flèches du bloc bleu (premier bloc de la
première ligne) décrivent un haussement de sourcils moyen (flèches marron : « moyenne »)
avec ces trois phases de réalisation. A droite (en jaune), un léger froncement de sourcils est
décrit (flèches roses claires : réalisation atténuée). Sur la seconde ligne (paupière supérieure),
au niveau du second bloc (rouge) nous pouvons voir que le signeur ferme les yeux (flèche de
contact) puis qu’il les maintient fermés. Enfin, au lieu d’avoir un retour à la position initiale il
va les rouvrir légèrement (degré de réalisation).
Cette annotation, basée sur des symboles et des codes couleurs simples, permet dans une
première analyse globale de repérer visuellement des structures récurrentes et d’en déduire
des pistes pour mener une analyse statistique plus fine. C’est aussi une première approche
pour une formalisation des GNM, ainsi que pour l’acquisition de données numériques
(amplitude, fréquence, durée…) qui seront nécessaires pour le traitement automatique de tels
phénomènes.
Une analyse plus fine est menée actuellement sur le mouvement des sourcils, en
procédant à une annotation manuelle de la position de chaque sourcil et paupière directement
sur la vidéo (figure 15).
Figure 15: Annotation de la position des sourcils directement sur la vidéo.
Ce travail de longue haleine (il s’agit de positionner 18 points par image à raison de 25
images par seconde), va permettre de déterminer numériquement la structure des mouvements
(leur différentes phases, durée, amplitude…) et donc d'associer des valeurs numériques aux
19/70
flèches présentées précédemment et de valider l'ensemble de la méthode [Chételat-Pelé

Braffort & Véronis 08 ; Chételat-Pelé & Braffort 08b].
Annotation des mouvements du buste : assistance du traitement d’image

Ces annotations sont très fastidieuses et on aimerait pouvoir bénéficier d’un système
permettant une annotation sinon automatique, du moins partiellement automatique de certains
phénomènes. Dans cet esprit, une méthode pour l'annotation des mouvements du buste à l'aide
d'un système de traitement d'images a été mise en œuvre dans le cadre du stage de master
d'Émilie Martin [Segouat Braffort & Martin 06]. Cette méthode a reposé sur l’utilisation d’un
module de suivi global du mouvement développé dans le cadre d’une thèse [Cassel 05] pour
les mouvements de sportifs (trampoline, barre fixe, plongeon…) en situation de compétition.
Il consiste à déterminer une boite englobante autour de la personne en mouvement et à fournir
la taille (L, H) de la boite et les coordonnées (X, Y) du centre de la boite (figure 16).
Figure 16: La boite englobante et les quatre paramètres mesurés.
Le traitement a été appliqué aux trois vues de la vidéo (visage, de face, de dessus) du
corpus LS-COLIN et les données numériques obtenues ont été insérées au sein du logiciel
d’annotation ANVIL (figure 17).
20/70
Figure 17: Exemple d'un ensemble de courbes calculées sur la vue du dessus.
Les données ont été corrélées manuellement avec des annotations de nature linguistique
issues du travail de thèse de Marie-Anne Sallandre [Sallandre 03]. A partir de ces courbes, on
peut par exemple calculer une valeur moyenne et déterminer les parties de la courbe qui sont
au dessous ou au dessus de cette moyenne, ce qui nous permet de détecter automatiquement
des passages particuliers dans la vidéo tels que le basculement du buste du signeur à droite ou
à gauche de son positionnement moyen. On peut aussi déterminer des phases de pauses. Par
exemple, en corrélant une période de pause avec une valeur inférieure à la moyenne pour la
coordonnée x de la vue du dessus, qui correspond à un décalage de l’axe du corps, on peut
détecter certains transferts personnels (ou prises de rôle), tel celui illustré à la figure 18a, où le
signeur se décale vers sa gauche et « prend le rôle » d’une vache. Par exemple, ici (figure
18b), on observe que cette séquence correspond à un moment où les valeurs de X sont
inférieures à la moyenne et où les autres valeurs sont stables.
Figure 18: a) Transfert personnel "la vache rumine",

b) courbes associées
Si cette méthode doit encore être évaluée sur l’ensemble du corpus afin d’être validée et
affinée, cette première expérimentation a confirmé l’intérêt du traitement d’image pour l’aide
à l’annotation.
21/70
Une fois les corpus analysés, on doit élaborer des bases de connaissances qui pourront
être utilisées pour élaborer les modèles relatifs au fonctionnement de la LS, ou encore pour les
implémentations informatiques. La section suivante expose les bases de connaissances les
plus significatives réalisées depuis le début de mes recherches.
2.2 STRUCTURATION DES RÉSULTATS D'ANNOTATION ET D'ANALYSE
La nature des données analysées, numériques ou non, va avoir une incidence sur la façon
dont on va structurer les résultats de l'analyse du phénomène étudié. Par exemple, si l’on
s’intéresse à la structure interne du lexique répertorié dans un dictionnaire, on va concevoir
des bases de données, telles que celles développées pour les LS allemande (GlossLexer)
[Hanke Konrad & Schwarz 01] et Hollandaise (SignPhon), [Crasborn Van Der Hulst & Van
Der Kooij 01]. Le rôle d’une base de données est double : en amont et au cours de l'étude, la
formalisation que nécessite la conception des tables et de leurs champs ainsi que des relations
entre tables fait progresser dans la compréhension du problème étudié ; en aval, l'exploitation
statistique des données permet d'établir, de valider de quantifier des propriétés. Pour la LSF,
les bases de données sont encore plus rares que les corpus et restent à l'heure actuelle assez
confidentielles. Je décris dans cette section le rôle et le contenu de deux bases de données que
j'ai conçues pour structurer des analyses menées sur le lexique de la LSF.
2.2.1 Étude du lexique pour la reconnaissance automatique

La première base de données a pour objectif d’étudier la nature et la répartition d’unités
sub-lexicales composant le lexique, dans le but de concevoir une représentation du lexique
pour le système de reconnaissance automatique élaboré pendant ma thèse [Braffort 96b]. Pour
cela, j’ai conçu une base de données contenant la description de 1257 signes du dictionnaire
IVT [Moody 98].
Pour mettre en œuvre une représentation pertinente dans un système de reconnaissance

automatique, il faut choisir des primitives de représentation possédant certaines qualités qui
sont la continuité, la sensibilité, la réversibilité, l'indépendance des primitives et
l'homogénéité dans le temps [Belaïd & Belaïd 92].
Les modèles phonologiques des LS considèrent des unités sub-lexicales constituées de

quatre éléments pour ce qui concerne la main, nommés paramètres : la configuration,
l’emplacement, l’orientation et le mouvement (plus de détails sont donnés en section 3.3). Les
paramètres de configuration, l’emplacement et l’orientation sont statiques et correspondent à
des articulateurs plus ou moins différents : la configuration est produite par les muscles de la
main, l’emplacement est obtenu par déplacement du bras et l’orientation quant à elle est
obtenue par l’articulation du poignet, mais aussi comme conséquence de la posture du bras et
de la main. Quant au mouvement, il correspond au mouvement de tous les articulateurs,
doigts, poignet, mais, bras…
Ces paramètres ne respectent pas les qualités requises pour être utilisées comme
primitives de représentation au sein d'un système de reconnaissance automatique. J’ai choisi
de procéder à une homogénéisation des paramètres en ce qui concerne l’aspect temporel. J’ai
considéré que chaque paramètre pouvait se déployer dans le temps. Ainsi, j’ai éclaté la
description du mouvement dans chacun des paramètres configuration, orientation et
22/70
emplacement, tout en gardant une description de la trajectoire du mouvement de l’extrémité

du bras. L’analyse menée porte donc plus sur l’aspect articulatoire que sur l’aspect
linguistique.
Les principaux résultats d'analyse obtenus à partir de cette base de données sont discutés
section 3.3, qui traite de la représentation du lexique [Braffort 96b, Braffort 06]. Malgré les
limites de cette étude, liées au type de corpus utilisé (un « corpus papier » ne donnant qu’un
aperçu figé et statique des signes hors contexte), ces résultats nous ont permis d’identifier un
certain nombre de problèmes qui plaident en faveur d'une reconsidération des paramètres en
tant qu’unités descriptives des signes. Cela m'a amené à conduire ensuite une recherche
dédiée à la représentation des signes.
2.2.2 Étude linguistique du lexique

Par ailleurs, d’un point de vue linguistique, la nature des paramètres a été remise en
question par C. Cuxac. Il propose d’y associer plutôt une nature morphologique que
phonologique. Par exemple, tous les signes réalisés à proximité de la tête ont à voir avec une
activité mentale. Ou encore, une configuration « poing fermé » caractérise la saisie ou la
reprise d’une forme plus ou moins sphérique. Son ouvrage de 2000 [Cuxac 00] liste un certain
nombre de valeurs morphologiques pour chaque paramètre, en particulier la configuration. Ce
point de vue doit être validé par l'analyse de la propriété morphémique des paramètres sur un
nombre conséquent de signes, à l'aide d'une base de données.
Ce travail a été initié dans le cadre d’un projet national regroupant linguistes et
informaticiens [Garcia Aznar Bolot et al. 07]. A partir d’une description des phénomènes
linguistiques à représenter fournie par les linguistes, j’ai conçu une base de données qui a
ensuite été installée sur un site Internet collaboratif. La figure 19 illustre la structure de la base
de données, qui permet de décrire en particulier les liens de dépendance entre les paramètres.
Par exemple, la configuration '3' et la rotation alternée du poignet sont souvent associées, mis
à part dans le cas la numération.
23/70
Figure 19: Schéma entité-association de la base de données LS-Script
Cette base de données est actuellement alimentée par les collègues linguistes et certaines
hypothèses relatives au paramètre de configuration semble bien être confirmées par les
premières analyses statistiques.
Une part importante de mes recherches porte sur les méthodologies à mettre en œuvre
pour l'annotation et l'analyse de corpus. Les corpus peuvent être utilisés directement, pour
alimenter et valider certains modèles informatiques, ainsi que les prototypes associés, tels les
systèmes de reconnaissance automatique. De plus, l'analyse de ces corpus est un préalable à la
constitution de bases de connaissances à partir desquelles les modèles peuvent être élaborés.
Grâce à ce travail d'analyse, on a acquis des données statistiques relatives à l'utilisation de
l'espace de signation, au lexique et à la structure des énoncés en LSF, ce qui va fonder les
principes des modèles informatiques de la LSF. Ces modèles sont abordés au chapitre suivant.
24/70
CHAPITRE 3 -
REPRÉSENTATIONS INFORMATIQUES DE LA LSF
Ce chapitre présente un bilan de mes activités de recherche relatives à

la modélisation informatique de la langue des signes (figure 20). J'y
explique l'enjeu de ces recherches, les bénéfices que l'on souhaite en
tirer et les différents niveaux de modélisation envisagés (section 3.1).
Ces niveaux de modélisation concernent l'espace de signation (section
3.2), socle de l'organisation des énoncés en LS, puis les unités lexicales
(section 3.3) et enfin les énoncés (section 3.4) composés d'unités
lexicales et construits dans cet espace de signation.
Figure 20: Modélisation de la langue des signes.
25/70
3.1 ENJEU : PRENDRE EN COMPTE LA GRANDE ICONICITÉ
La langue des signes est une langue visuo-gestuelle dont le fonctionnement est très
différent de celui des langues vocales. Les linguistes s’attachent à en définir les contours, en
prenant plus ou moins de distance avec les théories linguistiques qui ont été proposées pour
les langues vocales.
Selon Cuxac [Cuxac 00], les langues des signes, grâce à l’utilisation du canal visuo-
gestuel, permettent au signeur de choisir entre deux stratégies discursives :
• les structures de grande iconicité (SGI), qui permettent de dire tout en montrant,
• les signes standards (SS), qui permettent de dire sans montrer.
Ces deux stratégies coexistent et le va-et-vient entre les deux est constant. C'est par ces
deux grands axes qu'une grammaire de la LSF peut être établie. Elles font naître des
différences structurales. En particulier en grande iconicité, on veut donner à voir et pour cela
on misera sur la ressemblance maximale entre la séquence de signes et l'expérience. C. Cuxac
tente de démontrer que ces structures de grande iconicité sont bien des éléments linguistiques
et constituent même la démonstration la plus subtile et la plus convaincante de ce qu'est une
langue. En effet, ces structures sont quasiment identiques d'une LS à l'autre, ce qui permet une
intercompréhension rapide entre des signeurs de nationalités différentes.
Une des principales propriétés des LS est l'utilisation intensive de l'espace de signation.
Cet espace permet de structurer le discours. Les entités du discours (personnes, objets,
évènements, notions abstraites...) sont localisées dans cet espace de signation. Ensuite, des
structures spatio-temporelles sont utilisées pour élaborer des énoncés. Par exemple, les
relations spatiales entre les entités sont généralement établies sans utiliser de signe lexical
dédié. C'est l'utilisation de proformes mises en relation dans l'espace qui permet d'exprimer de
telles relations. Un exemple est donné à la figure 21b, où l'image montre un oiseau situé sur
une barrière. Cela se fait par l'intermédiaire de deux proformes mises en relation. Le premier
(main gauche) représente le bec de l'oiseau, tandis que le second (main droite) représente la
barrière.
L'ordre d'apparition des signes dans l'énoncé est moins important que leur arrangement
dans l'espace, mais on peut dégager des principes généraux au niveau de l'organisation
temporelle : on signe du plus général, le contexte, vers le plus précis, l'action ; les entités plus
statiques sont signées avant les entités plus mobiles.
L'utilisation de multiples articulateurs au sein d'un espace pertinisé d'un point de vue
linguistique permet d'élaborer des structures linguistiques complexes, mettant en œuvre
l'iconicité à différents niveaux du discours. C. Cuxac a proposé une catégorisation de ces
structures linguistiques de grande iconicité. Il a distingué trois types de structures qu'il appelle
transferts :
• le transfert de taille et de forme, qui est utilisé pour décrire la taille et la forme d'une
entité (figure 21a),
• le transfert situationnel, qui est utilisé pour montrer le positionnement et le
déplacement d'une entité par rapport à un repère locatif stable (figure 21b),
• le transfert personnel, où le signeur incarne une des entités du discours (figure 21c).
26/70
De plus, les transferts situationnel et personnel peuvent se combiner pour former des
double-transferts tel celui montré à la figure 21d. Aussi, des parties de signes lexicaux
peuvent être combinées avec un double-transfert pour former un semi-transfert (figure 21e).
Une importante propriété observée à partir des corpus est que le regard du signeur permet
de distinguer systématiquement les moments de son discours où il est en grande iconicité de
ceux où il n'y est pas. Comme on peut le constater dans les exemples ci-dessous, le regard
n'est jamais dirigé vers l'interlocuteur en grande iconicité, l'intention étant de dire en
montrant.
Figure 21: Exemples de transferts

a) TTF « une pâte fine », b) TS « un oiseau sur une barrière », c) TP « un cheval au galop »,
d) DT « une vache qui rumine », e) ST « la vache (main gauche) attend (main droite) ».
Les approches classiques de représentations informatiques sont basées sur une

représentation phonologique de type paramétrique [Lebourque & Gibet 99 ; Losson 00 ; Gibet
& Lebourque 01 ; Elliott Glauer Kennaway et al 08] souvent inspirées du système de notation
HamNoSys [Prillwitz & Zienert 89], ainsi qu’une représentation arborescente de la structure
des énoncés, telle que HPSG1 par exemple dans les projets VisiCast et eSign [Elliott Glauer
Kennaway et al. 07]. On atteint très vite les limites de ces modèles lorsque l'on considère des
énoncés qui comportent des structures de grande iconicité, ce qui est très courant en LS.
Pour pouvoir représenter informatiquement ces structures, il est nécessaire d’élaborer des
modèles, à la fois précis et flexibles, qui s'inscrivent dans le processus d'utilisation pertinente
de l’espace qui est omniprésente en LS. Les modèles à mettre en œuvre pour représenter ces
phénomènes sont susceptibles d'exploiter des approches développées dans le domaine de la 3d
et pas uniquement dans le domaine du traitement automatique des langues (TAL). Mon
objectif est de proposer des modèles permettant de modéliser des phénomènes spatio-
temporels représentatifs de ce que l'on peut trouver dans les productions de LS, incluant les
structures de grande iconicité décrites par C. Cuxac. Notons que du fait que ces modèles
devraient permettre d'étendre les capacités actuelles des modèles dédiés aux LS, on peut
espérer pouvoir les appliquer à n'importe quelle langue des signes.
1
HPSG : Head-Driven Phrase Structure Grammar – théorie de la famille des grammaires génératives.
27/70
La première étape consiste à élaborer un modèle de l'espace de signation, base

structurelle de toute l'organisation de l'énoncé.
3.2 MODÉLISATION DE L’ESPACE DE SIGNATION
Ce type de modélisation est encore très peu étudié. Mis à part les travaux que j'ai menés
sur ce sujet dès ma thèse [Braffort 96b] dans le cadre de la reconnaissance automatique, puis
dans le cadre de la génération [Braffort Bossard Segouat et al. 05], seule une autre équipe
(l'équipe TCI de l'IRIT) s'y est intéressé en France dans le cadre de l'analyse de corpus vidéo
[Lenseigne 04]. Ces modèles sont fondés sur le modèle linguistique proposé par C. Cuxac et
nous cherchons maintenant à en dériver un modèle générique indépendant du cadre applicatif
[Braffort & Dalle 07]. Si dans d'autres pays certains linguistes commencent à considérer
l'importance linguistique de l'espace de signation [Liddell 00], ce n'est généralement pas le
cas des informaticiens, mise-à-part une étude menée dans le cadre de la traduction
automatique, mais où l'espace de signation est vu uniquement comme une représentation
interlangue [Huenerfauth 06]. Finalement, l'idée de modéliser l'espace de signation, considéré
comme élément structurant des énoncés, reste très novatrice et génératrice de pistes de
recherche pour la modélisation des autres aspects de la LS.
Cette modélisation est basée sur l’utilisation d’un espace euclidien de dimension 3, de
même nature que les graphes de scène utilisés dans le domaine de l'informatique graphique.
Ce graphe comporte autant de nœuds qu'il y a d'entités spatialisées dans le discours. Ces
nœuds sont reliés par des arcs qui permettent de représenter les relations entre entités. Les
descriptions des nœuds et des arcs peuvent être de granularité plus ou moins fine en fonction
des besoins. Ainsi cet espace peut être une simple « mémoire spatiale », qui va contenir
l’historique des emplacements pertinisés dans l’espace, avec une liste d’entités associées
auxquelles on va pouvoir faire référence. Il peut être plus complexe et comporter alors des
informations sur la nature des entités et les relations entre entités. La nature de ces
informations est détaillée ci-dessous, pour les entités, puis pour les relations.
3.2.1 Les entités

Selon la nature des entités et le contexte, il est nécessaire de préciser des propriétés plus
ou moins complexes. Ces propriétés, ainsi que leur nature, leur portée et leur valeur, sont
déterminées à partir des études linguistiques et de l'analyse de corpus vidéo ou de corpus 3d
(voir chapitre 2).
Cette section liste certaines de ces propriétés. Il ne s'agit pas d'une liste fermée, mais
plutôt d'un état des lieux des propriétés que j'ai été amenée à prendre en compte en fonction
des types d'énoncés considérés. Il s'agit des propriétés suivantes :
• emplacement et orientation de l'entité dans l’espace de signation,
• topologie de l'entité (forme plate, ronde, creuse…),
• linguistique (propriétés syntaxico-sémantiques, cognitives...),
28/70
Emplacement et orientation
Quand le signeur a besoin de localiser les entités dans l’espace de signation pour pouvoir
y référer par la suite, il place ses entités relativement à sa propre position. De même, le
signeur doit parfois expliciter l’orientation d’une entité, par exemple pour montrer qu’une
personne se dirige vers une voiture, ou s’en éloigne.
Ces propriétés sont modélisées à l'aide d'un système de coordonnées centré sur le signeur,
nommé repère signeur. Ce repère est centré sur le bassin du signeur, afin de pouvoir gérer les
prises de rôles qui impliquent une rotation au niveau du bassin [Braffort 96b].
Mais ces propriétés ne sont pas toujours nécessaires. En effet, les entités ne sont pas
toujours spatialisées. Elles sont toujours réalisées dans l'espace de signation, mais pas toujours
pertinisée. On parle à ce moment-là d'espace neutre. D'autre part, il arrive souvent qu’une
entité soit tout d’abord signée dans l’espace neutre puis spatialisée à l’aide d’un pointage, d'un
proforme, du regard, d’un mouvement d’épaule ou de la tête. Afin de pouvoir représenter ce
phénomène de spatialisation en deux étapes, il est nécessaire de modéliser cet espace neutre et
son utilisation.
Cet espace neutre peut être modélisé comme une pile (au sens informatique) afin de
permettre le dépilement d’une entité en vue de son intégration dans le graphe. Cette pile est
composée d’éléments comportant les mêmes informations que les nœuds du graphe, mises à
part les informations spatiales sur l’emplacement et l’orientation qui sont absentes ici puisque
pas encore instanciées [Braffort 96b].
Notons que la propriété d'orientation est optionnelle, car certaines entités ont une
topologie qui fait qu'elles ne sont pas orientables, comme le ballon ou le ciel.
Topologie
Une connaissance de la forme d’une entité est importante lorsqu’on a besoin de se référer
à une partie de l’entité dans la suite du discours. C'est en particulier le cas lorsque l'on crée un
effet de zoom sur une entité ou qu'une entité est décomposable. La topologie va aussi avoir
une incidence sur la façon dont les entités sont manipulées dans l'espace de signation, ainsi
que les proformes associés.
La modélisation de cette propriété peut être très complexe. Dans une version simplifiée,
on indique simplement si l'objet est décomposable ou non et on lui associe des indications sur
sa taille relativement aux autres entités. Si l'on souhaite une granularité plus fine, on
représente les entités décomposables comme des sous-graphes, où chaque élément de l'entité
est représenté par un nœud auquel on associe des indications sur sa topologie (forme plane,
ronde, creuse, non délimitée...) et où chaque arc permet de représenter la hiérarchie de la
décomposition.
Propriétés linguistiques et sémantico-cognitives

Des propriétés de nature linguistique, sur des aspects fonctionnels, sémantiques voire
cognitifs de l'entité peuvent aussi permettre d'associer à cette entité des comportements ou des
proformes. On spécifie des propriétés syntaxico-sémantiques (animé/inanimé,
agent/patient/objet…) qui sont exploitées dans les énoncés, par exemple pour reconnaître ou
générer un verbe directionnel [Braffort 96b]. On spécifie aussi des propriétés sémantico-
29/70
cognitives qui permettent de prévoir certains comportements des entités selon leur nature.
Pour cela, on associe aux entités un type sémantico-cognitif, qui peut être individualisable
(pour les entités telles que les objets, les personnes), massif, pour les entités non
décomposables (telles que la mer, le beurre), collectif (telles que la foule), date, lieu et action
[Lejeune Braffort & Desclés 01 ; Lejeune & Braffort 02 ; Lejeune 04 ; Braffort & Lejeune
05 ; Braffort Bossard Segouat et al. 05]. En fonction de son type, une entité se verra associer
des proformes différents [Lejeune & Risler 04] et va avoir des comportements différents dans
l’espace de signation [Lenseigne 04].
Il est nécessaire de prendre en considération l'ensemble de ces propriétés si l'on souhaite

traiter automatiquement un énoncé complexe comportant des signes standards relocalisés, des
proformes, ainsi que toute unité gestuelle utilisée en grande iconicité.
Une fois les propriétés des entités modélisées, il faut s'intéresser aux relations établies
entre ces entités au sein de l'espace de signation.
3.2.2 Les relations spatiales

L'espace de signation est constitué d’entités, telles que définies précédemment, qui sont
mises en relation. En LS, les relations sémantico-syntaxiques sont explicitement montrées
dans la scène de signation.
La nature des relations dépend de la nature des entités. Par exemple, si l’on manipule des
entités de type « date » ou « action », les relations seront des relations spatiales, mais entre
deux évènements temporels. Ainsi, elles exprimeront des relations temporelles comme la
succession, le chevauchement, l'inclusion… S’il s’agit d’entités de type « individualisable »,
« massif » ou « lieu », les relations seront le plus souvent spatiales (sur, sous, dans...),
actancielles (mettant en relation des actants1), ou « partie/tout » (exemples : les pieds de la
table, la queue du chat). Ainsi, à chaque type de relation va correspondre des propriétés
spécifiques qu'il va falloir représenter.
Je décris ci-dessous deux types de relations : les relations spatiales entre entités étudiées
dans le cadre de la thèse de F. Lejeune [Lejeune 04] et les relations actancielles, abordées
durant ma thèse [Braffort 96b].
Relations spatiales
Les relations spatiales permettent de situer une entité par rapport à une autre. En LS, ces
relations ne s'expriment pas à l'aide de signes lexicaux. Elles se réalisent par la mise en
relation spatiale des deux mains du signeur. Chaque main fait référence à une des entités à
l’aide d’un proforme, qui permet de préciser le point de vue sur cette entité.
La figure 22 montre une relation spatiale statique décrivant un lieu situé au dessus d'un
autre. Le lieu qui sert de repère est activé par un proforme (main gauche, dominée2) et le lieu
de l'entité repérée est activé par un pointage (main droite, dominante).
1
Actant : participant à l'action (acteur, agent, objet patient, bénéficiaire, instrument)
2
La main dominante est la main droite pour un droitier, gauche pour un gaucher.
30/70
Figure 22: Relation spatiale statique.
Ce type de relation peut être modélisé par une simple étiquette sur l'arc qui relie les deux
entités, indiquant la relation spatiale [Braffort 96b].
Par exemple, dans cette représentation, une phrase en LSF signifiant "Il y a un verre sur
la table devant moi, avec un glaçon dedans, et il y a un ballon sous la table." est structurée à
l’aide d’un graphe tel celui illustré à la figure 23.
verre g la ç o n
dans
x2, y2, z2 x3, y3, z3
su r
s ig n e u r ta b le
x0, y 0, z0 x1, y1, z1
so u s b a llo n
x4, y4, z4
Figure 23: Exemple de représentation de relations spatiales

dans le modèle de scène de signation.
Mais cette modélisation est assez grossière car la relation peut être décrite très finement
en LS. Une modélisation plus fine a été étudiée dans le cadre de la thèse de F. Lejeune. Elle
est présentée à la section 3.4.
Relations actantielles
Les relations actancielles décrivent une relation entre les actants d'un prédicat1. Ces
relations sont réalisées en LSF à l’aide d’unités gestuelles nommées verbes directionnels. Ces
signes s’instancient dans l'espace et le temps. La direction du mouvement et l'orientation de la
main permettent de déterminer les rôles d'agent et de patient. La configuration de la main peut
être générique, ou intégrer un proforme faisant référence à un des actants du prédicat. La
dynamique du mouvement correspond aussi à un trait grammatical (l'aspect), qui exprime la
façon dont l'action est envisagée chronologiquement (commencement, déroulement,
achèvement...).
Par exemple, pour la notion de « donner un objet », la réalisation consiste en un

mouvement de l’emplacement de l’agent (celui par qui l'action est accomplie) dans la scène
de signation à l’emplacement du bénéficiaire (celui qui reçoit les résultats de l'action), en
1
Prédicat : Au sens linguistique, partie de l'énoncé qui exprime ce qui est dit à propos du thème ; en général associée à un
groupe verbal.
31/70
intégrant l’objet donné grâce à un proforme. Le proforme change selon que l’on donne un
objet, plat, rond, gros, lourd… Il peut s’agir d’un proforme mono- ou bi-manuel (figure 24).
Figure 24: Signe [DONNER] dans trois contextes.
Ce type de relation peut mettre lier deux, trois voire quatre entités, chacune ayant un rôle
d'actant distinct. Cela est spécifié à l'aide d'une des propriétés linguistiques présentées dans la
section précédente. Pour chaque entité mise en jeu dans une situation donnée, cette propriété
est spécifiée.
Lorsque qu'il y a une notion d'accomplissement dans l'action, celle-ci peut présenter un
commencement et un achèvement. Pour modéliser ces relations, il est nécessaire de pouvoir
représenter le développement de l'action, donc ses différentes étapes, typiquement la situation
initiale et la situation finale. Cette modélisation a été étudiée dans le cadre de la thèse de F.
Lejeune [Lejeune 04]. Elle est basée sur un formalisme présenté plus loin à la section 3.4.
Une fois l'espace de signation modélisé, on va pouvoir s'intéresser aux unités gestuelles
déployées au sein de cet espace.
3.3 REPRÉSENTATION DES UNITÉS GESTUELLES
W.C. Stokoe, un des premiers linguistes à s'intéresser aux LS, a proposé de déterminer les
unités minimales différentielles constituant le lexique de la langue des signes américaine
(ASL). Ces unités minimales, qu'il appelle « chérèmes » étaient pour lui l'équivalent des
phonèmes. Il s’agit de ce que l’on dénomme maintenant les « paramètres » des LS :
• configuration (forme de la main),
• emplacement de la main dans l'espace de signation ou par rapport au corps,
• orientation de la main par rapport au corps,
• mouvement de la main.
• On y ajoute la mimique faciale comme cinquième paramètre.
Ce modèle phonologique est depuis cette époque le modèle dominant, même si certains
linguistes ont affiné les descriptions ou rendu plus cohérent les systèmes de description
[Liddell & Johnson 89]. Il est aussi à la base de la plupart des représentations informatiques
proposées à ce jour. Après analyse de cette représentation du point de vue informatique, il
s'est avéré que cette représentation posait de nombreux problèmes, tant en terme de
cohérence, de complétude que de pertinence lorsque les signes sont considérés dans le
32/70
contexte d'un énoncé. Dans le cadre de la thèse de M. Filhol [Filhol 08], un nouveau modèle
de représentation du lexique se propose de répondre à ces différentes critiques.
Cette section reprend dans l’ordre chronologique les études menées dans ce domaine.
J'expose d’abord les études menées durant ma thèse, affinées ensuite dans le cadre de la thèse
de B. Bossard [Bossard 06]. Je poursuis en décrivant un peu plus en détail la proposition de
représentation.
3.3.1 Définition des problématiques

Durant ma thèse, j’ai mené une étude détaillée des quatre paramètres manuels de la LSF
(configuration, emplacement, orientation et mouvement) [Braffort 96b, Braffort 06].
L’objectif était de définir un ensemble de propriétés et si possible de règles de constitution
des signes afin de :
1. définir un système de reconnaissance et de compréhension de gestes,
2. choisir un corpus approprié afin de tester ce système.
Cette étude a été prolongée et affinée durant la thèse de Bruno Bossard [Bossard 06],
également ancré dans un contexte de reconnaissance et compréhension, mais cette fois-ci
centrée sur les problématiques spécifiques aux gestes bimanuels. Ces études se sont basées sur
l'analyse qualitative des signes standards à partir du dictionnaire IVT [Moody 98] ainsi que
sur l'analyse quantitative à partir de corpus 3d captés à l'aide de gants numériques [Gibet
Richardson Lebourque et al. 98]. Quoique menées dans un contexte applicatif bien défini,
elles ont permis de mettre en lumière des problématiques de représentations bien spécifiques à
la LS, dont les principales sont résumées ci-dessous. Il s'agit de la variabilité, de la nature des
paramètres et de la nature des informations véhiculées.
Variabilité des signes

Durant ma thèse, j’ai observé la variabilité contextuelle des unités gestuelles et j’ai
proposé de distinguer deux catégories de signes : ceux pour lesquels les quatre paramètres
sont invariables quel que soit le contexte et ceux pour lesquels au moins un des paramètres est
variable en fonction du contexte.
La première catégorie correspond à certains signes standards, comme [GARÇON] (figure

25). Ce signe est toujours réalisé de la même façon.
Figure 25: Signe [GARÇON].
La seconde catégorie inclut les unités gestuelles dont la réalisation dépend du contexte,
tels les verbes directionnels ou les relations spatiales dont nous avons parlé précédemment
(voir section 3.2.2), mais aussi les signes standards qui peuvent être modifiés selon le
33/70
contexte, tel le signe [PERSONNE] (figure 26), dont l'emplacement peut être directement
pertinisé dans l'espace de signation en réalisant le signe à l'emplacement désiré plutôt que
dans l'espace neutre.
Figure 26: Signe [PERSONNE].
Cette deuxième catégorie de signes, par nature hautement variables dans leur réalisation,
est de loin la plus importante en nombre et en fréquence d'utilisation, comme le prouve les
résultats d'analyse issus des bases de données ou des annotations de corpus vidéo [Sallandre
03].
On peut en conclure qu'un système de traitement automatique doit pouvoir être

suffisamment souple pour permettre une instanciation des paramètres variables en contexte,
au niveau des énoncés. Cette variabilité s'exprime au travers des différents paramètres, dont le
rôle doit être étudié plus en détail.
Nature des paramètres

Toujours grâce à la base de données établie pendant ma thèse, j’ai amorcé une étude sur
l’importance relative des paramètres dans la définition du signe. J’ai proposé de distinguer
deux catégories de paramètres selon que ces derniers sont indispensables dans la description
du signe ou non. J’ai observé, par exemple, que si l'orientation n'est pas choisie
intentionnellement mais est une conséquence du mouvement, elle ne possède pas de valeur
pertinente. L’orientation est définie à l’aide de deux directions : celle de la paume et celle de
l’axe de la main. On rencontre souvent des signes pour lesquels l’une des directions n’est pas
pertinente, comme la direction de l’axe de la main dans le signe [QUOI] (figure 27).
Figure 27: Signe [QUOI ?].
De plus, on observe un certain nombre de corrélations entre les valeurs des paramètres,
par exemple entre la configuration et le mouvement, ou entre le mouvement et l’orientation.
Ainsi, dans les signes bimanuels, on observe que quand les deux bras se déplacent, les deux
configurations sont identiques, tandis que lorsque seul le bras de la main dominante se
déplace, les configurations sont différentes. Par ailleurs, selon le type de trajectoire que
34/70
dessine le poignet, le comportement de l’orientation est différent : elle est généralement

statique lors de trajectoires circulaires et dynamique lors de trajectoires courbes ou quand la
main ne bouge pas.
On peut en conclure que les paramètres n’ont pas tous la même importance dans la
définition d’un signe, et qu’il peut y avoir une dépendance entre paramètres. La question est
de trouver comment exprimer cette importance relative des paramètres et leurs éventuelles
relations. Ce problème a été étudié pendant la thèse de M. Filhol [Filhol 08].
Si certains paramètres semblent importer moins, ceux qui participent à la définition du

signe sont susceptibles de véhiculer des informations dont la nature doit être étudiée.
Nature des informations véhiculées

La nature des informations véhiculées par un signe peut être :
• discrète et prendre une valeur dans une liste fermée, comme les paramètres dans le
signe [GARÇON] (figure 25),
• statique et spatiale, prenant une valeur quelconque dans l’espace de signation, comme
l’emplacement dans le signe [PERSONNE] (figure 26),
• continue et spatio-temporelle, comme le mouvement dans le signe [DONNER] (figure
24).
Ainsi au sein d'un même signe, certains paramètres peuvent être de natures différentes
(discret, continu...).
Ce phénomène est encore plus flagrant lorsqu’on considère les structures de grande
iconicité. Un paramètre donné peut posséder tantôt une valeur discrète, tantôt une valeur
continue. Par exemple, pour beaucoup de signes standards, la configuration prend « par
défaut » une valeur discrète parmi l’ensemble des configurations observées pour la LSF. Mais
rien n’empêche, en contexte, que cette configuration soit modifiée afin d’apporter un niveau
de précision dans le discours, au moyen d'un « transfert de taille et de forme » [Cuxac 00]. De
même pour l’emplacement, on peut lister un nombre restreint d’emplacements sur le corps ou
près du corps du signeur utilisés dans certaines unités gestuelles, mais l’emplacement peut
tout aussi bien être sélectionné à la volée dans le discours, en fonction de ce qui a été signé
précédemment. Ainsi une même unité gestuelle peut très bien comporter des informations
discrètes et continues, statiques et dynamiques.
Comme le montre l'analyse des corpus, cette observation est généralisable à l’ensemble
des articulateurs mis en jeu (regard, mimique, mouvements de la tête, des épaules, du
buste…) pour une unité gestuelle au sein d’un énoncé. Mais en plus, les différents gestes ou
mouvements peuvent avoir une portée temporelle différente. Un regard peut conserver une
valeur de direction donnée pendant la réalisation de plusieurs signes, ou au contraire être
extrêmement bref. Les deux mains peuvent être parfaitement synchronisées ou non, selon
qu’il s’agit d’un geste bimanuel ou de deux gestes monomanuels mis en relation [Bossard
Braffort & Jardino 04 ; Bossard 06].
Ainsi une représentation des unités gestuelles doit être suffisamment souple pour
permettre différents niveaux de granularité dans la définition des paramètres, ainsi qu’un
mécanisme permettant d’exprimer des relations avec des évènements spatio-temporels.
35/70
Bilan
La représentation des unités gestuelles constituant un énoncé pose des problématiques
très différentes de celles des langues vocales : plusieurs parties du corps (mimique,
configuration, mouvement des mains…) interviennent simultanément sur des intervalles de
temps variables ; certaines informations sont de nature discrètes (certaines configuration), ou
dynamique (le mouvement des mains ou des bras), ou encore spatiales (emplacement,
direction du regard) ; les paramètres peuvent être discrets ou continus, à valeur prédéfinie ou
non, choisie en fonction du contexte. Enfin, tous les paramètres n’ont pas toujours la même
importance dans la définition d'un signe ou encore ils peuvent être corrélés plus ou moins
fortement.
Les représentations proposées lors de nos premières études ont été pensées dans le cadre
d’applications de la reconnaissance automatique. Les capteurs (gants numériques, capteurs de
position) ont induit un point de vue articulatoire sur la représentation de bas niveau. Les
méthodes employées (statistiques ou stochastiques) ont, quant à elles, imposé une
prédominance de l’aspect temporel sur l’aspect spatial. Dans ce contexte, les solutions
proposées ont été de développer des représentations incluant plus ou moins de paramètres
selon la catégorie de signes (signes à réalisation figée et signes à réalisation variable) et de
conserver les valeurs numériques telles que l’emplacement et l’orientation au cours du temps
pour une utilisation lors du processus d’interprétation [Braffort 96b]. Pour ce qui est de la
gestion de l’aspect mono- ou bimanuel des signes, la solution proposée a été d'élaborer des
représentations de plus haut niveau distinguant les signes bimanuel et les signes
monomanuels. Les signes bimanuels sont considérés comme un tout, les signes monomanuels
des mains dominante et dominée sont distingués. Le vocabulaire gestuel de la main dominée
consiste uniquement en proformes utilisés lors de « transferts situationnels » [Bossard 06].
Ces premières études ont permis de prendre la mesure des problématiques et de leur
importance pour la mise en place de systèmes de traitement automatique de la LS qui soient
pertinents. Mais ces études sont restées liées à l’application de reconnaissance automatique et
ses contraintes. L’étape suivante a été de réfléchir à une modélisation plus générique et plus
complète, que l’on souhaite pouvoir appliquer également dans le contexte de la génération
automatique, mais plus généralement dans toute application nécessitant de décrire la
constitution d’un signe (dictionnaire, système graphique, analyse par traitement d’image…),
en s’appuyant si possible sur un ou des modèles linguistiques des LS. Cette modélisation est
détaillée dans la section suivante.
3.3.2 Représentation des signes standards en contexte

La recherche d’une représentation plus générique est menée dans le cadre de la thèse de
M. Filhol [Filhol & Braffort 06a ; Filhol & Braffort 06b ; Filhol & Braffort 08]. Le modèle
proposé permet de décrire les signes sans imposer de paramètres universels et offre à toute
partie de la description la possibilité de se référer à d’autres parties de cette description. Les
trois propriétés voulues pour cette représentation sont :
• que toute information superflue ou sur-contraignante n’apparaisse pas dans la
description ;
• que les dépendances entre les objets de la description soient apparentes ;
• que la description soit suffisamment flexible pour permettre au signe de s’adapter aux
différents contextes.
36/70
L’analyse statistique de la LSF que j’avais menée pendant ma thèse grâce à la base de
données [Braffort 96b] montre que les éléments de géométrie spatiale sont courants dans les
signes de LSF : la plupart des signes bimanuels comportent une symétrie ou un parallélisme,
un grand nombre de mouvements décrivent des droites ou des cercles… De plus,
pratiquement toutes les descriptions spontanées font appel à une notion géométrique.
Partant de ce constat, nous proposons d'appréhender le signe comme une construction

géométrique dans l’espace, plutôt que comme une liste de variables universelles. Comme pour
toute figure de la géométrie classique, on y construit pas à pas des points, des droites, des
plans, grâce à un langage de spécification formel et non ambigu, jusqu’à obtenir la figure
désirée. La spécification d’un signe suppose qu’à partir d’un espace initialement vide (ici,
l’espace de signation), on construise un par un tous les objets nécessaires en les contraignant
suffisamment pour obtenir la construction finale.
Pour [BALLON] par exemple (figure 28), nous avons besoin de différents objets
géométriques.
Figure 28: Signe [BALLON].
Ces objets géométriques1 sont un plan P, un point S et une trajectoire Tr. Ils sont détaillés
dans la figure 29.
Figure 29: Définition des objets géométriques pour le signe [BALLON].
1
Ces objets géométriques sont superposés à une image d’Elsi, la signeuse virtuelle développée dans l’équipe [Bolot
Braffort Filhol 06 ; Braffort & Filhol 07 ; Filhol Braffort Bolot 07]. Seul le plan de symétrie y est omis, pour des raisons
de clarté.
37/70
Chaque objet peut faire référence à un ou plusieurs objets déjà construits lorsque c’est
nécessaire, ce qui met en lumière les dépendances entre les éléments. Si un élément fait
référence à un autre, les deux sont en dépendance directe et explicite. Ainsi, contrairement
aux modèles à paramètres simultanés, une structure et un ordre de construction propres au
signe se dégagent de chaque description.
La figure 30 montre la forme de langage utilisée pour le descriptif. Le langage comporte

des commandes de construction aussi bien que de contraintes sur les objets construits, une sur
chaque ligne.
Figure 30: Description de ballon avec le modèle géométrique.
Les lignes 1, 4 et 6 sont des commandes de construction d'objet. Elles construisent

chacune un objet géométrique typé (P, S et Tr). Les autres lignes sont des commandes de
contrainte. Elles contraignent soit les objets construits, soit des objets préexistants comme les
données du corps du signeur présentes dans les six dernières lignes (Main dominante MD,
main dominée Md, configuration cfg, emplacement loc, orientation de la paume paume). Les
valeurs utilisées dans les formules des contraintes peuvent être :
• des constantes : Up (ligne 5), PI (ligne 7) ;
• des objets construits : P (ligne 12) ;
• des objets préexistants : MD.loc (ligne 10) ;
• des objets contextuels : {Loc} (ligne 3 - voir paragraphe suivant).
L’ensemble de la description peut se lire comme suit (figure 31) :
38/70
Figure 31: Explication de la description de [BALLON].
On y retrouve la définition des objets géométriques P, S et Tr (lignes 1, 4 et 6), ainsi que

les contraintes qu’ils doivent respecter (lignes 2, 3, 5, 7). La ligne 8 définit la configuration
(cfg) de la main dominante (S-) , qui est simplifiée ici mais qui pourrait aussi être décrite sous
forme de contraintes. La ligne 9 décrit la trajectoire du poignet (wrist) de la main dominante
en fonction du temps et la ligne 10, l’orientation de la main dominante (ori) en fonction du
temps. Les trois dernières lignes décrivent la main dominée (w-) par rapport à la main
dominante.
Pour les signes le nécessitant, il est possible d’inclure des descriptions relatives à la
mimique, à la posture des bras ou à d’autres parties du corps.
Enfin, le modèle permet d’étendre les dépendances possibles lors de la spécification d’un
objet à des dépendances externes. Ce nouveau type de dépendance permet à une description
de faire référence non plus uniquement à un autre objet, pourvu que celui-ci soit défini plus
avant dans la description, mais aussi à un élément qui indique une valeur contextuelle, à
récupérer si elle existe au moment de la signation.
Ceci nous amène à inclure des références à de nouveaux types d’objets dans les
descriptions : des objets contextuels, se trouvant « à l’extérieur » du signe décrit. Ce sont ces
éléments qui apparaissent entre accolades sur les figures 30 et 31. L’objet {Loc} désigne le
locus du ballon (géométriquement : un point), c’est-à-dire son emplacement dans l’espace de
signation au moment de le signer en contexte. En effet, [BALLON] est un signe relocalisable,
dont l’emplacement générique est l’espace neutre. {Rad} désigne son rayon.
L’organisation temporelle du signe, qui n'est pas détaillée ici, est basée sur le modèle
linguistique de Johnson [Liddell & Johnson 89], qui permet de distinguer différentes phases
dans le signe : les postures (P) et les tenues (D), qui représentent des instants clé dans le signe
et les transitions (M) entre deux instants clé. Ce système fournit une description fine, utile à la
fois pour la précision de la dynamique, mais aussi pour décrire certains aspects du signe qui
se transmettent à travers l’organisation temporelle.
39/70
Cette modélisation du signe nous permet maintenant de représenter les signes en

contexte. Elle est suffisamment complète et flexible pour permettre de décrire toute unité
gestuelle, y compris celles employées dans les structures de grande iconicité, ainsi que
probablement les gestes coverbaux. Cela reste bien sûr à vérifier au sein de prototypes
informatiques.
Une fois le lexique modélisé, il s'agit de proposer des modèles pour les énoncés
composés d'unités lexicales et construits sur cet espace de signation.
3.4 REPRÉSENTATION DES ÉNONCÉS
Dans la grande majorité des recherches menées jusqu’alors sur les langues des signes,
que ce soit en synthèse ou en analyse, l’énoncé est considéré comme une succession de signes
isolés, éventuellement coarticulés. Les modèles utilisés sont parfois très éloignés de la réalité
du fonctionnement des LS (génération ou reconnaissance de dactylologie, d’américain
signé…). De plus, les éléments non manuels sont encore rarement pris en compte alors que
leur rôle est essentiel. De rares études, essentiellement dans le cadre applicatif de la
génération, traitent de certains aspects syntaxico-sémantiques spécifiques aux LS. C’est en
particulier le cas des études initiées dans le cadre du projet européen Visicast, qui intègre
l’utilisation de proformes et de verbes directionnels [Marshall & Safar 04]. Cependant, ces
modèles, basés sur une représentation arborescente des énoncés, ne peuvent pas intégrer les
structures de grande iconicité décrites par C. Cuxac.
Me tenant au principe que l'espace de signation est le socle de l'organisation des énoncés,
je cherche à élaborer des modèles de description des énoncés, ou plutôt de portions d’énoncés
correspondant à des structures spatio-temporelles que l’on rencontre souvent en LS. Je me
propose dans un premier temps d'élaborer des descriptions sous une forme proche de la
transcription de corpus en « partition », telle qu'on la pratique au sein des logiciels
d'annotation de corpus vidéo. Cette approche « bas niveau » est une première étape avant de
pouvoir définir un véritable langage de description générique et complet. Ces descriptions
permettent d’exprimer des propriétés temporelles qualitatives accompagnées de contraintes
plus ou moins fortes sur les aspects spatiaux. Il utilise la logique temporelle d’intervalle de
Allen [Allen 83] et est enrichi de types de données et d’opérateurs de différentes natures
permettant de manipuler d’une part, les propriétés sémantico-cognitive et d’autre part, les
composantes des signes et les données spatiales.
Pour le moment, un ensemble restreint de structures a été étudié : celles qui relèvent d'une
des structures de grande iconicité décrites par C. Cuxac, les « transferts situationnels ». Il
s'agit de la spatialisation d'une entité à l'aide d'un proforme et de l'expression d'une relation
spatiale statique entre deux entités. Cela permet d'évaluer la nature des descriptions à prévoir
et d'envisager la cohérence de l'ensemble des modélisations proposées : espace de signation,
unités lexicales et énoncés.
Spatialisation d'une entité à l'aide d'un proforme

La structure spatio-temporelle permettant de spatialiser une entité dans l’espace de
signation est composée d’unités gestuelles, manuelles ou non-manuelles :
• un signe standard désignant une entité, noté SS,
40/70
• un pointage ou un proforme permettant de spatialiser l'entité en un lieu donné, notés

respectivement PT(loc) et PF(SS, loc),
• le regard, noté GZ(loc), qui est utilisé pour « pertiniser » un emplacement dans
l’espace de signation juste avant d’y placer un proforme [Cuxac 00]. Je présente ici à
titre d'exemple le cas du proforme.
Le signe standard est tout d’abord réalisé, puis le regard est dirigé vers le futur
emplacement du proforme, enfin le proforme est réalisé à cet emplacement, toujours
accompagné du regard. Par exemple, la séquence d'images figure 32 illustre la spatialisation
de l’entité « Paris » à un emplacement donné du plan vertical frontal.
Figure 32: Séquence "[PARIS] là".
Si on représente la succession d’évènements correspondant à cette séquence, on observe

des phénomènes se produisant en parallèle, qu’on peut représenter sous forme d'une partition,
où le temps s’écoule de gauche à droite (figure 33).
Regard GZ(P)
Signe [SS]
standard
Proforme PF(S, P)
Figure 33: Organisation temporelle de la structure.
• La première piste représente la direction du regard. La partie grise représente le

moment où la direction du regard est contrainte vers un point P de l’espace de
signation (GZ(P)).
• La deuxième piste représente le signe standard [SS] représentant l’entité. Il est réalisé
au début de la séquence.
• La troisième piste représente le proforme PF([SS], P), dont la configuration est choisie
en fonction de la nature de l’entité [SS] et dont l’emplacement est égal à P.
Les durées des différents évènements sont ici purement fictives et devront être
déterminées à partir de valeurs statistiques issues de l’analyse de corpus vidéo tel que LS-
COLIN. Notons que le regard peut se fixer sur le point P un peu avant la fin de [SS]. La figure
41/70
34 montre la forme de langage utilisé pour décrire cette partition. Ce langage permet
d'exprimer des relations temporelles et des contraintes spatiales
1. SIGN SS, PROFORM PF, GAZE GZ ;

2. PF.handshapeList = SS.proformeList ;
3. INTERVAL_TEMP GZ.temp, SS.temp, PF.temp ;
4. (SS.temp < GZ.temp ) v (SS.temp m GZ.temp) v (SS.temp o GZ.temp) ;
5. (PF.temp e GZ.temp ) v (GZ.temp = PF.temp) v (GZ.temp o PF.temp) ;
6. GZ.direction = vect(eyes, {loc}) ;
7. PF.location = {loc} ;
Figure 34: Description de la structure.
La ligne 1 déclare les unités gestuelles manipulées et la ligne 2 décrit la liste des
proformes disponibles. Les lignes 3, 4 et 5 sont des déclarations d'intervalles temporels et de
relations entre ces intervalles. Les lignes 7 et 8 déclarent des contraintes spatiales de même
nature que celles employées dans le modèle dédié aux unités lexicales. Elles peuvent elles-
mêmes dépendre d'un objet contextuel, instancié dans l'espace de signation.
L’ensemble de la description peut se lire comme suit (figure 35) :
1. Liste des trois unités gestuelles : signe standard, proforme et regard

2. Liste des proforme possibles pour cette entité. Le choix d’un des proformes
dépend des propriétés de l’entité (topologiques, sémantico-cognitives)
et de l’utilisation du proforme dans la suite de ’énoncé.
l
Ce choix n’est donc pas effectué à cette étape.
3. Liste de trois intervalles temporels pour les durées du regard,
de la réalisation du signe standard et de la éalisation
r du proforme.
4. La réalisation du signe standard précède globalement le regard
5. Le regard et la réalisation du proforme sont quasiment synchronisés
6. La direction du regard est contrainte vers ’emplacement
l Loc.
7. L’emplacement du proforme est contraint vers ce même emplacement.
Figure 35: Explication de la description.
La spatialisation d'une entité à l'aide d'un proforme peut maintenant être employée dans
des énoncés exprimant une relation spatiale entre deux entités. Une représentation possible
pour ce type d'énoncé est présentée ci-dessous.
La relation spatiale statique

La relation spatiale statique décrit une situation dans laquelle il existe une relation
spatiale entre deux entités, telle que « dans », « sur », « sous »... Comme précédemment, ce
type d’énoncé est composé de signes standards, de pointages et /ou de proformes et du regard.
Les deux entités sont spatialisées successivement, la deuxième l'étant par rapport à la
première, à l'aide des pointages et/ou proformes.
42/70
Par exemple, la figure 36 détaille la séquence qui peut se traduire par « L’université est
au nord de Paris ». Ce type de relation s’exprime à l’aide d’un proforme et d’un pointage. Le
proforme ‘C’ (image 2 de la séquence) fait référence à Paris et le pointage (image 4 de la
séquence) à l’université.
Figure 36: Séquence « [Paris] là [UNIVERSITÉ] au nord ».
On peut distinguer deux étapes :

• Le signe [PARIS] est tout d’abord spatialisé à l’aide d’un proforme dans la séquence
« [PARIS], là » (deux premières images de la séquence montrée dans la figure 36).
• La séquence « [UNIVERSITÉ], au nord » est composée aussi d’un triplet (signe
standard, regard, pointage), mais la partie «pointage» met en œuvre les deux mains et
comporte des contraintes spatiales plus complexes (deux dernières images de la
séquences montrée dans la figure 36).
Pour exprimer ces contraintes spatiales plus complexes, on va devoir manipuler des
sous-espaces et les mettre en relation, à l’aide de proformes ou de pointages. Il peut être
nécessaire de décrire des relations assez fines, mettant en jeu des notions de topologie telles
que la frontière d'un objet, son intérieur... De simples contraintes telles que celles utilisées
jusqu'à maintenant se révèlent insuffisantes, d'où la recherche d'une modélisation plus fine.
Ce type de modélisation a été étudié dans le cadre de la thèse de Fanch Lejeune
[Lejeune 04]. F. Lejeune s’est intéressé à un type de grammaire, la Grammaire Applicative et
Cognitive [Desclés 90] et à son utilisation pour décrire les langues des signes. Cette
grammaire inclut un niveau cognitif constitué de schèmes sémantico-cognitifs (SSC). Un SSC
est une forme structurée constituée comme un tout à partir de primitives sémantico-
cognitives. Cette représentation est basée sur l'hypothèse que les primitives, que le linguiste
dégage par une démarche abductive, sont des invariants du système cognitif humain et que la
plupart relèvent directement des phénomènes de perception visuelle et d'action motrice dans
notre environnement spatio-temporel familier, hypothèse qui semble particulièrement
pertinente dans le cas des LS.
Dans sa thèse, F. Lejeune reprend le formalisme des SSC, basé sur la notion de repérage
d’une entité par rapport à une autre. Cette notion se représente sous forme de SSC par la
43/70
description formelle <x REP y> qui indique qu’une entité x est repérée par rapport à une
entité y. Ce schème générique est instancié pour chaque cas concret de façon à préciser
comment le repérage est réalisé. Dans notre exemple où l’université est repérée par rapport à
Paris, l’instanciation est la suivante :
<L=ORNord(DET(LOC(Paris))) & Université REP IN(L)>
Cette représentation utilise des relateurs de repérage (ex : REP), des opérateurs (ex :
opérateur logique &, opérateur de détermination DET) et d’autres primitives sémantico-
cognitives, telles que les types sémantico-cognitifs des entités (section 3.2.1). Les opérateurs
et relateurs prennent comme arguments des schèmes et renvoient des schèmes. Ils peuvent
ainsi s’utiliser de façon imbriquée. Dans notre exemple, on utilise :
• LOC(x), opérateur qui spécifie qu’une entité x, dans le contexte de l’énoncé, est de
type sémantico-cognitif lieu ; elle peut donc servir à localiser une autre entité :
LOC(Paris)
• DET(x), opérateur qui détermine un point de vue sur une entité x, induisant le choix
d’un proforme précis, précédé d’un regard en un lieu donné : DET(LOC(Paris))
• OR(x), opérateur qui oriente une entité, ici il s’agit d’un lieu orienté selon le repère
absolu des points cardinaux. OR donne une orientation au proforme :
OR(DET(LOC(Paris))))
• IN(x), opérateur topologique faisant référence à l’intérieur d’une entité x de type
« lieu ». Ici, on fait référence à l’intérieur de l’espace induit par OR :
IN(OR(DET(LOC(Paris)))))
• x REP y, relateur indiquant que par rapport à une entité lieu y, l’entité x est repérée.
Cette application du relateur exprime l’ordre privilégié repère-repéré : Université
REP IN(L)
Dans un premier temps, un lieu L est défini de la manière suivante : L’entité Paris, est
typée comme étant un lieu (LOC(Paris)), dont on veut représenter la frontière, ce qui est
exprimer par l’utilisation du proforme ‘C’ à l’aide de l’opérateur DET (DET(LOC(Paris)). Le
L est déterminé comme étant un espace situé au Nord de cette frontière
ORNord(DET(LOC(Paris))). Dans un deuxième temps, l’université est repérée à l’intérieur de
ce lieu L à l’aide d’un pointage (Université REP IN(L)). Au final, cette description formelle
permet d’exprimer que l’entité « Université » est repérée dans un espace situé au nord de
l’entité « Paris ».
Ce niveau de détail permet de traiter des unités gestuelles complexes qui ne sont pas des
signes standards telles que l'unité gestuelle correspondant à la quatrième image de la figure
36, ou l’unité gestuelle illustrée figure 37, qui représente la relation spatiale « dans » entre
deux entités.
44/70
Figure 37: Relation spatiale statique « dans ».
Dans le cadre de la génération automatique, de tels signes nécessitent de piloter avec

précision les positions et orientations relatives des deux mains, à l’aide de processus de
cinématique inverse impliquant l’ensemble des chaines articulaires mises en jeu, jusqu’au
bout des doigts, problématique qui relève cette fois-ci du domaine de l’informatique
graphique.
L'ensemble des modélisations présentées dans ce chapitre a été implémenté au moins

partiellement au sein de prototypes de laboratoire, dont les exemples les plus caractéristiques
sont donnés dans le chapitre suivant.
45/70
CHAPITRE 4 -
MISE EN ŒUVRE
Afin d’évaluer la pertinence des modèles, ces derniers sont

systématiquement mis en œuvre au sein de prototypes, avant de
donner lieu à d'éventuelles applications plus finalisées (figure 38). Ce
chapitre expose des exemples de mises en œuvre représentatives, en
reconnaissance et interprétation automatiques ainsi qu’en génération et
animation d’énoncés en LSF. Certaines réalisations ont aussi porté sur le
domaine de la gestuelle coverbale, pour lequel j'ai proposé des
extensions des résultats obtenus pour la LS. Trois réalisations
informatiques sont présentées : la plus ancienne réalisation, effectuée
pendant ma thèse dans le domaine de la reconnaissance automatique
de la LS (section 4.1), ainsi que la plus récente, la plate-forme
fédératrice qui est en cours de développement dans l’équipe pour la
génération de la LS (section 4.2). La troisième section (section 4.3)
expose une extension des résultats effectuée dans le domaine de la
réalité virtuelle.
Figure 38: Cadres applicatifs.
46/70
4.1 RECONNAISSANCE ET INTERPRÉTATION
La toute première application, nommée ARGo, a été réalisée pendant ma thèse. Elle
comporte un système de reconnaissance et d'interprétation automatique de phrases de la LSF.
La technique de reconnaissance utilisée est basée sur les modèles de Markov cachés qui ont
permis l'obtention de très bons taux de reconnaissance sur les deux types de signes (96% pour
les signes figés et 92% pour les signes variables). L'évaluation a porté sur un corpus 3d
constitué de deux ensembles de 44 phrases différentes composées de quatre signes. Le
premier ensemble a été utilisé pour l'apprentissage et le deuxième, pour la reconnaissance.
Le système de compréhension proposé est également capable de traiter les signes

standards en contexte. Il repose sur la modélisation de la scène de narration, ce qui permet une
prise en compte du contexte pour l'interprétation des signes paramétriques, ainsi que sur la
définition de règles spatio-temporelles relatives aux proformes, aux verbes directionnels et
aux pointages. Un module de traduction simplifié a permis d'évaluer le système complet
(reconnaissance et compréhension), sur le corpus utilisé pour le module de reconnaissance.
Les traductions fournies ont été correctes et les erreurs produites par le module de
reconnaissance ont été détectées.
Malgré les limitations de l’étude dues en partie au système de capture de gestes (un
unique gant numérique) et en partie à l'outil utilisé pour construire le système de
reconnaissance (adapté pour la reconnaissance de phénomènes uniquement temporels), le
système ARGo était à l’époque et reste encore très novateur dans le domaine de la
reconnaissance et compréhension de phrases de LS, car il permet de traiter à la fois des signes
standards, des proformes, des verbes directionnels et des pointages. Le graphe de
représentation de la scène de signation, visualisé par l'intermédiaire d’un scène virtuelle 3d
(figure 39), a été la première modélisation de ce type, à partir de laquelle les autres
modélisations ont été élaborées.
Figure 39: Visualisation de la scène de signation du système ARGo.
47/70
Le cadre applicatif de la reconnaissance automatique est assez contraignant, car il

nécessite la mise en œuvre de systèmes de capture plus ou moins intrusifs, ou, dans le cas de
la vidéo, il limite la précision des données captées. Mon objectif principal étant la
modélisation du fonctionnement de la LS, je me suis tournée vers le cadre applicatif de la
génération et de l'animation automatique, qui me semble plus accessible actuellement.
4.2 GÉNÉRATION ET ANIMATION
Si le cadre applicatif a radicalement changé, les modèles élaborés pour la reconnaissance,

en particulier ceux relatifs à l'espace de signation et à la structure des énoncés spatialisés, ont
pu être réutilisés, en supprimant les aspects qui étaient spécifiques à l'interprétation.
Afin de drainer tous les efforts vers un même objectif d’intégration et d’évaluation, nous
mettons maintenant l’accent sur une unique application nommée GeneALS, dédiée à la
génération et à l’animation d’un signeur virtuel. L’architecture de la plate-forme est illustrée
figure 40.
Figure 40: Architecture de la plateforme GeneALS.
 La génération d’un énoncé (M1) est basée sur la modélisation de l’espace de signation
(K2) qui sert de fondement à la structuration de l’énoncé et sur l’utilisation d’une
base de connaissance (K1) comportant la description de structures spatio-temporelles
telles que celles présentées en section3.4. Le module M1 fait appel au module de
génération du lexique (M2).
 Le module M2 utilise une base de connaissances comportant la description du lexique

(K3) utilisable par le module d’animation.
48/70
 Le module d’animation (M3) permet actuellement de rejouer et de concaténer des

animations réalisées par un infographiste (figure 41). M3 utilise la description 3d du
signeur virtuel (K4), une base d’animations 3d (K5) et les entrées fournies par le
module de génération d’énoncé (M2).
La gestion de la coarticulation entre ces animations fait l'objet d'une thèse qui vient de
débuter (J. Segouat). A terme, il permettra de jouer des animations calculées à partir de la
description formelle issue des modules de génération d’énoncé et de lexique, le tout en temps
réel.
Figure 41: Concaténation d'animations prédéfinies dans GeneALS.
Chaque module est partiellement développé dans une perspective d’exploitation

scientifique en laboratoire [Bolot Braffort & Filhol 06 ; Filhol Braffort & Bolot 07]. Le
module M3 est le plus abouti actuellement. Nous avons été sollicités par la société
coopérative WebSourd, qui déploie un ensemble de services d’accessibilité à l’attention des
sourds et qui souhaite disposer d’une technologie de signeur virtuel. Notre premier transfert
concerne ce module M3. Une preuve de faisabilité a été réalisée cette année en collaboration
avec WebSourd pour la SNCF à partir d’un personnage et d’animations 3d conçues par notre
l’équipe. Une première série de phrases est visible dès à présent à la gare de l’Est à Paris
(figure 42).
49/70
Figure 42: Affichage d'un message d'alerte en LSF dans la gare de l'Est.
Notre logiciel va maintenant être intégré et distribué par WebSourd à la SNCF afin
d’équiper les principales gares de France d’un système permettant de générer en temps réel
des messages d’alerte tels que ceux qui sont diffusés actuellement uniquement de manière
sonore. Ces messages vont comporter des énoncés fixes et des énoncés avec des parties
variables, tels que « Le train numéro 1234 en provenance de Strasbourg arrivera avec 10
minutes de retard voie 4 ».
La prochaine étape va consister à finaliser le module de génération de lexique, dans le

cadre d'une prochaine thèse (M. Delorme). La génération d'énoncés est une perspective à plus
long terme.
4.3 INTERACTION GESTUELLE EN COMMUNICATION HUMAIN-MACHINE
Mes études sur la gestuelle coverbale ont débuté en même temps que celles sur la LSF,
car beaucoup de problématiques sont communes aux deux domaines et les modélisations
élaborées pour une langue purement gestuelle peuvent permettre d'envisager des modèles
pour la gestuelle coverbale, en tout cas sur les aspects communs, tels que l'iconicité et
l'utilisation de l'espace.
J’ai proposé des modèles d’interaction gestuelle en entrée dans un contexte d’interaction
multimodale, en milieux immersif et non immersif. Ils reprennent certains des modèles et des
méthodes développés pour la reconnaissance et l’interprétation automatique de la LSF, basé
sur l’utilisation de corpus. De ce fait ils sont conçus pour un vocabulaire gestuel qui se veut le
plus générique possible.
Dans un contexte immersif de réalité virtuelle (RV), l’interaction gestuelle permet de

manipuler des objets virtuels dans la scène 3d, qui peut se voir comme une instanciation
50/70
concrète d’un espace de signation pour la LSF. Dans le cadre de la thèse de B. Bossard, nous
avons proposé des méthodes et représentations inspirées de celles conçues pour la LSF
concernant la reconnaissance automatique de gestes bimanuels [Bossard 06 ; Bossard
Convard Braffort et al. 04]. Par la suite, dans le cadre de la plate-forme ANR Perf-RV2
« L’humain virtuel au travail dans l’usine du futur », nous avons participé au sous-projet
« Interaction entre opérateurs humains et le monde virtuel ». J’y ai mené une étude sur le
vocabulaire gestuel dans le cadre d’une tâche industrielle chez un grand constructeur
automobile (figure 43) et nous y avons développé un module de reconnaissance de gestes
bimanuels dans l’environnement matériel et logiciel imposé par l’industriel.
Figure 43: Extrait du corpus d'étude du projet Perf-RV2.
Les modèles d'interaction gestuelle issus de nos travaux sur la LSF et mis en œuvre dans
le cadre de la réalité virtuelle sont maintenant employés génériquement dans différentes
applications de réalité virtuelle qui touchent divers domaines, allant de la visualisation
scientifique à des applications industrielles.
Ce chapitre a donné un aperçu de la nature des prototypes et des applications que l'on
développe à partir des modélisations. La nature de ces prototypes est amenée à s'étendre dans
les prochaines années.
Le chapitre suivant dresse un bilan de l'ensemble des recherches présentées dans ce

mémoire et trace les grandes lignes des prochaines études envisagées à court, moyen et long
terme.
51/70
CHAPITRE 5 - CONCLUSION ET PERSPECTIVES
5.1 BILAN
En ce qui concerne les aspects fondamentaux, mes travaux se sont répartis sur deux axes
principaux : l’analyse de corpus de LSF et la modélisation de la LSF.
5.1.1 Les corpus de LSF

Cette activité de recherche représente une part très importante de mon travail, car elle
permet de progresser dans la connaissance et la compréhension du problème étudié et dans
l’analyse quantitative, puis dans la formalisation des phénomènes étudiés. Cela a nécessité de
mettre au point et d’évaluer de nouvelles méthodologies d’analyse pour certains phénomènes
peu étudiés jusqu'alors, tels que les gestes non manuels. Enfin les corpus permettent de mettre
au point les représentations informatiques, que ce soit pour la reconnaissance automatique ou
pour la génération, puis d'évaluer les performances des systèmes développés.
Certaines des méthodes mises en œuvre pour la LS ont pu être réexploitées dans le cadre
d'études dédiées à la gestuelle coverbale, comme dans le cas du projet de réalité virtuelle pour
la constitution de corpus de gestes.
5.1.2 Les représentations de la LSF

Les représentations proposées lors de mes premières études ont été pensées dans le cadre
d’applications de reconnaissance automatique. Ces premières approches ont permis de
prendre la mesure des problématiques et de leur importance pour la mise en place de systèmes
de traitement automatique de la LS qui soient pertinents. Ensuite, une représentation plus
générique et plus complète de l'espace de signation et du lexique a été envisagée également
dans le contexte de la génération automatique. En ce qui concerne les représentations des
énoncés, j’ai étudié quelques relations clé entre entités qui ont permis de proposer des
premières pistes de représentations.
52/70
Afin de permettre à terme d’intégrer l’ensemble de nos représentations dans un cadre

cohérent et pour faciliter leur évaluation, je coordonne actuellement le développement d’une
plate-forme logicielle de génération et d’animation de signeur virtuel nommée GeneALS et
dont certains modules vont être prochainement exploités au sein d'applications grand public.
5.2 LES PERSPECTIVES
Les perspectives de mes recherches sont envisagées selon la même structuration que celle
présentée dans ce mémoire (figure 44) :
• elles sont centrées sur la modélisation informatique de la LSF,
• elles s'appuient sur des recherches sur les méthodologies d'annotation et sur l'analyse
de corpus,
• elles sont validées à travers des mises en œuvre.
Figure 44: Schéma général.
Dans les prochaines années, l'aspect intégration des représentations sera accentué, de
façon à aboutir à terme à un système de génération automatique des énoncés. En parallèle, les
collaborations sur la gestuelle coverbale seront étendues au domaine des agents
conversationnels animés, dont le cadre applicatif concerne aussi la génération et l'animation.
Je détaille ci-dessous les projets prévus à court et moyen terme sur les thèmes des corpus
de LSF et de la modélisation de la LSF. J'y ajoute une section décrivant les premières
collaborations initiées avec les spécialistes des agents gestuels.
53/70
5.2.1 Les corpus de LSF

Ma priorité à court terme est de constituer un corpus vidéo de lexique de taille importante
(plusieurs milliers de signes), afin de :
1. valider le modèle de représentation du lexique proposé dans la thèse de M. Filhol, en
testant les capacités de couverture de son modèle ;
2. réaliser des animations 3d de chaque signe afin de pouvoir évaluer la plate-forme de
génération et d'animation de l’équipe de recherche pour la production de phrases par
concaténation d'animations comme étape intermédiaire avant de générer des
productions entières ;
3. constituer un dictionnaire bilingue en ligne qui pourra être accessible à tous, y compris
aux sourds, par un accès aux signes par leur description, et pas par le mot équivalent
en français comme c'est généralement c’est le cas dans les dictionnaires existants.
La constitution de ce dictionnaire est un projet structurant très important pour l’équipe,

car il va servir d’une part de répertoire des signes disponibles pour stocker de façon structurée
nos animations et nos générations, mais aussi d’outil de recherche dédié au lexique, à usage
pluridisciplinaire, puisqu’il est adossé à une base de données. Il implique l’ensemble des
membres de l'équipe, ainsi que des experts sourds dans différentes disciplines scientifiques
telles que l’informatique, la linguistique et les sciences en général [Segouat Braffort Bolot et
al. 08 ; Segouat Braffort Choisier et al. 08].
Ce dictionnaire, qui est pour l’instant à usage purement interne au LIMSI, sera rendu
public lorsqu’il sera suffisamment abouti. Les signes peuvent être trouvés à l’aide d’une
description empirique de certaines de leurs propriétés gestuelles, ne correspondant pas
exactement aux paramètres classiques. Cette description est basée sur les suggestions de notre
collaborateur Sourd. Il s’agit du nombre de mains utilisées, du groupe de configurations dont
il fait partie et de l’emplacement de départ du signe. Le choix empirique de ces descripteurs
correspond à un souci d’ergonomie et d’efficacité du système pour la recherche d’un signe
(figure 45). Nous avons débuté la collecte du corpus, qui est constitué à ce jour d'environ
1000 entrées lexicales.
Ce dictionnaire est bâti sur une base de données qui sera enrichie du modèle de
représentation des signes. Cela permettra, d’une part, d'effectuer des analyses linguistiques à
partir de ce dictionnaire et d'autre part, d'utiliser les descriptions dans des applications de
génération automatique de phrases, donc de signes en contexte.
54/70
Figure 45: Dictionnaire LSF du LIMSI.
Concernant l’annotation des vidéos, j’envisage dans un premier temps d’évaluer des
méthodes permettant d’annoter des éléments visuels sur la vidéo (coins des yeux, de la
bouche…) semi-automatiquement grâce à des méthodes développées par une équipe
spécialiste en traitement d’image sur la LSF de l’IRIT [Mercier 07]. Ce travail va être initié
sur les aspects non manuels de la LSF tels que les mouvements des sourcils et les clignements
des yeux, dans le cadre de la thèse d’E. Chételat-Pelé et pourrait s’étendre à l’ensemble du
corps par la suite.
Il reste la question de l’annotation d’informations spatiales, pour lequel les différentes

expérimentations menées sur ce sujet ont montré leurs limites en terme d’ergonomie de
l’annotation et en terme de charge cognitive pour l’expert qui annote. La piste qui nous
semble prometteuse est d’utiliser le module VIES développé à l’IRIT (figure 46), permettant
d’annoter directement l’espace par le biais d’une représentation 3d de l’espace de signation
[Braffort Dalle 07 ; Lenseigne 04 ; Dalle & Lenseigne 05], en y ajoutant le cadre linguistique
et méthodologique nécessaire à l’objectif d’annotation et d’analyse de corpus.
55/70
Figure 46: Logiciel VIES de l'IRIT.
Nous avions initié dans le cadre du projet LS-COLIN une collaboration avec l’équipe de
P. Dalle dans le but de développer un logiciel d’annotation complet (figure 47), qui permettra
à terme d’inclure de tels modules d’annotation 3d, ainsi que des modules de traitement
d’image [Braffort Choisier Collet et al. 01 ; Braffort Choisier Collet et al. 04].
Figure 47: Logiciel AnCoLin du LIMSI et de l'IRIT.
A plus long terme, l'objectif est de poursuivre la conception d'un logiciel qui intègre à la
fois :
• les possibilités de structuration des données des bases de données,
• les fonctionnalités des logiciels d’annotation ainsi que des outils permettant
d'employer les méthodes que nous avons conçues,
• un système de génération automatique permettant de piloter le signeur virtuel à partir
de l’annotation, tel que cela est proposé dans les logiciels ILex et eSign [Hanke 04],
• et enfin des modules dédiés à des traitements spécifiques tels que l’annotation
d’informations spatiales et le traitement d’image.
Il sera alors l’outil idéal du chercheur sur la LSF, permettant à la fois l’analyse fine de
corpus, l’élaboration de représentations ou du moins de structurations, ainsi que l’évaluation,
au moyen du signeur virtuel.
56/70
5.2.2 Les représentations de la LSF

Cette activité de recherche est au cœur de mes activités de recherche. Elle concerne à la
fois la représentation du lexique de la LSF, mais aussi des énoncés.
La représentation du lexique proposé dans le cadre de la thèse de M. Filhol nous

apportera de nombreuses perspectives une fois son implémentation et son évaluation
achevées. A moyen terme, deux premières applications vont bénéficier de cette
représentation :
• le système GeneALS de génération automatique d’énoncés en LSF en développement
au LIMSI. Grâce à cette représentation, des signes spatialisés et instanciés en
fonction du contexte pourront être générés. Cela permettra de générer des énoncés
constitués avec des parties variables spatialisées calculés à la volée.
• notre base de données citée précédemment. Pour cette application, nous exploiterons
le fait que la représentation inclut la description des dépendances pour pouvoir
interroger la base de données sur des aspects structuraux des signes, ce qui fournira
aux chercheurs un nouvel outil d’investigation sur les constituants du lexique de la
LSF et pourrait aussi éventuellement avoir des retombées intéressantes dans d’autres
domaines (enseignement, analyse par traitement d’images).
Une autre perspective de ce travail à plus long terme concerne l’écriture de la LSF. Nous
avons participé à un projet pluridisciplinaire sur le sujet : le projet LS-Script [Garcia Aznar
Bolot et al 07] (figure 48). L’objectif était l’élaboration des bases d’une écriture de la LSF.
Une des questions est de déterminer ce qui est « essentiel » à un signe par opposition à ce qui
pourrait être qualifié de « périphérique ». Notre modèle se montre un candidat idéal pour
nourrir les réflexions sur les possibles formes écrites des langues des signes.
Figure 48: Cours d'initiation au système d'écriture SignWriting.
En ce qui concerne les énoncés, à ce jour les implémentations réalisées n’ont permis de
valider que certaines propriétés des modèles. L’évaluation de la modélisation dans son
ensemble (espace de signation, lexique, énoncés) reste à faire. L'objectif est de mener cette
évaluation dans le cadre de la plate-forme de génération automatique d’énoncés que nous
sommes en train de mettre en place dans l’équipe (GeneALS). Cela va m’amener à lancer de
nouveaux thèmes de recherche dans le domaine de l’informatique graphique, sur la
cinématique inverse et sur l’animation du visage.
57/70
A plus long terme, il faudra prendre en compte les phénomènes liés à l’empilement de
scènes que l’on observe lors des transferts personnels, ou lors des effets de zoom, des
apparitions, réactivations ou disparitions d'entités. Mais une entité peut aussi être réactivée
dans le discours. Sur ces derniers aspects, une modélisation de ces empilements de scènes et
de leur gestion doit donc être prévue. Cette modélisation permettra alors de s'intéresser aux
discours en LS.
Enfin, une fois l’ensemble de ces processus mis en œuvre, intégrés et évalués, nous
pourrons nous attacher à étendre la modélisation à d’autres structures spatio-temporelles
intervenant en grande iconicité, puis ensuite à aborder la problématique du passage d’une
langue vocale à une langue des signes.
5.2.3 Agents Gestuels

Cette recherche sur la LSF s'enrichit de rencontres et de collaborations avec les
chercheurs spécialistes du geste coverbal. Jusqu'à maintenant, l'extension de la modélisation
de la LSF au cas de la gestuelle coverbale a été étudiée dans le cadre applicatif de la
reconnaissance automatique. Cette extension va maintenant être considérée dans le cadre
applicatif de la génération, dans le domaine des agents conversationnels animés.
Une première collaboration a débuté sur ce thème avec des collègues du LIMSI (Jean-
Paul Sansonnet et Jean-Claude Martin). L'objectif est de doter le site web du laboratoire d'un
humain virtuel ayant des capacités communicatives et dialogiques avec l'utilisateur. Nous
nous intéressons pour notre part aux capacités gestuelles de l'agent.
Nous avons commencé par étudier les gestes de désignation (gestes déictiques) produits
par des locuteurs sourds et entendants, dans le cadre d'un scénario en lien avec une des pages
web du site du LIMSI. Les premiers résultats ont montré que pour les déictiques simples, la
structure des gestes est la même (figure 49), tandis que pour des déictiques complexes, on
observe des formes plus sophistiquées en LSF que dans la gestuelle coverbale.
58/70
Figure 49: Désignation simple.
La figure 50 montre des réalisations en gestuelle coverbale, puis en LSF, pour une étape
du scénario qui nécessitait de désigner une collection d'objets. Dans le cas de la LSF, la main
dominée a réalisé un proforme permettant de rappeler que cette collection d'objets étaient
regroupées au sein d'une seule entité.
Figure 50: Désignation d'une collection d'objets.
59/70
Nous allons étendre cette étude à d'autres scénarios en observant plus de sujets, afin de
déterminer plus précisément les points communs et les différences. Nous pourrons ensuite en
déduire une représentation formelle des gestes déictiques dans ce contexte applicatif.
Cette collaboration nous a incité à envisager une application basée sur cette technologie
dans le cadre de la LSF. Nous envisageons d'étudier la mise en accessibilité de site web par
l'ajout d'animations en LSF afin d'apporter une traduction ou une explication de certaines
informations disponibles uniquement en français écrit sur le site web du LIMSI [Segouat
Braffort Bolot et al. 08 ; Segouat Braffort Choisier et al. 08]. La figure suivante illustre
l'expérimentation en cours sur le site web du LIMSI (figure 51).
Figure 51: Agent gestuel sur le site web du LIMSI.
60/70
RÉFÉRENCES
[Allen 83]
Allen J., «Maintening knowledge about temporal intervals». Dans : Communications of
the ACM, Vol. 26, 1983.
[Belaïd & Belaïd 92]
Belaïd A. & Belaid Y., "Reconnaissance des formes : Méthodes et applications",
InterEditions 1992.
[Bolot Braffort & Filhol 06]
Bolot L., Braffort A. & Filhol M., « Elsi Balbutie ! Vers une plate-forme d’animation
d’avatar signant ». Dans : 2ème Workshop Francophone sur les Agents Conversationnels
Animés 2006 (WACA'06).
[Bossard 06]
Bossard B., «Conception d'un système de reconnaissance de gestes bimanuels :
application à la réalité virtuelle et à la langue des signes». Thèse de doctorat en
informatique de l'Université Paris Sud Orsay 2006.
[Bossard Braffort & Jardino 04]
Bossard B. Braffort A. & Jardino. M. «Some Issues in Sign Language Processing».
Dans : «Gesture-Based Communication in Human-Computer Interaction», selected
revised papers of the 5th International Gesture Workshop (GW’03), LNCS LNAI vol
2915, A. Camurri & G. Volpe (Eds.), Springer (Pub.) 2004.
[Bossard Convard Braffort et al. 04]
Bossard B., Convard T., Braffort A, Touraine D., Bourdot P. & Jardino M., « Un système
de reconnaissance de gestes pour la Réalité Virtuelle ». Dans : 14ème congrès
francophone AFRIF-AFIA Reconnaissance des Formes et Intelligence Artificielle 2004
(RFIA 2004).
[Braffort 96a]
Braffort A., «A gesture recognition architecture for sign language». Dans : 2nd
International ACM Conference on Assistive Technologies 1996 (ACM ASSETS’96).
[Braffort 96b]
Braffort A., «Reconnaissance et compréhension de gestes, application à la langue des
signes».Thèse de doctorat en informatique de l'Université Paris Sud Orsay 1996.
[Braffort 97a]
Braffort A., «ARGo: An architecture for sign language recognition and interpretation».
Dans : «Progress in Gestural Interaction», P. Harling and A. Edwards (Eds.), Springer
(Pub.) 1997.
[Braffort 97b]
Braffort A., «A Computer System Dedicated to Sign Language». Dans : Conference of
the International Ergonomics Association 1997 (IEA’97).
[Braffort 97c]
Braffort A., « ARGo : un système de reconnaissance et de compréhension de la Langue
des Signes Française ». Dans : conférence francophone Interfaces 1997.
61/70
[Braffort 98]
Braffort A., « Traitement automatique des Langues des Signes : Interprétation des
informations spatiales ». Dans : revue d’Interaction Homme Machine, vol1 n°1, Europia
1998.
[Braffort 02]
Braffort A., «Research on Computer Science and Sign Language: Ethical Aspects».
Dans : «Gesture and Sign Language in Human-Computer Interaction», LNCS LNAI
2298, I. Wachsmuth & T. Sowa (Eds.), Springer (Pub.) 2002.
[Braffort 04]
Braffort A., «Corpora for sign language studies». Conférence invitée dans : workshop on
Multimodal Corpora, 4th International Conference on Language Resources and
Evaluation 2004 (LREC 2004).
[Braffort 05]
Braffort A. Edition des actes de l’atelier « Traitement Automatique de la Langue des
Signes » de la conférence « Traitement automatique des Langues Naturelles » 2005
(TALS/TALN 2005), Tome 2 « Ateliers & Tutoriels ».
[Braffort 06]
Braffort A., «Articulatory Analysis of the Manual Parameters of the French Sign
Language Conventional Signs». Dans : 2nd Workshop on the «Representation and
Processing of Sign Languages: lexicographic matters and didactic scenarios» of the
5th International Conference on Language Resources and Evaluation 2006 (LREC 2006).
[Braffort 07]
Braffort A., « La langue des signes et avatars signants ». Conférence invitée à la journée
de travail du Groupe de Travail sur les Agents Conversationnels Animés (GT ACA) sur
le thème « ACA et Geste », 2007.
[Braffort 07]
Braffort A., «Sign Language Processing: Modelling of spatio-temporal constraints».
Conférence invitée dans : 4th International Workshop on Constraints and Language
Processing 2007 (CSLP@Context07).
[Braffort Bossard Segouat et al 05]
Braffort A., B. Bossard, J. Segouat, Bolot L. & Lejeune F., « Modélisation des relations
spatiales en langue des signes française ». Dans : atelier « Traitement Automatique de la
Langue des Signes » de la conférence « Traitement automatique des Langues Naturelles »
2005 (TALS/TALN 2005), Tome 2 « Ateliers & Tutoriels ».
[Braffort Choisier Collet et al.03]
Braffort A., Choisier A, Collet C. et Lejeune F., «Presentation of three French Sign
Language Corpora», 5th International Gesture Workshop 2003 (GW’03).
[Braffort Choisier Collet et al. 04]
Braffort A., Choisier A., Collet C., Dalle P., Gianni F., Lenseigne B. et Segouat J.,
«Toward an annotation software for video of Sign Language, including image processing
tools and signing space modelling». Dans : 4th International Conference on Language
Resources and Evaluation 2004 (LREC 2004).
62/70
[Braffort Choisier Collet et al. 01]

Braffort A., Choisier A., Collet C., Cuxac C., Dalle P., Fusellier I., Gherbi R., Jausions
G., Jirou G., Lejeune F., Lenseigne B., Monteillard N., Risler A., Sallandre M.-A.,
« Projet LS-COLIN. Quel outil de notation pour quelle analyse de la Langue des
Signes ? ». Dans : conférence « Recherche sur la Langue des Signes » 2001 (RLS’01).
[Braffort Collet & Teil 94a]
Braffort A., Collet C. & Teil D., «Anthropomorphic model for hand gesture interface».
Dans : International ACM Conference on Human Factors in Computing Systems 1994
(CHI’94).
[Braffort Collet & Teil 94b]
Braffort A., Collet C. & Teil D., «Hand configuration preprocessing tool for Sign
Language Recognition». Dans : International conference of the Rehabilitation
Engineering & Assistive Technology Society of North America 1994 (RESNA’94).
[Braffort & Dalle 05]
Braffort A., Dalle P., «Sign language processing: models, representations, tools for video
analysis, for signing avatars and for communication». Dans : 2nd International Society
for Gesture Studies (ISGS) conference 2005: «Interacting bodies» (ISGS 2005).
[Braffort & Dalle 07]
Braffort A., Dalle P., «Sign language applications: preliminary modelling». Dans :
International journal «Universal Access in the Information Society» (UAIS), Special
issue 6/4 «Emerging Technologies for Deaf Accessibility in the Information Society»
(Guest Editors: Eleni Efthimiou, Evita Fotinea, John Glauert), Springer 2007.
[Braffort Dalle & Collet 07]
Braffort A., Dalle P. & Collet C. «Accessibilité et langue des signes : modélisations,
méthodes, applications.». Dans : 1ère conférence internationale sur l’accessibilité et les
systèmes de suppléance aux personnes en situation de handicaps 2007 (ASSITH'2007).
[Braffort & Filhol 07]
Braffort A., Filhol M.. «The first steps of a signing avatar project for French Sign
Language». Dans : International Society for Gesture Studies Conference 2007:
«Integrating Gestures» (ISGS 2007).
[Braffort & Gherbi 98]
Braffort A., Gherbi R., «Video-tracking and recognition of pointing gestures using
Hidden Markov Models». Dans : IEEE International Conference on Intelligent
Engineering Systems 1998 (INES’98).
[Braffort Gherbi Gibet et al. 99]
Braffort A., Gherbi R., Gibet S., Richardson J. et Teil D. Edition de l’ouvrage «Gesture-
Based Communication in Human-Computer Interaction», LNCS LNAI 1739, A. Braffort,
R. Gherbi et al (Eds), Springer (Pub.) 1999.
[Braffort & Lejeune 05]
Braffort A., Lejeune F., «Spatialised semantic relations in French Sign Language :
Toward a computational modelling». Dans : «Gesture in Human-Computer Interaction
and Simulation», LNCS LNAI 3881, S. Gibet (Eds.), Springer (Pub.) 2005.
63/70
[Briffault & Braffort 93]

Briffault X. & Braffort A.. «Toward a model of cooperation between natural language
and natural gestures to describe spatial knowledge». Dans : 1st conference of the Pacific
Association for Computational Linguistics 1993 (PACLING’93).
[Briffault & Braffort 93]
Briffault X. & Braffort A. . «Space, Language and gestures: A model of multimodal
expression of space». Dans : IASTED International Conference on Applied Informatics
(IASTED-HCI’93).
[Brugeille 07]
Brugeille J.-L. «Un formalisme de transcription de la LSF». Dans : Traitement
Automatique de la Langue des Signes (TALS 2007), atelier de la conférence Traitement
Automatique des Langues Naturelles 2007 (TALN 2007).
[Calbris Cuxac & Leix 94]
Calbris G., Cuxac C. & Leix J. «Temps et aspect». Programme Cogniscience, pôle Paris-
Sud, ALSF – INJS – LIMSI, cassette vidéo VHS n° 29, Réalisation Chastagner G., Cuxac
C. & Forest F., 1994.
[Cassel 05]
Cassel R., "Analyse du Mouvement Humain par un Système de Vision - Une approche
globale pour l'analyse et la reconnaissance en temps réel de mouvements acrobatiques".
Thèse de doctorat en informatique de l'Université Paris Sud Orsay 2005.
[Chételat-Pelé Braffort & Véronis 07]
Chételat-Pelé E., Braffort A. et Véronis J., « Mise en place d'une méthodologie pour
l'annotation des Gestes Non Manuels ». Dans : Traitement Automatique des Langues des
Signes 2007, atelier de Traitement Automatique des Langues Naturelles 2007
(TALS/TALN 2007).
[Chételat-Pelé Braffort & Véronis 08a]
Chételat-Pelé E., Braffort A. et Véronis J., « Sign Language Corpus Annotation: Toward
A New Methodology ». Dans : 6th Language Resources and Evaluation Conference 2008
(LREC 2008.)
[Chételat-Pelé Braffort & Véronis 08b]
Chételat-Pelé E., Braffort A. et Véronis J., « Description des mouvements des sourcils
pour la génération automatique ». Dans : Traitement Automatique des Langues des
Signes (TALS 2008), atelier de Traitement Automatique des Langues Naturelles 2008
(TALN 2008).
[Chételat-Pelé Braffort & Véronis 08]
Chételat-Pelé E., Braffort A. et Véronis J., «Annotation of Non Manual Gestures:
Eyebrow movement descriptions». Dans : 3rd workshop on the Representation and
Processing of Sign Languages «Construction and Exploitation of Sign Language
Corpora» of the 6th Language Resources and Evaluation Conference 2008 (LREC 2008).
[Courtin 02]
Courtin C., «Lecture-écriture et développement socio-cognitif de l’enfant sourd». Dans :
Les Actes de Lecture n°80, 2002.
64/70
[Crasborn & Hanke 03]

Crasborn O. & Hanke T., «Additions to the IMDI metadata set for sign language
corpora». Agreements at an ECHO workshop, Radboud University Nijmegen 2003.
[Crasborn Van Der Hulst & Van Der Kooij 03]
Crasborn O., Van Der Hulst H. & Van Der Kooij E., «SignPhon: A phonological
database for sign languages». Dans : Sign language & linguistics, vol. 4, no1-2,
Benjamins & HAG, Amsterdam, 2001.
[Crasborn Sloetjes Auer et al. 03]
Crasborn O., Sloetjes H., Auer E. & Wittenburg P., «Combining Video and Numeric
Data in the Analysis of Sign Languages within the ELAN Annotation Software». Dans :
2nd workshop on the representation and processing of sign languages «Lexicographic
matters and didactic scenarios», of the 5th Language Resources and Evaluation
Conference 2004 (LREC 2004).
[Cuxac 00]
Cuxac C., « La Langue des Signes Française (LSF) – Les voies de l’iconicité ». Revue
« Faits de Langues », vol. 15-16, Ophrys 2000.
[Cuxac 04]
Cuxac C., « Phonétique de la LSF : une formalisation problématique ». Dans : Revue
Silexicales vol 4 « La linguistique de la LSF : recherche actuelle », 2004.
[Cuxac Braffort Dalle et al. 02]
Cuxac C., Braffort A., Dalle P., Choisier A., Collet C., Fusellier I., Gherbi R., Jausions
G., Jirou G., Lejeune F., Lenseigne B., Monteillard N., Risler A. & Sallandre M.-A.,
Rapport de fin de recherche Action Cognitique Langage et Cognition (LACO) n°39
« Langues des signes : analyseurs privilégiés de la faculté de langage ; apports croisés
d'études linguistiques, cognitives et informatiques (traitement et analyse d'image) autour
de l'iconicité et de l'utilisation de l'espace. », 2000.
[Cuxac Brugeille Dalle et al 03]
Cuxac C., Brugeille J.-L., Dalle P. El Khomsi, Jeggli F. Fusellier-Souza I, Gache P.
Quipourt C. « La langue des signes statuts linguistiques et institutionnels ». Dans :
Langue française vol 137, 2003.
[Dalle Cuxac Boutet et al 04]
Dalle P., Cuxac C., Dominique Boutet D., Braffort A., Calbris G., Collet C., Fusellier I.,
Gianni F., Hudelot C., Jacob S., Magrin-Chagnolleau I. & Monteillard N., Rapport de fin
d’action, AS-STIC n°49 « Interaction Gestuelle » (RTP 14 « Communication et Dialogue
») 2004.
Desclés, 1990
Desclés, J.-P., « Langages Applicatifs , Langues Naturelles et Cognition ». Hermès, 1990.
[Efthimiou & Fotinea 07]
[Efthimiou E. & Fotinea S.-E., « An environment for Deaf Accessibility to Educational
Content ». Dans : International Conference on ICT & Accessibility 2007 (ICTA 2007).
[Ekman & Friesen 78]
Facial Action Coding System (FACS). Manuel Palo Alto : Consulting Psychologists
Press, 1978.
65/70
[Elliott Glauert Kennaway et al 04]

Elliott R., Glauert J., Kennaway J., Marshall I. & Safar E. (2004), «Linguistic modelling
and language-processing technologies for Avatar-based sign language presentation».Dans
: International journal «Universal Access in the Information Society» (UAIS), Special
issue 6/4 «Emerging Technologies for Deaf Accessibility in the Information Society»
(Guest Editors: Eleni Efthimiou, Evita Fotinea, John Glauert), Springer 2007.
[Filhol 08]
Filhol M. «Modèle descriptif des signes pour un traitement automatique des langues des
signes», thèse de doctoral en informatique de l'université d'Orsay 2008.
[Filhol & Braffort 06a]
Filhol M. & Braffort A., «A sequential Approach to Lexical Sign Description». Dans :
2nd workshop on the «Representation and Processing of Sign Languages: lexicographic
matters and didactic scenarios», 5th International Conference on Language Resources and
Evaluation 2006 (LREC 2006).
[Filhol & Braffort 06b]
Filhol M., Braffort A. «Sign description: how geometry and graphing serve linguistic
issues». Dans : 9th International Conference on Theorical Issues in Sign Language
Research 2006 (TISLR 9).
[Filhol & Braffort 08]
Filhol M., Braffort A. « Description lexicale des signes. Intérêt linguistiques d’un modèle
géométrique à dépendances ». Dans : Traitement Automatique des Langues (TAL),
Modélisation et traitement des langues des signes, CNRS/ATALA Vol 48 :2, 2008.
[Filhol Braffort & Bolot 07]
Filhol M., Braffort A. et Bolot L., «Signing Avatar: Say hello to Elsi!». Dans : The 7th
International Workshop on Gesture in Human-Computer Interaction and Simulation 2007
(GW 2007).
[Garcia Aznar Bolot et al 07]
Garcia B., Aznar G., Bolot, L., Braffort A.,Brugeille J.-L., Choisier A., Collet C., Dalle
P., Filhol M., Gianni F., Lenseigne B., Mercier H., Segouat J. & Verrecchia C., « LS-
SCRIPT – Rapport final ». Projet ANR/RIAM LS-Script 2007.
[Gherbi & Braffort 99]
Gherbi R., Braffort A., «Interpretation of pointing gestures: The PoG system». Dans :
«Gesture-Based Communication in Human-Computer Interaction», LNCS LNAI 1739,
A. Braffort, R. Gherbi, S. Gibet et al. (Eds.), Springer 1999.
[Gherbi & Braffort 00]
Gherbi R. et Braffort A., « Méthodologie pour la conception et l’évaluation d’un système
de reconnaissance de gestes ». Dans : 12ème congrès francophone AFRIF-AFIA
Reconnaissance des Formes et Intelligence Artificielle 2000 (RFIA 2000).
[Gianni Collet & Dalle 07]
Gianni F., Collet C. & Dalle P., «Robust tracking for processing of videos of
communication gestures». Dans : «Gesture in Human-Computer Interaction and
Simulation», LNCS LNAI, Springer (à paraître 2008).
66/70
[Gibet Richardson Lebourque et al. 98]

Gibet S., Richardson J., Lebourque T. & Braffort A., «Corpus of 3D natural movements
and Sign Language primitives of movement». Dans : «Gesture and Sign Language in
Human-Computer Interaction», LNCS LNAI 1371 I. Wachsmuth & M. Fröhlich (Eds.),
Springer (Pub.) 1998.
[Gibet Braffort Collet et al. 97]
Gibet S., Braffort A., Collet C., Forest F., Gherbi R. & Lebourque T., «Gesture in
Human-Machine Communication: capture, analysis-synthesis, recognition, semantics».
Dans : «Progress in Gestural Interaction», P.A. Harling and A.D.N. Edwards (Eds.),
Springer (Pub.) 1997.
[Gibet Héloir Courty et al. 06]
S. Gibet, A. Heloir, N. Courty, J.-F.Kamp, P. Gorce, N. Rezzoug, F. Multon, et C.
Pelachaud. «Virtual agent for deaf signing gestures». Dans : AMSE Journal of the
Association for the Advancement of Modelling and Simulation Techniques in
Enterprises, pp. 127-136, 2006.
[Gibet Lebourque 01]
Gibet S. & Lebourque T., «High level Specification and Animation of Communicative
Gestures». Dans : Journal of Visual Languages and Computing, 12, pp. 657-687, 2001
[Gibet Toulotte et al. 04]
Gibet S., Toulotte J.-M. et al., Bilan de l’Action Spécifique STIC « Communication en
Langue des Signes » (RTP 34 : Handicaps) 2004.
[Hanke 04]
Hanke T., « Lexical Sign Language Resources: Synergies between Empirical Work and
Automatique Language Generation». Dans : 1st workshop on the Representation and
Processing of Sign Languages «From SignWriting to Image Processing. Information
techniques and their implications for teaching, documentation and communication»,
International Conference on Language Resources and Evaluation 2004 ((LREC 2004).
[Héloir 08]
Héloir A., « Agent virtuel signeur - Aide à la communication des personnes sourdes »,
thèse de doctorat en informatique de l'université de Bretagne Sud, 2008.
[Héloir Gibet Multon et al. 05]
Heloir A., Gibet S., Multon F., Courty N., «Captured Motion Data Processing for Real
Time Synthesis of Sign Language». Dans : «Gesture in Human-Computer Interaction and
Simulation», LNCS LNAI 3881, S. Gibet, N. Courty & J.-F. Kamp (Eds.), Springer
(Pub.) 2005.
[Huenerfauth 06]
Huenerfauth M., «Generating American Sign Language Classifier Predicates For English-
To-ASL Machine Translation». Doctoral dissertation, University of Pennsylvania 2006.
[Jouison 95]
Jouison P., « Écrits sur la langue des signes française ». B. Garcia (Ed.), L'Harmattan»
(Pub)., 1995.
[Kipp 01]
Kipp M., «Anvil - A Generic Annotation Tool for Multimodal Dialogue». Dans : 7th
European Conference on Speech Communication and Technology 2001 (Eurospeech
2001).
67/70
[Kipp 04]
Kipp M., «Gesture Generation by Imitation - From Human Behavior to Computer
Character Animation», PhD Thesis, Saarland University, December 2003.
[Lebourque & Gibet 99]
Lebourque T. & Gibet S., «A complete system for the specification and the generation of
sign language gestures». Dans : «Gesture-Based Communication in Human-Computer
Interaction», LNCS/LNAI 1739, A. Braffort, R. Gherbi et al. (Eds.), Springer (Pub.),
1999.
[Lejeune 04]
Lejeune F., «Analyse sémantico-cognitive d'énoncés en Langue des Signes Française
pour une génération automatique de séquences gestuelles». Thèse de doctorat en
informatique de l'Université Paris Sud Orsay 2004.
[Lejeune, Braffort & Desclés 01]
Lejeune F., Braffort A., & Desclés J-P. « Analyse sémantico-cognitive de quelques
structures en Langue des Signes Française ». Dans : Conférence Oralité et gestualité 2001
(Orage 2001).
[Lejeune & Braffort 04]
Lejeune F., Braffort A., «Traces des opérations langagières et des représentations
sémantico-cognitives dans la forme verbale en LSF». Dans : Silexicales n°4, Université
Lille3, 2004.
[Lejeune & Risler 04]
Lejeune F., Risler A., «Study on Semantic Representations of French Sign Language
Sentences». Dans : «Gesture and Sign Language in Human-Computer Interaction, LNCS
LNAI 2298, I. Wachsmuth & T. Sowa (Eds.), Springer (Pub.) 2002.
[Lenseigne 04]
Lenseigne B., «Intégration de connaissances linguistiques dans un système de vision,
application à l'étude de la Langue des Signes». Thèse de doctorat en informatique de
l'Université Paul Sabatier 2004.
[Lenseigne & Dalle 05]
Lenseigne B. & Dalle P., «Using Signing Space as a Representation for Sign Language
Processing». Dans : «Gesture in Human-Computer Interaction and Simulation»,
LNCS/LNAI 388, S. Gibet, N. Courty & J.-F. Kamp (Eds.), Springer (Pub.), 2006.
[Liddell & Johnson 89]
Liddell S. & Johnson R., «American Sign Language: the phonological base». Dans : Sign
Language Studies, vol. 64, 1989.
[Liddell 00]
Liddell S. «Blended spaces and deixis in sign language discourse». Dans : «Language and
gesture». David McNeill (ed.), Cambridge University Press, 2000.
[Losson 00]
Losson O. Modélisation du geste communicatif et réalisation d’un signeur virtuel de
phrases en langue des signes française. Thèse de doctorat en informatique de l'Université
de Lille1, 2000.
68/70
[Marshall & Safar 04]

Marshall I. & Safar E. (2004), «Sign Language Generation in an ALE HPSG», Dans :
11th International Conference on Head-Driven Phrase Structure Grammar 2004 (HPSG
04).
[Martin Braffort & Gherbi 00]
Martin J.C., Braffort A. & Gherbi R., «Measurement of Cooperations between Pointing
Gestures and Constrained Speech during Human-Computer Interaction». Dans : 3rd
International Conference on Methods and Techniques in Behavioral Research 2000
(Measure Behavior 2000).
[Mercier 07]
Mercier H., «Modélisation et suivi des déformations faciales : Applications à la
description des expressions du visage dans le contexte de la langue des signes». Thèse de
doctorat en informatique de l'Université Paul Sabatier de Toulouse 2007.
[Moody 98]
Moody B., « La langue des signes – Tomes &, 2 et 3 Dictionnaire bilingue élémentaire »,
IVT 1998.
[Neidle 02]
Neidle C., «SignStream™: A Database Tool for Research on Visual-Gestural Language».
Dans : «Sign Transcription and Database Storage of Sign Information», a special issue of
Sign Language and Linguistics 4:1/2, 2002
[Neidle Sclaroff & Athitsos 01]
Neidle C., Sclaroff S. & Athitsos V., «SignStream™: A Tool for Linguistic and
Computer Vision Research on Visual-Gestural Language Data». Dans : Behavior
Research Methods, Instruments, and Computers 33:3, 2001
[Prillwitz Zienert et al 89]
Prillwitz S., Leven R., Zienert H., Hanke T. & Henning J. «HamNoSys version 2.0;
Hamburg Notation System for Sign Languages, an introductory guide», International
studies on Sign Language and communication of the Deaf; vol 5, Signum, Hamburg,
1989.
[Sallandre 03]
Sallandre M.-A., «Les unités du discours en Langue des Signes Française. Tentative de
catégorisation dans le cadre d’une grammaire de l’iconicité». Thèse de doctorat en
sciences du langage de l’Université Paris 8, 2003.
[Segouat 03]
Segouat J., «Étude et modélisation de certains aspects de la structure des énoncés en
Langue des Signes Française», mémoire de DEA science-cognitives, université d'Orsay,
2003.
[Segouat Braffort & Martin 06]
Segouat J., Braffort A. & Martin E., «Sign Language corpus analysis: Synchronisation of
linguistic annotation and numerical data». Dans : 5th International Conference on
Language Resources and Evaluation 2006 (LREC 2006).
69/70
[Segouat Braffort Bolot et al. 08]

Segouat J., Braffort A., Bolot L., Choisier A., Filhol M. & Verrecchia C., «Building 3d
French Sign Language lexicon». Dans : 3rd workshop on the Representation and
Processing of Sign Languages: «Construction and Exploitation of Sign Language
Corpora» of the 6th Language Resources and Evaluation Conference 2008 (LREC 2008).
[Segouat Braffort Choisier et al. 08]
Segouat J., Braffort A., Choisier A. & Verrecchia C., « Proposition d'une méthodologie
de réalisation de corpus de signes 3d isolés de LSF ». Dans : Traitement Automatique des
Langues des Signes 2008 (TALS 2008), atelier de Traitement Automatique des Langues
Naturelles 2008 (TALN 2008).
[Stokoe 60]
Stokoe W., «Sign language structure: an outline of the visual communication systems of
the American deaf». Dans : Studies in linguistics: Occasional papers, vol 8, dept. of
Anthropology and Linguistics, University of Buffalo 1960.
[Sutton 95]
Sutton V., «Lessons in SignWriting: textbook and workbook», La Jolla, CA: The Deaf
Action Committee for SignWriting and the Center for Sutton Movement Writing, Inc
1995.
[Tranchant 06]
Rapport de stage Master «Nouvelles technologies et handicap», Université Paris 8, 2006.
[Vergé 01]
"Rôles et valeurs sémantico-syntaxiques du regard et des mouvements oculaires en
Langue des Signes Française", thèse de doctorat en sciences du langage de l'université
Paris 8, 2001.
[Wittenburg Brugman Russel et al 06]
Wittenburg P., Brugman H., Russel A., Klassmann A., Sloetjes H., «ELAN: a
Professional Framework for Multimodality Research». Dans : 5th international conference
on Language Resources and Evaluation (LREC 2006).
70/70

Braffort HDR 2008

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Braffort HDR 2008

Transféré par

Droits d'auteur :

Formats disponibles

TRAITEMENT AUTOMATIQUE DE LA

LANGUE DES SIGNES FRANÇAISE

MÉMOIRE PRÉPARÉ EN VUE DE L’OBTENTION

Table des matières

Chapitre 2 - Corpus de LSF.............................................................................12

Chapitre 3 - Représentations informatiques de la LSF.................................25

Chapitre 4 - Mise en œuvre...............................................................................46

Chapitre 5 - Conclusion et perspectives..........................................................52

Ce chapitre présente le domaine sur lequel se concentrent mes

1.1 LA LANGUE DES SIGNES : POSITIONNEMENT SCIENTIFIQUE

Les premières recherches en linguistique, menées aux États-Unis, avaient essentiellement

Les recherches en informatique concernent encore peu d’équipes, la plupart se

La section suivante présente plus précisément les problématiques du domaine du

1.2 TRAITEMENT AUTOMATIQUE DE LA LANGUE DES SIGNES :

Dans le domaine du traitement des langues en général, on distingue les recherches

1.3 LE CŒUR DE MES CONTRIBUTIONS :

Le cœur de mes contributions porte sur la modélisation informatique du fonctionnement

Figure 1: Schéma global.

Mes recherches dans ce domaine se sont organisées en trois étapes :

spatiale, permettant l'interprétation d'énoncés composés de signes dont la réalisation

réciproquement. Ainsi, si mes contributions concernent principalement la LSF, j’ai aussi

1.4 STRUCTURE DU MÉMOIRE : UN DÉROULÉ LOGIQUE

Figure 2: Recherches sur les corpus.

Figure 3: Modélisation de la langue des signes

Figure 4: Cadres applicatifs.

Dans la suite de ce mémoire, les acronymes LS, LSF et LV correspondent respectivement

CHAPITRE 2 - CORPUS DE LSF

Ce chapitre expose mes activités de recherche relatives à la conception

Figure 5: Recherches sur les corpus.

2.1 MÉTHODOLOGIES POUR L'ANNOTATION ET L'ANALYSE DE CORPUS

2.1.1 Nature des corpus de LS : du dessin à la capture de mouvements

Figure 6: Représentation du signe [SOURD]

Figure 7: a) Extrait du corpus "Temps et Aspect" (1993)

Certains systèmes de capture, issus des domaines de l’analyse du mouvement et de la

Figure 8: Système de capture de gestes bimanuels.

2.1.2 Annotation de corpus vidéo : de nouvelles méthodologies

Ceci dit, l’annotation de vidéos de LSF induit des problématiques de recherche

Annotation des informations spatiales

La problématique de l’annotation de ces portions de l’espace de signation a été abordée

Figure 9: Ensemble d'icônes pour l'annotation des

Méthodologie d’annotation des informations non manuelles

Figure 10: Différentes notations pour "sourcils levés"

Figure 11: Liste des symboles utilisés

Figure 12: Les trois degrés d'amplitude d'un mouvement

Figure 13: Les trois phases de réalisation

Figure 15: Annotation de la position des sourcils directement sur la vidéo.

flèches présentées précédemment et de valider l'ensemble de la méthode [Chételat-Pelé

Annotation des mouvements du buste : assistance du traitement d’image

Figure 16: La boite englobante et les quatre paramètres mesurés.

Figure 18: a) Transfert personnel "la vache rumine",

2.2 STRUCTURATION DES RÉSULTATS D'ANNOTATION ET D'ANALYSE

2.2.1 Étude du lexique pour la reconnaissance automatique

Pour mettre en œuvre une représentation pertinente dans un système de reconnaissance

Les modèles phonologiques des LS considèrent des unités sub-lexicales constituées de

emplacement, tout en gardant une description de la trajectoire du mouvement de l’extrémité

2.2.2 Étude linguistique du lexique

Figure 19: Schéma entité-association de la base de données LS-Script

Ce chapitre présente un bilan de mes activités de recherche relatives à

Figure 20: Modélisation de la langue des signes.

3.1 ENJEU : PRENDRE EN COMPTE LA GRANDE ICONICITÉ

Figure 21: Exemples de transferts

Les approches classiques de représentations informatiques sont basées sur une

La première étape consiste à élaborer un modèle de l'espace de signation, base