Académique Documents
Professionnel Documents
Culture Documents
Annelies Braffort
LIMSI/CNRS
Juin 2008
A. Braffort - « TALS » juin 2008
2/70
A. Braffort - « TALS » juin 2008
Références..........................................................................................................61
3/70
A. Braffort - « TALS » juin 2008
4/70
A. Braffort - « TALS » Juin 2008
CHAPITRE 1 - INTRODUCTION
Les langues des signes, langues visuo-gestuelles pratiquées au sein des communautés de
sourds, assurent toutes les fonctions remplies par les autres langues naturelles vocales. Elles
sont, pour les sourds, le seul mode linguistique véritablement approprié, le seul qui leur
permette un développement cognitif et psychologique d’une façon équivalente à ce qu’il en
est d’une langue vocale pour un entendant.
La langue des signes permet de communiquer par un canal de réception visuel et un canal
d’émission gestuel. De ce fait, elle favorise l’émission d’une simultanéité d’informations, au
moyen d’un ensemble conséquent d’articulateurs1 (mains, bras, épaules, buste, tête, visage,
yeux) qui s'articulent de façon simultanée. De même, la façon d'organiser le discours est liée
aux capacités perceptives de la vue. Ainsi, le mouvement et l'utilisation pertinente de l'espace
situé devant le signeur (le locuteur en LS), nommé espace de signation, sont des éléments
exploités intensément en langue des signes. Enfin, elle fait un usage intensif de l’iconicité,
tant au niveau du lexique que des énoncés, grâce à sa capacité à dire sans montrer, mais aussi
à dire en montrant [Cuxac 00]. Ces notions sont rappelées à la section 3.1.
1
Articulateur : toute partie mobile du corps sur laquelle on peut agir volontairement et qui est fonctionnelle dans la
production de la parole, ce terme étant employé dans son sens premier, celui de langage incarné.
5/70
A. Braffort - « TALS » Juin 2008
La langue des signes française a été longtemps interdite comme langue d’enseignement
pour les enfants sourds (de 1880 à 1991) et sa reconnaissance officielle comme langue de
France est très récente (loi de février 20051). Cela a particulièrement freiné la dynamique de
recherche, qui ne s'est vraiment développée que depuis peu d'années. Actuellement, la
situation est encore très insatisfaisante, en particulier dans les domaines de l’accès aux
informations et de l’éducation [Cuxac Brugeille Dalle et al. 03]. Le contexte de la recherche
scientifique s’inscrit dans cet environnement social particulier qui amène à être
particulièrement vigilant quant aux aspects éthiques et aux retombées des résultats de
recherche [Braffort 02]. Le domaine de la recherche, même s'il est assez récent, en particulier
en informatique, n'est pas exclu des débats passionnés, voire militants, qui perdurent encore
lorsqu'il est question de la langue des signes, car du regard que l'on porte sur cette langue va
découler un véritable choix sur ce que l'on considère comme faisant partie de la langue et
donc ce qu'il faut prendre en compte pour la modélisation.
Les modèles informatiques sont en général basés sur des modèles linguistiques existants,
si bien qu'une part importante des modèles pour les langues des signes s'inspire des modèles
informatiques proposés pour les langues vocales. Pour ma part, j'ai choisi de proposer des
modèles informatiques nouveaux, qui permettent de représenter au maximum l'étendue des
1
Loi no 2005-102 du 11 février 2005 « pour l’égalité des droits et des chances, la participation et la citoyenneté des
personnes handicapées » : http://www.legifrance.gouv.fr/WAspad/UnTexteDeJorf?numjo=SANX0300217L
6/70
A. Braffort - « TALS » Juin 2008
productions possibles en langue des signes, en m'inspirant du modèle linguistique proposé par
Christian Cuxac.
Selon la forme de la langue que l’on va étudier (parlée ou écrite) et selon le point de vue
que l’on va adopter (analyse ou génération), les domaines de l’informatique concernés vont
être très différents : traitement du signal, traitement d’image, reconnaissance automatique,
infographie, animation 3d, représentation des connaissances, traitement automatique des
langues. Dans tous les cas, il va falloir développer des modèles fondamentaux qui permettent
de représenter des aspects du fonctionnement de la langue des signes.
La section suivante présente le cœur de mes contributions, qui portent sur la modélisation
de la langue des signes.
1
Forme parlée est entendue ici par opposition à forme écrite, indépendamment du canal vocal ou gestuel.
7/70
A. Braffort - « TALS » Juin 2008
Les prototypes ou applications qui sont mis en œuvre sont des moyens d'évaluer la
pertinence et l'efficacité de représentation des modèles proposés.
8/70
A. Braffort - « TALS » Juin 2008
C'est une des raisons qui m'ont amenée à passer du cadre applicatif de la reconnaissance à
celui de la génération, tout en poursuivant des collaborations avec des équipe de recherches et
plus particulièrement l'une d'entre elle spécialisée dans l'analyse de corpus vidéo, ceci en vue
d'élaborer des modèles communs [Braffort & Dalle 07]. Au niveau national, si des recherches
spécialisées sont menées sur chaque sujet au sein des équipes, il a été constitué depuis 2000
des projets collaboratifs ou des groupes de travail, avec des équipes aux compétences
complémentaires, tant en informatique qu’en linguistique. Ces projets ont permis en
particulier la constitution de corpus à vocation pluridisciplinaire, la constitution de bases de
données, ou de logiciels d'aide à l'annotation et à l'analyse de corpus : projet national LS-
COLIN [Cuxac Braffort Dalle et al. 02] ; action CNRS AS-CLS [Gibet Toulotte et al. 04] ;
action CNRS AS-IG [Dalle Cuxac Boutet et al. 04] ; projet ANR/RIAM LS-Script [Garcia
Aznar Bolot et al. 07].
Ces projets collaboratifs ont été aussi l'occasion d'une réflexion commune sur la langue
des signes et la gestuelle coverbale [Dalle Cuxac Boutet et al. 04]. Les modèles ou
méthodologies développés pour la gestuelle coverbale, qui est étudiée par les informaticiens
depuis plus longtemps, peuvent donner des pistes de réflexion pour l'étude de LS et
9/70
A. Braffort - « TALS » Juin 2008
Le présent mémoire présente une synthèse des principaux résultats obtenus, agencés
selon la structure donnée ci-dessous.
J'ai choisi de présenter la synthèse de mes travaux de recherche suivant un ordre logique
plutôt que chronologique, afin qu'ils soient regroupés par thématiques principales.
Ainsi, le chapitre suivant (chapitre 2) porte sur la question des corpus de langue des
signes (parties colorées figure 2). Il développe les recherches menées autour des
méthodologies d'annotation et les principaux éléments constituant les bases de connaissances.
Le chapitre 3 concerne les modèles informatiques de la langue des signes. Ces modèles
prennent appui sur les bases de connaissances, comme illustré dans la (figure 3).
10/70
A. Braffort - « TALS » Juin 2008
A partir de ces recherches fondamentales, des implémentations sont réalisées dans différents
cadres applicatifs (figure 4) à des fins d'évaluation, voire même dans des applications grand
public. Le chapitre 4 présente des exemples de telles mises en œuvre.
Le dernier chapitre (chapitre 5) est consacré à un bilan global ainsi qu’à une présentation
des perspectives sur l’ensemble de mes recherches.
11/70
A. Braffort - « TALS » Juin 2008
12/70
A. Braffort - « TALS » Juin 2008
Les méthodes utilisées pour annoter et analyser les corpus de LS dépendent de la nature
des données étudiées. Cette section discute dans une première partie les différents types de
données ainsi que les avantages et inconvénients associés (section 2.1.1). Une deuxième partie
expose les méthodologies créées pour l'annotation et l'analyse de corpus vidéo de LS (section
2.1.2).
Les caméras vidéo grand public nous ont ensuite permis de réaliser des corpus stockés sur
des cassettes VHS (projet Cognisciences Pôle Paris-Sud [Calbris Cuxac & Leix 94]), avec une
qualité d’image souvent médiocre et se dégradant au cours du temps (figure 7a). La
démocratisation récente de la vidéo numérique nous permet maintenant de constituer des
corpus d’une plus grande qualité et d’une durée de vie a priori illimitée (figure 7b) [Braffort
Choisier & Collet 03.
1
IVT : International Visual Theatre : http://www.ivt.fr/
13/70
A. Braffort - « TALS » Juin 2008
Le corpus LS-COLIN, réalisé à l’INJS1 de Paris a été constitué dans le cadre d’un projet
ministériel fléché « Langage et Cognition » par un collectif pluridisciplinaire composé de
linguistes et d’informaticiens [Cuxac Braffort Dalle et al. 02]. Il contient 90 productions
complètes (environ deux heures d’enregistrement) répartis en différents genres discursifs
(narratif, explicatif, argumentatif et métalinguistique). Les treize locuteurs sourds adultes qui
ont participé à l’enregistrement présentent une grande variété sociolinguistique (âge, sexe,
région d’origine, profession). Ils ont été filmés dans le studio professionnel de l’INJS au
moyen de trois caméras numériques selon trois angles de vue (plan américain, vue rapprochée
et vue du dessus) synchronisées par un flash. Ce corpus est le premier qui soit suffisamment
étendu et de suffisamment bonne qualité pour permettre aux chercheurs d’établir des résultats
d’analyse statistique et de procéder à des analyses informatiques telles que le traitement
d’image. S'ils permettent d'observer l'aspect dynamique des productions, l'image reste
bidimensionnelle et limite l'analyse des phénomènes spatiaux. Les recherches menées dans les
équipes spécialisées dans l'annotation automatique de corpus vidéo, telles que celle de l'IRIT
[Gianni Collet & Dalle 07], devraient cependant permettre à terme d'acquérir des indices sur
ces aspects.
1
INJS : Institut National de Jeunes Sourds - http://www.injs-paris.fr/
14/70
A. Braffort - « TALS » Juin 2008
J'ai commencé par étudier des données issues de « dictionnaires papier », puis des
données numériques acquises au moyen de capteurs de mouvements, pour lesquelles j'ai
développé des méthodologies spécifiques, comportant la mise en œuvre de processus de
traitement du signal [Braffort 96b]. Je ne détaillerai pas ces méthodes ici, car elles sont
intimement liées au système de capture utilisé et au cadre applicatif. Je synthétise dans la
section suivante les études qui ont été menées dans le cadre de corpus vidéo et qui sont de fait
beaucoup plus génériques.
Cette section expose trois études ayant amené à proposer de nouvelles méthodologies,
pour l'annotation des informations spatiales, des mouvements des éléments mobiles du visage,
1
Scilab : logiciel de calcul numérique pour les applications scientifiques : http://www.scilab.org
15/70
A. Braffort - « TALS » Juin 2008
ainsi que pour l'exploitation des données d'annotation associées à des processus de traitement
d'images.
Le problème vient du fait que cet espace est par nature continu, tandis que l'annotation
d'une vidéo avec les logiciels dont on dispose actuellement est quant à elle de nature discrète.
Il est donc nécessaire de définir une segmentation plus ou moins arbitraire de cet espace. Une
fois cette segmentation établie, il faut pouvoir identifier les différents segments d'espace. Pour
cela, des descriptions symboliques iconiques sont plus aisées à manipuler que des mots ou des
codes textuels.
Ces études ont permis d'identifier les problèmes méthodologiques et de proposer des
premiers éléments de réponse. Il n'en reste pas moins que la nature bidimensionnelle des
images vidéo rend difficile l'annotation précise de la profondeur. C'est maintenant au cœur des
logiciels d'annotation qu'il convient de s'intéresser afin d'y adjoindre des capacités
supplémentaires, en particulier de visualisation 3d.
16/70
A. Braffort - « TALS » Juin 2008
Il est nécessaire d’étudier finement ces phénomènes pour parvenir à leur formalisation
informatique. Les recherches les plus avancées sur ces aspects se trouvent plutôt dans la
communauté s'intéressant à la gestuelle coverbale. On peut citer en particulier les travaux
initiés par Ekman et Friesen [Ekman & Friesen 78], qui ont abouti à la définition du système
« Facial Action Coding System » (FACS). Il s'agit de vérifier l'adéquation de ce type de
modèle pour les gestes non manuels des LS et de l'enrichir le cas échéant.
Cette recherche est menée dans le cadre de la thèse d’Emilie Chételat-Pelé. Le premier
apport de ces travaux concerne la méthodologie d’annotation. La proposition consiste à
décrire les mouvements des éléments (sourcils, joue, paupières, bouche…), plutôt que les
positions finales comme cela a été le cas jusqu’alors, ce qui permet une finesse de description
bien plus grande. Ce choix méthodologique est complété par la création d’un ensemble de
symboles et des méthodes d’utilisation associées [Chételat-Pelé Braffort & Véronis 07 ;
Chételat-Pelé & Braffort 08a].
Ces symboles sont représentés sur la figure 11. Il s’agit de flèches dont l’orientation est
variable. Les flèches verticales indiquent qu’il y a contact entre les deux éléments du visage
(par exemple la flèche verticale vers le haut pour annoter la paupière inférieure qui monte
jusqu’à toucher la paupière supérieure), tandis que les flèches en diagonale sont utilisées
lorsqu’il n’y a pas de contact. Cela permet par exemple de distinguer les yeux fermés des
yeux plissés.
17/70
A. Braffort - « TALS » Juin 2008
Les éléments du visage (yeux, bouche…) sont repérés par des points pertinents qui se
déplacent sur des axes. Par exemple, la bouche est décomposée en quatre points (un point à
chaque coin, un point au centre de la lèvre supérieure et un point au centre de la lèvre
inférieure). L’amplitude de la réalisation du mouvement est indiquée par un code couleur
(figure 12).
Les flèches peuvent se combiner pour décrire les différentes phases de réalisation d’un
geste non manuel : mouvement conduisant de la position initiale à la position adoptée, tenue
de ce mouvement, puis mouvement ramenant à la position initiale ou conduisant à une autre
position (figure 13). Les phases de réalisation sont ainsi isolées et peuvent être sujettes à une
analyse particulière (par exemple : le sens est-il le même lorsqu’une position est adoptée très
lentement ou très rapidement ?).
De plus, comme chaque mouvement se définit par rapport au précédent, une infinité de
formes est possible. Par exemple si une flèche « haussement atténué » est utilisée, elle ne
prend sens qu’en contexte : si la flèche précédente était un « haussement amplifié » alors cela
signifie que l’élément est à une position encore plus haute que la précédente.
Cette méthodologie d’annotation a été testée sur un extrait du corpus LS-COLIN [Cuxac
Braffort Dalle et al. 02] à l’aide du logiciel Anvil [Kipp 01 ; Kipp 04]. Cela a permis de
décrire un certain nombre de phénomènes très fins intervenant en LSF. Un exemple est
détaillé ci-dessous.
18/70
A. Braffort - « TALS » Juin 2008
Figure 14: Extrait d'annotation avec ANVIL, détails sur les sourcils et les paupières.
Dans la partie B de la figure 14, les trois flèches du bloc bleu (premier bloc de la
première ligne) décrivent un haussement de sourcils moyen (flèches marron : « moyenne »)
avec ces trois phases de réalisation. A droite (en jaune), un léger froncement de sourcils est
décrit (flèches roses claires : réalisation atténuée). Sur la seconde ligne (paupière supérieure),
au niveau du second bloc (rouge) nous pouvons voir que le signeur ferme les yeux (flèche de
contact) puis qu’il les maintient fermés. Enfin, au lieu d’avoir un retour à la position initiale il
va les rouvrir légèrement (degré de réalisation).
Cette annotation, basée sur des symboles et des codes couleurs simples, permet dans une
première analyse globale de repérer visuellement des structures récurrentes et d’en déduire
des pistes pour mener une analyse statistique plus fine. C’est aussi une première approche
pour une formalisation des GNM, ainsi que pour l’acquisition de données numériques
(amplitude, fréquence, durée…) qui seront nécessaires pour le traitement automatique de tels
phénomènes.
Une analyse plus fine est menée actuellement sur le mouvement des sourcils, en
procédant à une annotation manuelle de la position de chaque sourcil et paupière directement
sur la vidéo (figure 15).
Ce travail de longue haleine (il s’agit de positionner 18 points par image à raison de 25
images par seconde), va permettre de déterminer numériquement la structure des mouvements
(leur différentes phases, durée, amplitude…) et donc d'associer des valeurs numériques aux
19/70
A. Braffort - « TALS » Juin 2008
Le traitement a été appliqué aux trois vues de la vidéo (visage, de face, de dessus) du
corpus LS-COLIN et les données numériques obtenues ont été insérées au sein du logiciel
d’annotation ANVIL (figure 17).
20/70
A. Braffort - « TALS » Juin 2008
Figure 17: Exemple d'un ensemble de courbes calculées sur la vue du dessus.
Les données ont été corrélées manuellement avec des annotations de nature linguistique
issues du travail de thèse de Marie-Anne Sallandre [Sallandre 03]. A partir de ces courbes, on
peut par exemple calculer une valeur moyenne et déterminer les parties de la courbe qui sont
au dessous ou au dessus de cette moyenne, ce qui nous permet de détecter automatiquement
des passages particuliers dans la vidéo tels que le basculement du buste du signeur à droite ou
à gauche de son positionnement moyen. On peut aussi déterminer des phases de pauses. Par
exemple, en corrélant une période de pause avec une valeur inférieure à la moyenne pour la
coordonnée x de la vue du dessus, qui correspond à un décalage de l’axe du corps, on peut
détecter certains transferts personnels (ou prises de rôle), tel celui illustré à la figure 18a, où le
signeur se décale vers sa gauche et « prend le rôle » d’une vache. Par exemple, ici (figure
18b), on observe que cette séquence correspond à un moment où les valeurs de X sont
inférieures à la moyenne et où les autres valeurs sont stables.
Si cette méthode doit encore être évaluée sur l’ensemble du corpus afin d’être validée et
affinée, cette première expérimentation a confirmé l’intérêt du traitement d’image pour l’aide
à l’annotation.
21/70
A. Braffort - « TALS » Juin 2008
Une fois les corpus analysés, on doit élaborer des bases de connaissances qui pourront
être utilisées pour élaborer les modèles relatifs au fonctionnement de la LS, ou encore pour les
implémentations informatiques. La section suivante expose les bases de connaissances les
plus significatives réalisées depuis le début de mes recherches.
La nature des données analysées, numériques ou non, va avoir une incidence sur la façon
dont on va structurer les résultats de l'analyse du phénomène étudié. Par exemple, si l’on
s’intéresse à la structure interne du lexique répertorié dans un dictionnaire, on va concevoir
des bases de données, telles que celles développées pour les LS allemande (GlossLexer)
[Hanke Konrad & Schwarz 01] et Hollandaise (SignPhon), [Crasborn Van Der Hulst & Van
Der Kooij 01]. Le rôle d’une base de données est double : en amont et au cours de l'étude, la
formalisation que nécessite la conception des tables et de leurs champs ainsi que des relations
entre tables fait progresser dans la compréhension du problème étudié ; en aval, l'exploitation
statistique des données permet d'établir, de valider de quantifier des propriétés. Pour la LSF,
les bases de données sont encore plus rares que les corpus et restent à l'heure actuelle assez
confidentielles. Je décris dans cette section le rôle et le contenu de deux bases de données que
j'ai conçues pour structurer des analyses menées sur le lexique de la LSF.
Ces paramètres ne respectent pas les qualités requises pour être utilisées comme
primitives de représentation au sein d'un système de reconnaissance automatique. J’ai choisi
de procéder à une homogénéisation des paramètres en ce qui concerne l’aspect temporel. J’ai
considéré que chaque paramètre pouvait se déployer dans le temps. Ainsi, j’ai éclaté la
description du mouvement dans chacun des paramètres configuration, orientation et
22/70
A. Braffort - « TALS » Juin 2008
Les principaux résultats d'analyse obtenus à partir de cette base de données sont discutés
section 3.3, qui traite de la représentation du lexique [Braffort 96b, Braffort 06]. Malgré les
limites de cette étude, liées au type de corpus utilisé (un « corpus papier » ne donnant qu’un
aperçu figé et statique des signes hors contexte), ces résultats nous ont permis d’identifier un
certain nombre de problèmes qui plaident en faveur d'une reconsidération des paramètres en
tant qu’unités descriptives des signes. Cela m'a amené à conduire ensuite une recherche
dédiée à la représentation des signes.
Ce travail a été initié dans le cadre d’un projet national regroupant linguistes et
informaticiens [Garcia Aznar Bolot et al. 07]. A partir d’une description des phénomènes
linguistiques à représenter fournie par les linguistes, j’ai conçu une base de données qui a
ensuite été installée sur un site Internet collaboratif. La figure 19 illustre la structure de la base
de données, qui permet de décrire en particulier les liens de dépendance entre les paramètres.
Par exemple, la configuration '3' et la rotation alternée du poignet sont souvent associées, mis
à part dans le cas la numération.
23/70
A. Braffort - « TALS » Juin 2008
Cette base de données est actuellement alimentée par les collègues linguistes et certaines
hypothèses relatives au paramètre de configuration semble bien être confirmées par les
premières analyses statistiques.
Une part importante de mes recherches porte sur les méthodologies à mettre en œuvre
pour l'annotation et l'analyse de corpus. Les corpus peuvent être utilisés directement, pour
alimenter et valider certains modèles informatiques, ainsi que les prototypes associés, tels les
systèmes de reconnaissance automatique. De plus, l'analyse de ces corpus est un préalable à la
constitution de bases de connaissances à partir desquelles les modèles peuvent être élaborés.
Grâce à ce travail d'analyse, on a acquis des données statistiques relatives à l'utilisation de
l'espace de signation, au lexique et à la structure des énoncés en LSF, ce qui va fonder les
principes des modèles informatiques de la LSF. Ces modèles sont abordés au chapitre suivant.
24/70
A. Braffort - « TALS » Juin 2008
CHAPITRE 3 -
REPRÉSENTATIONS INFORMATIQUES DE LA LSF
25/70
A. Braffort - « TALS » Juin 2008
La langue des signes est une langue visuo-gestuelle dont le fonctionnement est très
différent de celui des langues vocales. Les linguistes s’attachent à en définir les contours, en
prenant plus ou moins de distance avec les théories linguistiques qui ont été proposées pour
les langues vocales.
Selon Cuxac [Cuxac 00], les langues des signes, grâce à l’utilisation du canal visuo-
gestuel, permettent au signeur de choisir entre deux stratégies discursives :
• les structures de grande iconicité (SGI), qui permettent de dire tout en montrant,
• les signes standards (SS), qui permettent de dire sans montrer.
Ces deux stratégies coexistent et le va-et-vient entre les deux est constant. C'est par ces
deux grands axes qu'une grammaire de la LSF peut être établie. Elles font naître des
différences structurales. En particulier en grande iconicité, on veut donner à voir et pour cela
on misera sur la ressemblance maximale entre la séquence de signes et l'expérience. C. Cuxac
tente de démontrer que ces structures de grande iconicité sont bien des éléments linguistiques
et constituent même la démonstration la plus subtile et la plus convaincante de ce qu'est une
langue. En effet, ces structures sont quasiment identiques d'une LS à l'autre, ce qui permet une
intercompréhension rapide entre des signeurs de nationalités différentes.
Une des principales propriétés des LS est l'utilisation intensive de l'espace de signation.
Cet espace permet de structurer le discours. Les entités du discours (personnes, objets,
évènements, notions abstraites...) sont localisées dans cet espace de signation. Ensuite, des
structures spatio-temporelles sont utilisées pour élaborer des énoncés. Par exemple, les
relations spatiales entre les entités sont généralement établies sans utiliser de signe lexical
dédié. C'est l'utilisation de proformes mises en relation dans l'espace qui permet d'exprimer de
telles relations. Un exemple est donné à la figure 21b, où l'image montre un oiseau situé sur
une barrière. Cela se fait par l'intermédiaire de deux proformes mises en relation. Le premier
(main gauche) représente le bec de l'oiseau, tandis que le second (main droite) représente la
barrière.
L'ordre d'apparition des signes dans l'énoncé est moins important que leur arrangement
dans l'espace, mais on peut dégager des principes généraux au niveau de l'organisation
temporelle : on signe du plus général, le contexte, vers le plus précis, l'action ; les entités plus
statiques sont signées avant les entités plus mobiles.
L'utilisation de multiples articulateurs au sein d'un espace pertinisé d'un point de vue
linguistique permet d'élaborer des structures linguistiques complexes, mettant en œuvre
l'iconicité à différents niveaux du discours. C. Cuxac a proposé une catégorisation de ces
structures linguistiques de grande iconicité. Il a distingué trois types de structures qu'il appelle
transferts :
• le transfert de taille et de forme, qui est utilisé pour décrire la taille et la forme d'une
entité (figure 21a),
• le transfert situationnel, qui est utilisé pour montrer le positionnement et le
déplacement d'une entité par rapport à un repère locatif stable (figure 21b),
• le transfert personnel, où le signeur incarne une des entités du discours (figure 21c).
26/70
A. Braffort - « TALS » Juin 2008
De plus, les transferts situationnel et personnel peuvent se combiner pour former des
double-transferts tel celui montré à la figure 21d. Aussi, des parties de signes lexicaux
peuvent être combinées avec un double-transfert pour former un semi-transfert (figure 21e).
Une importante propriété observée à partir des corpus est que le regard du signeur permet
de distinguer systématiquement les moments de son discours où il est en grande iconicité de
ceux où il n'y est pas. Comme on peut le constater dans les exemples ci-dessous, le regard
n'est jamais dirigé vers l'interlocuteur en grande iconicité, l'intention étant de dire en
montrant.
Pour pouvoir représenter informatiquement ces structures, il est nécessaire d’élaborer des
modèles, à la fois précis et flexibles, qui s'inscrivent dans le processus d'utilisation pertinente
de l’espace qui est omniprésente en LS. Les modèles à mettre en œuvre pour représenter ces
phénomènes sont susceptibles d'exploiter des approches développées dans le domaine de la 3d
et pas uniquement dans le domaine du traitement automatique des langues (TAL). Mon
objectif est de proposer des modèles permettant de modéliser des phénomènes spatio-
temporels représentatifs de ce que l'on peut trouver dans les productions de LS, incluant les
structures de grande iconicité décrites par C. Cuxac. Notons que du fait que ces modèles
devraient permettre d'étendre les capacités actuelles des modèles dédiés aux LS, on peut
espérer pouvoir les appliquer à n'importe quelle langue des signes.
1
HPSG : Head-Driven Phrase Structure Grammar – théorie de la famille des grammaires génératives.
27/70
A. Braffort - « TALS » Juin 2008
Ce type de modélisation est encore très peu étudié. Mis à part les travaux que j'ai menés
sur ce sujet dès ma thèse [Braffort 96b] dans le cadre de la reconnaissance automatique, puis
dans le cadre de la génération [Braffort Bossard Segouat et al. 05], seule une autre équipe
(l'équipe TCI de l'IRIT) s'y est intéressé en France dans le cadre de l'analyse de corpus vidéo
[Lenseigne 04]. Ces modèles sont fondés sur le modèle linguistique proposé par C. Cuxac et
nous cherchons maintenant à en dériver un modèle générique indépendant du cadre applicatif
[Braffort & Dalle 07]. Si dans d'autres pays certains linguistes commencent à considérer
l'importance linguistique de l'espace de signation [Liddell 00], ce n'est généralement pas le
cas des informaticiens, mise-à-part une étude menée dans le cadre de la traduction
automatique, mais où l'espace de signation est vu uniquement comme une représentation
interlangue [Huenerfauth 06]. Finalement, l'idée de modéliser l'espace de signation, considéré
comme élément structurant des énoncés, reste très novatrice et génératrice de pistes de
recherche pour la modélisation des autres aspects de la LS.
Cette modélisation est basée sur l’utilisation d’un espace euclidien de dimension 3, de
même nature que les graphes de scène utilisés dans le domaine de l'informatique graphique.
Ce graphe comporte autant de nœuds qu'il y a d'entités spatialisées dans le discours. Ces
nœuds sont reliés par des arcs qui permettent de représenter les relations entre entités. Les
descriptions des nœuds et des arcs peuvent être de granularité plus ou moins fine en fonction
des besoins. Ainsi cet espace peut être une simple « mémoire spatiale », qui va contenir
l’historique des emplacements pertinisés dans l’espace, avec une liste d’entités associées
auxquelles on va pouvoir faire référence. Il peut être plus complexe et comporter alors des
informations sur la nature des entités et les relations entre entités. La nature de ces
informations est détaillée ci-dessous, pour les entités, puis pour les relations.
Cette section liste certaines de ces propriétés. Il ne s'agit pas d'une liste fermée, mais
plutôt d'un état des lieux des propriétés que j'ai été amenée à prendre en compte en fonction
des types d'énoncés considérés. Il s'agit des propriétés suivantes :
• emplacement et orientation de l'entité dans l’espace de signation,
• topologie de l'entité (forme plate, ronde, creuse…),
• linguistique (propriétés syntaxico-sémantiques, cognitives...),
28/70
A. Braffort - « TALS » Juin 2008
Emplacement et orientation
Quand le signeur a besoin de localiser les entités dans l’espace de signation pour pouvoir
y référer par la suite, il place ses entités relativement à sa propre position. De même, le
signeur doit parfois expliciter l’orientation d’une entité, par exemple pour montrer qu’une
personne se dirige vers une voiture, ou s’en éloigne.
Ces propriétés sont modélisées à l'aide d'un système de coordonnées centré sur le signeur,
nommé repère signeur. Ce repère est centré sur le bassin du signeur, afin de pouvoir gérer les
prises de rôles qui impliquent une rotation au niveau du bassin [Braffort 96b].
Mais ces propriétés ne sont pas toujours nécessaires. En effet, les entités ne sont pas
toujours spatialisées. Elles sont toujours réalisées dans l'espace de signation, mais pas toujours
pertinisée. On parle à ce moment-là d'espace neutre. D'autre part, il arrive souvent qu’une
entité soit tout d’abord signée dans l’espace neutre puis spatialisée à l’aide d’un pointage, d'un
proforme, du regard, d’un mouvement d’épaule ou de la tête. Afin de pouvoir représenter ce
phénomène de spatialisation en deux étapes, il est nécessaire de modéliser cet espace neutre et
son utilisation.
Cet espace neutre peut être modélisé comme une pile (au sens informatique) afin de
permettre le dépilement d’une entité en vue de son intégration dans le graphe. Cette pile est
composée d’éléments comportant les mêmes informations que les nœuds du graphe, mises à
part les informations spatiales sur l’emplacement et l’orientation qui sont absentes ici puisque
pas encore instanciées [Braffort 96b].
Notons que la propriété d'orientation est optionnelle, car certaines entités ont une
topologie qui fait qu'elles ne sont pas orientables, comme le ballon ou le ciel.
Topologie
Une connaissance de la forme d’une entité est importante lorsqu’on a besoin de se référer
à une partie de l’entité dans la suite du discours. C'est en particulier le cas lorsque l'on crée un
effet de zoom sur une entité ou qu'une entité est décomposable. La topologie va aussi avoir
une incidence sur la façon dont les entités sont manipulées dans l'espace de signation, ainsi
que les proformes associés.
La modélisation de cette propriété peut être très complexe. Dans une version simplifiée,
on indique simplement si l'objet est décomposable ou non et on lui associe des indications sur
sa taille relativement aux autres entités. Si l'on souhaite une granularité plus fine, on
représente les entités décomposables comme des sous-graphes, où chaque élément de l'entité
est représenté par un nœud auquel on associe des indications sur sa topologie (forme plane,
ronde, creuse, non délimitée...) et où chaque arc permet de représenter la hiérarchie de la
décomposition.
29/70
A. Braffort - « TALS » Juin 2008
cognitives qui permettent de prévoir certains comportements des entités selon leur nature.
Pour cela, on associe aux entités un type sémantico-cognitif, qui peut être individualisable
(pour les entités telles que les objets, les personnes), massif, pour les entités non
décomposables (telles que la mer, le beurre), collectif (telles que la foule), date, lieu et action
[Lejeune Braffort & Desclés 01 ; Lejeune & Braffort 02 ; Lejeune 04 ; Braffort & Lejeune
05 ; Braffort Bossard Segouat et al. 05]. En fonction de son type, une entité se verra associer
des proformes différents [Lejeune & Risler 04] et va avoir des comportements différents dans
l’espace de signation [Lenseigne 04].
Une fois les propriétés des entités modélisées, il faut s'intéresser aux relations établies
entre ces entités au sein de l'espace de signation.
La nature des relations dépend de la nature des entités. Par exemple, si l’on manipule des
entités de type « date » ou « action », les relations seront des relations spatiales, mais entre
deux évènements temporels. Ainsi, elles exprimeront des relations temporelles comme la
succession, le chevauchement, l'inclusion… S’il s’agit d’entités de type « individualisable »,
« massif » ou « lieu », les relations seront le plus souvent spatiales (sur, sous, dans...),
actancielles (mettant en relation des actants1), ou « partie/tout » (exemples : les pieds de la
table, la queue du chat). Ainsi, à chaque type de relation va correspondre des propriétés
spécifiques qu'il va falloir représenter.
Je décris ci-dessous deux types de relations : les relations spatiales entre entités étudiées
dans le cadre de la thèse de F. Lejeune [Lejeune 04] et les relations actancielles, abordées
durant ma thèse [Braffort 96b].
Relations spatiales
Les relations spatiales permettent de situer une entité par rapport à une autre. En LS, ces
relations ne s'expriment pas à l'aide de signes lexicaux. Elles se réalisent par la mise en
relation spatiale des deux mains du signeur. Chaque main fait référence à une des entités à
l’aide d’un proforme, qui permet de préciser le point de vue sur cette entité.
La figure 22 montre une relation spatiale statique décrivant un lieu situé au dessus d'un
autre. Le lieu qui sert de repère est activé par un proforme (main gauche, dominée2) et le lieu
de l'entité repérée est activé par un pointage (main droite, dominante).
1
Actant : participant à l'action (acteur, agent, objet patient, bénéficiaire, instrument)
2
La main dominante est la main droite pour un droitier, gauche pour un gaucher.
30/70
A. Braffort - « TALS » Juin 2008
Ce type de relation peut être modélisé par une simple étiquette sur l'arc qui relie les deux
entités, indiquant la relation spatiale [Braffort 96b].
Par exemple, dans cette représentation, une phrase en LSF signifiant "Il y a un verre sur
la table devant moi, avec un glaçon dedans, et il y a un ballon sous la table." est structurée à
l’aide d’un graphe tel celui illustré à la figure 23.
verre g la ç o n
dans
x2, y2, z2 x3, y3, z3
su r
s ig n e u r ta b le
x0, y 0, z0 x1, y1, z1
so u s b a llo n
x4, y4, z4
Mais cette modélisation est assez grossière car la relation peut être décrite très finement
en LS. Une modélisation plus fine a été étudiée dans le cadre de la thèse de F. Lejeune. Elle
est présentée à la section 3.4.
Relations actantielles
Les relations actancielles décrivent une relation entre les actants d'un prédicat1. Ces
relations sont réalisées en LSF à l’aide d’unités gestuelles nommées verbes directionnels. Ces
signes s’instancient dans l'espace et le temps. La direction du mouvement et l'orientation de la
main permettent de déterminer les rôles d'agent et de patient. La configuration de la main peut
être générique, ou intégrer un proforme faisant référence à un des actants du prédicat. La
dynamique du mouvement correspond aussi à un trait grammatical (l'aspect), qui exprime la
façon dont l'action est envisagée chronologiquement (commencement, déroulement,
achèvement...).
31/70
A. Braffort - « TALS » Juin 2008
intégrant l’objet donné grâce à un proforme. Le proforme change selon que l’on donne un
objet, plat, rond, gros, lourd… Il peut s’agir d’un proforme mono- ou bi-manuel (figure 24).
Ce type de relation peut mettre lier deux, trois voire quatre entités, chacune ayant un rôle
d'actant distinct. Cela est spécifié à l'aide d'une des propriétés linguistiques présentées dans la
section précédente. Pour chaque entité mise en jeu dans une situation donnée, cette propriété
est spécifiée.
Lorsque qu'il y a une notion d'accomplissement dans l'action, celle-ci peut présenter un
commencement et un achèvement. Pour modéliser ces relations, il est nécessaire de pouvoir
représenter le développement de l'action, donc ses différentes étapes, typiquement la situation
initiale et la situation finale. Cette modélisation a été étudiée dans le cadre de la thèse de F.
Lejeune [Lejeune 04]. Elle est basée sur un formalisme présenté plus loin à la section 3.4.
Une fois l'espace de signation modélisé, on va pouvoir s'intéresser aux unités gestuelles
déployées au sein de cet espace.
W.C. Stokoe, un des premiers linguistes à s'intéresser aux LS, a proposé de déterminer les
unités minimales différentielles constituant le lexique de la langue des signes américaine
(ASL). Ces unités minimales, qu'il appelle « chérèmes » étaient pour lui l'équivalent des
phonèmes. Il s’agit de ce que l’on dénomme maintenant les « paramètres » des LS :
• configuration (forme de la main),
• emplacement de la main dans l'espace de signation ou par rapport au corps,
• orientation de la main par rapport au corps,
• mouvement de la main.
• On y ajoute la mimique faciale comme cinquième paramètre.
Ce modèle phonologique est depuis cette époque le modèle dominant, même si certains
linguistes ont affiné les descriptions ou rendu plus cohérent les systèmes de description
[Liddell & Johnson 89]. Il est aussi à la base de la plupart des représentations informatiques
proposées à ce jour. Après analyse de cette représentation du point de vue informatique, il
s'est avéré que cette représentation posait de nombreux problèmes, tant en terme de
cohérence, de complétude que de pertinence lorsque les signes sont considérés dans le
32/70
A. Braffort - « TALS » Juin 2008
contexte d'un énoncé. Dans le cadre de la thèse de M. Filhol [Filhol 08], un nouveau modèle
de représentation du lexique se propose de répondre à ces différentes critiques.
Cette section reprend dans l’ordre chronologique les études menées dans ce domaine.
J'expose d’abord les études menées durant ma thèse, affinées ensuite dans le cadre de la thèse
de B. Bossard [Bossard 06]. Je poursuis en décrivant un peu plus en détail la proposition de
représentation.
Cette étude a été prolongée et affinée durant la thèse de Bruno Bossard [Bossard 06],
également ancré dans un contexte de reconnaissance et compréhension, mais cette fois-ci
centrée sur les problématiques spécifiques aux gestes bimanuels. Ces études se sont basées sur
l'analyse qualitative des signes standards à partir du dictionnaire IVT [Moody 98] ainsi que
sur l'analyse quantitative à partir de corpus 3d captés à l'aide de gants numériques [Gibet
Richardson Lebourque et al. 98]. Quoique menées dans un contexte applicatif bien défini,
elles ont permis de mettre en lumière des problématiques de représentations bien spécifiques à
la LS, dont les principales sont résumées ci-dessous. Il s'agit de la variabilité, de la nature des
paramètres et de la nature des informations véhiculées.
La seconde catégorie inclut les unités gestuelles dont la réalisation dépend du contexte,
tels les verbes directionnels ou les relations spatiales dont nous avons parlé précédemment
(voir section 3.2.2), mais aussi les signes standards qui peuvent être modifiés selon le
33/70
A. Braffort - « TALS » Juin 2008
contexte, tel le signe [PERSONNE] (figure 26), dont l'emplacement peut être directement
pertinisé dans l'espace de signation en réalisant le signe à l'emplacement désiré plutôt que
dans l'espace neutre.
Cette deuxième catégorie de signes, par nature hautement variables dans leur réalisation,
est de loin la plus importante en nombre et en fréquence d'utilisation, comme le prouve les
résultats d'analyse issus des bases de données ou des annotations de corpus vidéo [Sallandre
03].
De plus, on observe un certain nombre de corrélations entre les valeurs des paramètres,
par exemple entre la configuration et le mouvement, ou entre le mouvement et l’orientation.
Ainsi, dans les signes bimanuels, on observe que quand les deux bras se déplacent, les deux
configurations sont identiques, tandis que lorsque seul le bras de la main dominante se
déplace, les configurations sont différentes. Par ailleurs, selon le type de trajectoire que
34/70
A. Braffort - « TALS » Juin 2008
On peut en conclure que les paramètres n’ont pas tous la même importance dans la
définition d’un signe, et qu’il peut y avoir une dépendance entre paramètres. La question est
de trouver comment exprimer cette importance relative des paramètres et leurs éventuelles
relations. Ce problème a été étudié pendant la thèse de M. Filhol [Filhol 08].
Ainsi au sein d'un même signe, certains paramètres peuvent être de natures différentes
(discret, continu...).
Ce phénomène est encore plus flagrant lorsqu’on considère les structures de grande
iconicité. Un paramètre donné peut posséder tantôt une valeur discrète, tantôt une valeur
continue. Par exemple, pour beaucoup de signes standards, la configuration prend « par
défaut » une valeur discrète parmi l’ensemble des configurations observées pour la LSF. Mais
rien n’empêche, en contexte, que cette configuration soit modifiée afin d’apporter un niveau
de précision dans le discours, au moyen d'un « transfert de taille et de forme » [Cuxac 00]. De
même pour l’emplacement, on peut lister un nombre restreint d’emplacements sur le corps ou
près du corps du signeur utilisés dans certaines unités gestuelles, mais l’emplacement peut
tout aussi bien être sélectionné à la volée dans le discours, en fonction de ce qui a été signé
précédemment. Ainsi une même unité gestuelle peut très bien comporter des informations
discrètes et continues, statiques et dynamiques.
Comme le montre l'analyse des corpus, cette observation est généralisable à l’ensemble
des articulateurs mis en jeu (regard, mimique, mouvements de la tête, des épaules, du
buste…) pour une unité gestuelle au sein d’un énoncé. Mais en plus, les différents gestes ou
mouvements peuvent avoir une portée temporelle différente. Un regard peut conserver une
valeur de direction donnée pendant la réalisation de plusieurs signes, ou au contraire être
extrêmement bref. Les deux mains peuvent être parfaitement synchronisées ou non, selon
qu’il s’agit d’un geste bimanuel ou de deux gestes monomanuels mis en relation [Bossard
Braffort & Jardino 04 ; Bossard 06].
Ainsi une représentation des unités gestuelles doit être suffisamment souple pour
permettre différents niveaux de granularité dans la définition des paramètres, ainsi qu’un
mécanisme permettant d’exprimer des relations avec des évènements spatio-temporels.
35/70
A. Braffort - « TALS » Juin 2008
Bilan
La représentation des unités gestuelles constituant un énoncé pose des problématiques
très différentes de celles des langues vocales : plusieurs parties du corps (mimique,
configuration, mouvement des mains…) interviennent simultanément sur des intervalles de
temps variables ; certaines informations sont de nature discrètes (certaines configuration), ou
dynamique (le mouvement des mains ou des bras), ou encore spatiales (emplacement,
direction du regard) ; les paramètres peuvent être discrets ou continus, à valeur prédéfinie ou
non, choisie en fonction du contexte. Enfin, tous les paramètres n’ont pas toujours la même
importance dans la définition d'un signe ou encore ils peuvent être corrélés plus ou moins
fortement.
Les représentations proposées lors de nos premières études ont été pensées dans le cadre
d’applications de la reconnaissance automatique. Les capteurs (gants numériques, capteurs de
position) ont induit un point de vue articulatoire sur la représentation de bas niveau. Les
méthodes employées (statistiques ou stochastiques) ont, quant à elles, imposé une
prédominance de l’aspect temporel sur l’aspect spatial. Dans ce contexte, les solutions
proposées ont été de développer des représentations incluant plus ou moins de paramètres
selon la catégorie de signes (signes à réalisation figée et signes à réalisation variable) et de
conserver les valeurs numériques telles que l’emplacement et l’orientation au cours du temps
pour une utilisation lors du processus d’interprétation [Braffort 96b]. Pour ce qui est de la
gestion de l’aspect mono- ou bimanuel des signes, la solution proposée a été d'élaborer des
représentations de plus haut niveau distinguant les signes bimanuel et les signes
monomanuels. Les signes bimanuels sont considérés comme un tout, les signes monomanuels
des mains dominante et dominée sont distingués. Le vocabulaire gestuel de la main dominée
consiste uniquement en proformes utilisés lors de « transferts situationnels » [Bossard 06].
Ces premières études ont permis de prendre la mesure des problématiques et de leur
importance pour la mise en place de systèmes de traitement automatique de la LS qui soient
pertinents. Mais ces études sont restées liées à l’application de reconnaissance automatique et
ses contraintes. L’étape suivante a été de réfléchir à une modélisation plus générique et plus
complète, que l’on souhaite pouvoir appliquer également dans le contexte de la génération
automatique, mais plus généralement dans toute application nécessitant de décrire la
constitution d’un signe (dictionnaire, système graphique, analyse par traitement d’image…),
en s’appuyant si possible sur un ou des modèles linguistiques des LS. Cette modélisation est
détaillée dans la section suivante.
36/70
A. Braffort - « TALS » Juin 2008
L’analyse statistique de la LSF que j’avais menée pendant ma thèse grâce à la base de
données [Braffort 96b] montre que les éléments de géométrie spatiale sont courants dans les
signes de LSF : la plupart des signes bimanuels comportent une symétrie ou un parallélisme,
un grand nombre de mouvements décrivent des droites ou des cercles… De plus,
pratiquement toutes les descriptions spontanées font appel à une notion géométrique.
Pour [BALLON] par exemple (figure 28), nous avons besoin de différents objets
géométriques.
Ces objets géométriques1 sont un plan P, un point S et une trajectoire Tr. Ils sont détaillés
dans la figure 29.
1
Ces objets géométriques sont superposés à une image d’Elsi, la signeuse virtuelle développée dans l’équipe [Bolot
Braffort Filhol 06 ; Braffort & Filhol 07 ; Filhol Braffort Bolot 07]. Seul le plan de symétrie y est omis, pour des raisons
de clarté.
37/70
A. Braffort - « TALS » Juin 2008
Chaque objet peut faire référence à un ou plusieurs objets déjà construits lorsque c’est
nécessaire, ce qui met en lumière les dépendances entre les éléments. Si un élément fait
référence à un autre, les deux sont en dépendance directe et explicite. Ainsi, contrairement
aux modèles à paramètres simultanés, une structure et un ordre de construction propres au
signe se dégagent de chaque description.
38/70
A. Braffort - « TALS » Juin 2008
Pour les signes le nécessitant, il est possible d’inclure des descriptions relatives à la
mimique, à la posture des bras ou à d’autres parties du corps.
Enfin, le modèle permet d’étendre les dépendances possibles lors de la spécification d’un
objet à des dépendances externes. Ce nouveau type de dépendance permet à une description
de faire référence non plus uniquement à un autre objet, pourvu que celui-ci soit défini plus
avant dans la description, mais aussi à un élément qui indique une valeur contextuelle, à
récupérer si elle existe au moment de la signation.
Ceci nous amène à inclure des références à de nouveaux types d’objets dans les
descriptions : des objets contextuels, se trouvant « à l’extérieur » du signe décrit. Ce sont ces
éléments qui apparaissent entre accolades sur les figures 30 et 31. L’objet {Loc} désigne le
locus du ballon (géométriquement : un point), c’est-à-dire son emplacement dans l’espace de
signation au moment de le signer en contexte. En effet, [BALLON] est un signe relocalisable,
dont l’emplacement générique est l’espace neutre. {Rad} désigne son rayon.
L’organisation temporelle du signe, qui n'est pas détaillée ici, est basée sur le modèle
linguistique de Johnson [Liddell & Johnson 89], qui permet de distinguer différentes phases
dans le signe : les postures (P) et les tenues (D), qui représentent des instants clé dans le signe
et les transitions (M) entre deux instants clé. Ce système fournit une description fine, utile à la
fois pour la précision de la dynamique, mais aussi pour décrire certains aspects du signe qui
se transmettent à travers l’organisation temporelle.
39/70
A. Braffort - « TALS » Juin 2008
Dans la grande majorité des recherches menées jusqu’alors sur les langues des signes,
que ce soit en synthèse ou en analyse, l’énoncé est considéré comme une succession de signes
isolés, éventuellement coarticulés. Les modèles utilisés sont parfois très éloignés de la réalité
du fonctionnement des LS (génération ou reconnaissance de dactylologie, d’américain
signé…). De plus, les éléments non manuels sont encore rarement pris en compte alors que
leur rôle est essentiel. De rares études, essentiellement dans le cadre applicatif de la
génération, traitent de certains aspects syntaxico-sémantiques spécifiques aux LS. C’est en
particulier le cas des études initiées dans le cadre du projet européen Visicast, qui intègre
l’utilisation de proformes et de verbes directionnels [Marshall & Safar 04]. Cependant, ces
modèles, basés sur une représentation arborescente des énoncés, ne peuvent pas intégrer les
structures de grande iconicité décrites par C. Cuxac.
Me tenant au principe que l'espace de signation est le socle de l'organisation des énoncés,
je cherche à élaborer des modèles de description des énoncés, ou plutôt de portions d’énoncés
correspondant à des structures spatio-temporelles que l’on rencontre souvent en LS. Je me
propose dans un premier temps d'élaborer des descriptions sous une forme proche de la
transcription de corpus en « partition », telle qu'on la pratique au sein des logiciels
d'annotation de corpus vidéo. Cette approche « bas niveau » est une première étape avant de
pouvoir définir un véritable langage de description générique et complet. Ces descriptions
permettent d’exprimer des propriétés temporelles qualitatives accompagnées de contraintes
plus ou moins fortes sur les aspects spatiaux. Il utilise la logique temporelle d’intervalle de
Allen [Allen 83] et est enrichi de types de données et d’opérateurs de différentes natures
permettant de manipuler d’une part, les propriétés sémantico-cognitive et d’autre part, les
composantes des signes et les données spatiales.
Pour le moment, un ensemble restreint de structures a été étudié : celles qui relèvent d'une
des structures de grande iconicité décrites par C. Cuxac, les « transferts situationnels ». Il
s'agit de la spatialisation d'une entité à l'aide d'un proforme et de l'expression d'une relation
spatiale statique entre deux entités. Cela permet d'évaluer la nature des descriptions à prévoir
et d'envisager la cohérence de l'ensemble des modélisations proposées : espace de signation,
unités lexicales et énoncés.
40/70
A. Braffort - « TALS » Juin 2008
Le signe standard est tout d’abord réalisé, puis le regard est dirigé vers le futur
emplacement du proforme, enfin le proforme est réalisé à cet emplacement, toujours
accompagné du regard. Par exemple, la séquence d'images figure 32 illustre la spatialisation
de l’entité « Paris » à un emplacement donné du plan vertical frontal.
Regard GZ(P)
Signe [SS]
standard
Proforme PF(S, P)
Les durées des différents évènements sont ici purement fictives et devront être
déterminées à partir de valeurs statistiques issues de l’analyse de corpus vidéo tel que LS-
COLIN. Notons que le regard peut se fixer sur le point P un peu avant la fin de [SS]. La figure
41/70
A. Braffort - « TALS » Juin 2008
34 montre la forme de langage utilisé pour décrire cette partition. Ce langage permet
d'exprimer des relations temporelles et des contraintes spatiales
La ligne 1 déclare les unités gestuelles manipulées et la ligne 2 décrit la liste des
proformes disponibles. Les lignes 3, 4 et 5 sont des déclarations d'intervalles temporels et de
relations entre ces intervalles. Les lignes 7 et 8 déclarent des contraintes spatiales de même
nature que celles employées dans le modèle dédié aux unités lexicales. Elles peuvent elles-
mêmes dépendre d'un objet contextuel, instancié dans l'espace de signation.
L’ensemble de la description peut se lire comme suit (figure 35) :
La spatialisation d'une entité à l'aide d'un proforme peut maintenant être employée dans
des énoncés exprimant une relation spatiale entre deux entités. Une représentation possible
pour ce type d'énoncé est présentée ci-dessous.
42/70
A. Braffort - « TALS » Juin 2008
Par exemple, la figure 36 détaille la séquence qui peut se traduire par « L’université est
au nord de Paris ». Ce type de relation s’exprime à l’aide d’un proforme et d’un pointage. Le
proforme ‘C’ (image 2 de la séquence) fait référence à Paris et le pointage (image 4 de la
séquence) à l’université.
Pour exprimer ces contraintes spatiales plus complexes, on va devoir manipuler des
sous-espaces et les mettre en relation, à l’aide de proformes ou de pointages. Il peut être
nécessaire de décrire des relations assez fines, mettant en jeu des notions de topologie telles
que la frontière d'un objet, son intérieur... De simples contraintes telles que celles utilisées
jusqu'à maintenant se révèlent insuffisantes, d'où la recherche d'une modélisation plus fine.
Ce type de modélisation a été étudié dans le cadre de la thèse de Fanch Lejeune
[Lejeune 04]. F. Lejeune s’est intéressé à un type de grammaire, la Grammaire Applicative et
Cognitive [Desclés 90] et à son utilisation pour décrire les langues des signes. Cette
grammaire inclut un niveau cognitif constitué de schèmes sémantico-cognitifs (SSC). Un SSC
est une forme structurée constituée comme un tout à partir de primitives sémantico-
cognitives. Cette représentation est basée sur l'hypothèse que les primitives, que le linguiste
dégage par une démarche abductive, sont des invariants du système cognitif humain et que la
plupart relèvent directement des phénomènes de perception visuelle et d'action motrice dans
notre environnement spatio-temporel familier, hypothèse qui semble particulièrement
pertinente dans le cas des LS.
Dans sa thèse, F. Lejeune reprend le formalisme des SSC, basé sur la notion de repérage
d’une entité par rapport à une autre. Cette notion se représente sous forme de SSC par la
43/70
A. Braffort - « TALS » Juin 2008
description formelle <x REP y> qui indique qu’une entité x est repérée par rapport à une
entité y. Ce schème générique est instancié pour chaque cas concret de façon à préciser
comment le repérage est réalisé. Dans notre exemple où l’université est repérée par rapport à
Paris, l’instanciation est la suivante :
<L=ORNord(DET(LOC(Paris))) & Université REP IN(L)>
Cette représentation utilise des relateurs de repérage (ex : REP), des opérateurs (ex :
opérateur logique &, opérateur de détermination DET) et d’autres primitives sémantico-
cognitives, telles que les types sémantico-cognitifs des entités (section 3.2.1). Les opérateurs
et relateurs prennent comme arguments des schèmes et renvoient des schèmes. Ils peuvent
ainsi s’utiliser de façon imbriquée. Dans notre exemple, on utilise :
• LOC(x), opérateur qui spécifie qu’une entité x, dans le contexte de l’énoncé, est de
type sémantico-cognitif lieu ; elle peut donc servir à localiser une autre entité :
LOC(Paris)
• DET(x), opérateur qui détermine un point de vue sur une entité x, induisant le choix
d’un proforme précis, précédé d’un regard en un lieu donné : DET(LOC(Paris))
• OR(x), opérateur qui oriente une entité, ici il s’agit d’un lieu orienté selon le repère
absolu des points cardinaux. OR donne une orientation au proforme :
OR(DET(LOC(Paris))))
• IN(x), opérateur topologique faisant référence à l’intérieur d’une entité x de type
« lieu ». Ici, on fait référence à l’intérieur de l’espace induit par OR :
IN(OR(DET(LOC(Paris)))))
• x REP y, relateur indiquant que par rapport à une entité lieu y, l’entité x est repérée.
Cette application du relateur exprime l’ordre privilégié repère-repéré : Université
REP IN(L)
Dans un premier temps, un lieu L est défini de la manière suivante : L’entité Paris, est
typée comme étant un lieu (LOC(Paris)), dont on veut représenter la frontière, ce qui est
exprimer par l’utilisation du proforme ‘C’ à l’aide de l’opérateur DET (DET(LOC(Paris)). Le
L est déterminé comme étant un espace situé au Nord de cette frontière
ORNord(DET(LOC(Paris))). Dans un deuxième temps, l’université est repérée à l’intérieur de
ce lieu L à l’aide d’un pointage (Université REP IN(L)). Au final, cette description formelle
permet d’exprimer que l’entité « Université » est repérée dans un espace situé au nord de
l’entité « Paris ».
Ce niveau de détail permet de traiter des unités gestuelles complexes qui ne sont pas des
signes standards telles que l'unité gestuelle correspondant à la quatrième image de la figure
36, ou l’unité gestuelle illustrée figure 37, qui représente la relation spatiale « dans » entre
deux entités.
44/70
A. Braffort - « TALS » Juin 2008
45/70
A. Braffort - « TALS » Juin 2008
CHAPITRE 4 -
MISE EN ŒUVRE
46/70
A. Braffort - « TALS » Juin 2008
La toute première application, nommée ARGo, a été réalisée pendant ma thèse. Elle
comporte un système de reconnaissance et d'interprétation automatique de phrases de la LSF.
La technique de reconnaissance utilisée est basée sur les modèles de Markov cachés qui ont
permis l'obtention de très bons taux de reconnaissance sur les deux types de signes (96% pour
les signes figés et 92% pour les signes variables). L'évaluation a porté sur un corpus 3d
constitué de deux ensembles de 44 phrases différentes composées de quatre signes. Le
premier ensemble a été utilisé pour l'apprentissage et le deuxième, pour la reconnaissance.
Malgré les limitations de l’étude dues en partie au système de capture de gestes (un
unique gant numérique) et en partie à l'outil utilisé pour construire le système de
reconnaissance (adapté pour la reconnaissance de phénomènes uniquement temporels), le
système ARGo était à l’époque et reste encore très novateur dans le domaine de la
reconnaissance et compréhension de phrases de LS, car il permet de traiter à la fois des signes
standards, des proformes, des verbes directionnels et des pointages. Le graphe de
représentation de la scène de signation, visualisé par l'intermédiaire d’un scène virtuelle 3d
(figure 39), a été la première modélisation de ce type, à partir de laquelle les autres
modélisations ont été élaborées.
47/70
A. Braffort - « TALS » Juin 2008
Afin de drainer tous les efforts vers un même objectif d’intégration et d’évaluation, nous
mettons maintenant l’accent sur une unique application nommée GeneALS, dédiée à la
génération et à l’animation d’un signeur virtuel. L’architecture de la plate-forme est illustrée
figure 40.
La génération d’un énoncé (M1) est basée sur la modélisation de l’espace de signation
(K2) qui sert de fondement à la structuration de l’énoncé et sur l’utilisation d’une
base de connaissance (K1) comportant la description de structures spatio-temporelles
telles que celles présentées en section3.4. Le module M1 fait appel au module de
génération du lexique (M2).
48/70
A. Braffort - « TALS » Juin 2008
La gestion de la coarticulation entre ces animations fait l'objet d'une thèse qui vient de
débuter (J. Segouat). A terme, il permettra de jouer des animations calculées à partir de la
description formelle issue des modules de génération d’énoncé et de lexique, le tout en temps
réel.
49/70
A. Braffort - « TALS » Juin 2008
Figure 42: Affichage d'un message d'alerte en LSF dans la gare de l'Est.
Notre logiciel va maintenant être intégré et distribué par WebSourd à la SNCF afin
d’équiper les principales gares de France d’un système permettant de générer en temps réel
des messages d’alerte tels que ceux qui sont diffusés actuellement uniquement de manière
sonore. Ces messages vont comporter des énoncés fixes et des énoncés avec des parties
variables, tels que « Le train numéro 1234 en provenance de Strasbourg arrivera avec 10
minutes de retard voie 4 ».
Mes études sur la gestuelle coverbale ont débuté en même temps que celles sur la LSF,
car beaucoup de problématiques sont communes aux deux domaines et les modélisations
élaborées pour une langue purement gestuelle peuvent permettre d'envisager des modèles
pour la gestuelle coverbale, en tout cas sur les aspects communs, tels que l'iconicité et
l'utilisation de l'espace.
J’ai proposé des modèles d’interaction gestuelle en entrée dans un contexte d’interaction
multimodale, en milieux immersif et non immersif. Ils reprennent certains des modèles et des
méthodes développés pour la reconnaissance et l’interprétation automatique de la LSF, basé
sur l’utilisation de corpus. De ce fait ils sont conçus pour un vocabulaire gestuel qui se veut le
plus générique possible.
50/70
A. Braffort - « TALS » Juin 2008
concrète d’un espace de signation pour la LSF. Dans le cadre de la thèse de B. Bossard, nous
avons proposé des méthodes et représentations inspirées de celles conçues pour la LSF
concernant la reconnaissance automatique de gestes bimanuels [Bossard 06 ; Bossard
Convard Braffort et al. 04]. Par la suite, dans le cadre de la plate-forme ANR Perf-RV2
« L’humain virtuel au travail dans l’usine du futur », nous avons participé au sous-projet
« Interaction entre opérateurs humains et le monde virtuel ». J’y ai mené une étude sur le
vocabulaire gestuel dans le cadre d’une tâche industrielle chez un grand constructeur
automobile (figure 43) et nous y avons développé un module de reconnaissance de gestes
bimanuels dans l’environnement matériel et logiciel imposé par l’industriel.
Les modèles d'interaction gestuelle issus de nos travaux sur la LSF et mis en œuvre dans
le cadre de la réalité virtuelle sont maintenant employés génériquement dans différentes
applications de réalité virtuelle qui touchent divers domaines, allant de la visualisation
scientifique à des applications industrielles.
Ce chapitre a donné un aperçu de la nature des prototypes et des applications que l'on
développe à partir des modélisations. La nature de ces prototypes est amenée à s'étendre dans
les prochaines années.
51/70
A. Braffort - « TALS » Juin 2008
5.1 BILAN
En ce qui concerne les aspects fondamentaux, mes travaux se sont répartis sur deux axes
principaux : l’analyse de corpus de LSF et la modélisation de la LSF.
Certaines des méthodes mises en œuvre pour la LS ont pu être réexploitées dans le cadre
d'études dédiées à la gestuelle coverbale, comme dans le cas du projet de réalité virtuelle pour
la constitution de corpus de gestes.
52/70
A. Braffort - « TALS » Juin 2008
Les perspectives de mes recherches sont envisagées selon la même structuration que celle
présentée dans ce mémoire (figure 44) :
• elles sont centrées sur la modélisation informatique de la LSF,
• elles s'appuient sur des recherches sur les méthodologies d'annotation et sur l'analyse
de corpus,
• elles sont validées à travers des mises en œuvre.
Dans les prochaines années, l'aspect intégration des représentations sera accentué, de
façon à aboutir à terme à un système de génération automatique des énoncés. En parallèle, les
collaborations sur la gestuelle coverbale seront étendues au domaine des agents
conversationnels animés, dont le cadre applicatif concerne aussi la génération et l'animation.
Je détaille ci-dessous les projets prévus à court et moyen terme sur les thèmes des corpus
de LSF et de la modélisation de la LSF. J'y ajoute une section décrivant les premières
collaborations initiées avec les spécialistes des agents gestuels.
53/70
A. Braffort - « TALS » Juin 2008
Ce dictionnaire est bâti sur une base de données qui sera enrichie du modèle de
représentation des signes. Cela permettra, d’une part, d'effectuer des analyses linguistiques à
partir de ce dictionnaire et d'autre part, d'utiliser les descriptions dans des applications de
génération automatique de phrases, donc de signes en contexte.
54/70
A. Braffort - « TALS » Juin 2008
Concernant l’annotation des vidéos, j’envisage dans un premier temps d’évaluer des
méthodes permettant d’annoter des éléments visuels sur la vidéo (coins des yeux, de la
bouche…) semi-automatiquement grâce à des méthodes développées par une équipe
spécialiste en traitement d’image sur la LSF de l’IRIT [Mercier 07]. Ce travail va être initié
sur les aspects non manuels de la LSF tels que les mouvements des sourcils et les clignements
des yeux, dans le cadre de la thèse d’E. Chételat-Pelé et pourrait s’étendre à l’ensemble du
corps par la suite.
55/70
A. Braffort - « TALS » Juin 2008
Nous avions initié dans le cadre du projet LS-COLIN une collaboration avec l’équipe de
P. Dalle dans le but de développer un logiciel d’annotation complet (figure 47), qui permettra
à terme d’inclure de tels modules d’annotation 3d, ainsi que des modules de traitement
d’image [Braffort Choisier Collet et al. 01 ; Braffort Choisier Collet et al. 04].
A plus long terme, l'objectif est de poursuivre la conception d'un logiciel qui intègre à la
fois :
• les possibilités de structuration des données des bases de données,
• les fonctionnalités des logiciels d’annotation ainsi que des outils permettant
d'employer les méthodes que nous avons conçues,
• un système de génération automatique permettant de piloter le signeur virtuel à partir
de l’annotation, tel que cela est proposé dans les logiciels ILex et eSign [Hanke 04],
• et enfin des modules dédiés à des traitements spécifiques tels que l’annotation
d’informations spatiales et le traitement d’image.
Il sera alors l’outil idéal du chercheur sur la LSF, permettant à la fois l’analyse fine de
corpus, l’élaboration de représentations ou du moins de structurations, ainsi que l’évaluation,
au moyen du signeur virtuel.
56/70
A. Braffort - « TALS » Juin 2008
Une autre perspective de ce travail à plus long terme concerne l’écriture de la LSF. Nous
avons participé à un projet pluridisciplinaire sur le sujet : le projet LS-Script [Garcia Aznar
Bolot et al 07] (figure 48). L’objectif était l’élaboration des bases d’une écriture de la LSF.
Une des questions est de déterminer ce qui est « essentiel » à un signe par opposition à ce qui
pourrait être qualifié de « périphérique ». Notre modèle se montre un candidat idéal pour
nourrir les réflexions sur les possibles formes écrites des langues des signes.
En ce qui concerne les énoncés, à ce jour les implémentations réalisées n’ont permis de
valider que certaines propriétés des modèles. L’évaluation de la modélisation dans son
ensemble (espace de signation, lexique, énoncés) reste à faire. L'objectif est de mener cette
évaluation dans le cadre de la plate-forme de génération automatique d’énoncés que nous
sommes en train de mettre en place dans l’équipe (GeneALS). Cela va m’amener à lancer de
nouveaux thèmes de recherche dans le domaine de l’informatique graphique, sur la
cinématique inverse et sur l’animation du visage.
57/70
A. Braffort - « TALS » Juin 2008
A plus long terme, il faudra prendre en compte les phénomènes liés à l’empilement de
scènes que l’on observe lors des transferts personnels, ou lors des effets de zoom, des
apparitions, réactivations ou disparitions d'entités. Mais une entité peut aussi être réactivée
dans le discours. Sur ces derniers aspects, une modélisation de ces empilements de scènes et
de leur gestion doit donc être prévue. Cette modélisation permettra alors de s'intéresser aux
discours en LS.
Enfin, une fois l’ensemble de ces processus mis en œuvre, intégrés et évalués, nous
pourrons nous attacher à étendre la modélisation à d’autres structures spatio-temporelles
intervenant en grande iconicité, puis ensuite à aborder la problématique du passage d’une
langue vocale à une langue des signes.
Une première collaboration a débuté sur ce thème avec des collègues du LIMSI (Jean-
Paul Sansonnet et Jean-Claude Martin). L'objectif est de doter le site web du laboratoire d'un
humain virtuel ayant des capacités communicatives et dialogiques avec l'utilisateur. Nous
nous intéressons pour notre part aux capacités gestuelles de l'agent.
Nous avons commencé par étudier les gestes de désignation (gestes déictiques) produits
par des locuteurs sourds et entendants, dans le cadre d'un scénario en lien avec une des pages
web du site du LIMSI. Les premiers résultats ont montré que pour les déictiques simples, la
structure des gestes est la même (figure 49), tandis que pour des déictiques complexes, on
observe des formes plus sophistiquées en LSF que dans la gestuelle coverbale.
58/70
A. Braffort - « TALS » Juin 2008
La figure 50 montre des réalisations en gestuelle coverbale, puis en LSF, pour une étape
du scénario qui nécessitait de désigner une collection d'objets. Dans le cas de la LSF, la main
dominée a réalisé un proforme permettant de rappeler que cette collection d'objets étaient
regroupées au sein d'une seule entité.
59/70
A. Braffort - « TALS » Juin 2008
Nous allons étendre cette étude à d'autres scénarios en observant plus de sujets, afin de
déterminer plus précisément les points communs et les différences. Nous pourrons ensuite en
déduire une représentation formelle des gestes déictiques dans ce contexte applicatif.
Cette collaboration nous a incité à envisager une application basée sur cette technologie
dans le cadre de la LSF. Nous envisageons d'étudier la mise en accessibilité de site web par
l'ajout d'animations en LSF afin d'apporter une traduction ou une explication de certaines
informations disponibles uniquement en français écrit sur le site web du LIMSI [Segouat
Braffort Bolot et al. 08 ; Segouat Braffort Choisier et al. 08]. La figure suivante illustre
l'expérimentation en cours sur le site web du LIMSI (figure 51).
60/70
A. Braffort - « TALS » Juin 2008
RÉFÉRENCES
[Allen 83]
Allen J., «Maintening knowledge about temporal intervals». Dans : Communications of
the ACM, Vol. 26, 1983.
[Belaïd & Belaïd 92]
Belaïd A. & Belaid Y., "Reconnaissance des formes : Méthodes et applications",
InterEditions 1992.
[Bolot Braffort & Filhol 06]
Bolot L., Braffort A. & Filhol M., « Elsi Balbutie ! Vers une plate-forme d’animation
d’avatar signant ». Dans : 2ème Workshop Francophone sur les Agents Conversationnels
Animés 2006 (WACA'06).
[Bossard 06]
Bossard B., «Conception d'un système de reconnaissance de gestes bimanuels :
application à la réalité virtuelle et à la langue des signes». Thèse de doctorat en
informatique de l'Université Paris Sud Orsay 2006.
[Bossard Braffort & Jardino 04]
Bossard B. Braffort A. & Jardino. M. «Some Issues in Sign Language Processing».
Dans : «Gesture-Based Communication in Human-Computer Interaction», selected
revised papers of the 5th International Gesture Workshop (GW’03), LNCS LNAI vol
2915, A. Camurri & G. Volpe (Eds.), Springer (Pub.) 2004.
[Bossard Convard Braffort et al. 04]
Bossard B., Convard T., Braffort A, Touraine D., Bourdot P. & Jardino M., « Un système
de reconnaissance de gestes pour la Réalité Virtuelle ». Dans : 14ème congrès
francophone AFRIF-AFIA Reconnaissance des Formes et Intelligence Artificielle 2004
(RFIA 2004).
[Braffort 96a]
Braffort A., «A gesture recognition architecture for sign language». Dans : 2nd
International ACM Conference on Assistive Technologies 1996 (ACM ASSETS’96).
[Braffort 96b]
Braffort A., «Reconnaissance et compréhension de gestes, application à la langue des
signes».Thèse de doctorat en informatique de l'Université Paris Sud Orsay 1996.
[Braffort 97a]
Braffort A., «ARGo: An architecture for sign language recognition and interpretation».
Dans : «Progress in Gestural Interaction», P. Harling and A. Edwards (Eds.), Springer
(Pub.) 1997.
[Braffort 97b]
Braffort A., «A Computer System Dedicated to Sign Language». Dans : Conference of
the International Ergonomics Association 1997 (IEA’97).
[Braffort 97c]
Braffort A., « ARGo : un système de reconnaissance et de compréhension de la Langue
des Signes Française ». Dans : conférence francophone Interfaces 1997.
61/70
A. Braffort - « TALS » Juin 2008
[Braffort 98]
Braffort A., « Traitement automatique des Langues des Signes : Interprétation des
informations spatiales ». Dans : revue d’Interaction Homme Machine, vol1 n°1, Europia
1998.
[Braffort 02]
Braffort A., «Research on Computer Science and Sign Language: Ethical Aspects».
Dans : «Gesture and Sign Language in Human-Computer Interaction», LNCS LNAI
2298, I. Wachsmuth & T. Sowa (Eds.), Springer (Pub.) 2002.
[Braffort 04]
Braffort A., «Corpora for sign language studies». Conférence invitée dans : workshop on
Multimodal Corpora, 4th International Conference on Language Resources and
Evaluation 2004 (LREC 2004).
[Braffort 05]
Braffort A. Edition des actes de l’atelier « Traitement Automatique de la Langue des
Signes » de la conférence « Traitement automatique des Langues Naturelles » 2005
(TALS/TALN 2005), Tome 2 « Ateliers & Tutoriels ».
[Braffort 06]
Braffort A., «Articulatory Analysis of the Manual Parameters of the French Sign
Language Conventional Signs». Dans : 2nd Workshop on the «Representation and
Processing of Sign Languages: lexicographic matters and didactic scenarios» of the
5th International Conference on Language Resources and Evaluation 2006 (LREC 2006).
[Braffort 07]
Braffort A., « La langue des signes et avatars signants ». Conférence invitée à la journée
de travail du Groupe de Travail sur les Agents Conversationnels Animés (GT ACA) sur
le thème « ACA et Geste », 2007.
[Braffort 07]
Braffort A., «Sign Language Processing: Modelling of spatio-temporal constraints».
Conférence invitée dans : 4th International Workshop on Constraints and Language
Processing 2007 (CSLP@Context07).
[Braffort Bossard Segouat et al 05]
Braffort A., B. Bossard, J. Segouat, Bolot L. & Lejeune F., « Modélisation des relations
spatiales en langue des signes française ». Dans : atelier « Traitement Automatique de la
Langue des Signes » de la conférence « Traitement automatique des Langues Naturelles »
2005 (TALS/TALN 2005), Tome 2 « Ateliers & Tutoriels ».
[Braffort Choisier Collet et al.03]
Braffort A., Choisier A, Collet C. et Lejeune F., «Presentation of three French Sign
Language Corpora», 5th International Gesture Workshop 2003 (GW’03).
[Braffort Choisier Collet et al. 04]
Braffort A., Choisier A., Collet C., Dalle P., Gianni F., Lenseigne B. et Segouat J.,
«Toward an annotation software for video of Sign Language, including image processing
tools and signing space modelling». Dans : 4th International Conference on Language
Resources and Evaluation 2004 (LREC 2004).
62/70
A. Braffort - « TALS » Juin 2008
63/70
A. Braffort - « TALS » Juin 2008
64/70
A. Braffort - « TALS » Juin 2008
65/70
A. Braffort - « TALS » Juin 2008
66/70
A. Braffort - « TALS » Juin 2008
67/70
A. Braffort - « TALS » Juin 2008
[Kipp 04]
Kipp M., «Gesture Generation by Imitation - From Human Behavior to Computer
Character Animation», PhD Thesis, Saarland University, December 2003.
[Lebourque & Gibet 99]
Lebourque T. & Gibet S., «A complete system for the specification and the generation of
sign language gestures». Dans : «Gesture-Based Communication in Human-Computer
Interaction», LNCS/LNAI 1739, A. Braffort, R. Gherbi et al. (Eds.), Springer (Pub.),
1999.
[Lejeune 04]
Lejeune F., «Analyse sémantico-cognitive d'énoncés en Langue des Signes Française
pour une génération automatique de séquences gestuelles». Thèse de doctorat en
informatique de l'Université Paris Sud Orsay 2004.
[Lejeune, Braffort & Desclés 01]
Lejeune F., Braffort A., & Desclés J-P. « Analyse sémantico-cognitive de quelques
structures en Langue des Signes Française ». Dans : Conférence Oralité et gestualité 2001
(Orage 2001).
[Lejeune & Braffort 04]
Lejeune F., Braffort A., «Traces des opérations langagières et des représentations
sémantico-cognitives dans la forme verbale en LSF». Dans : Silexicales n°4, Université
Lille3, 2004.
[Lejeune & Risler 04]
Lejeune F., Risler A., «Study on Semantic Representations of French Sign Language
Sentences». Dans : «Gesture and Sign Language in Human-Computer Interaction, LNCS
LNAI 2298, I. Wachsmuth & T. Sowa (Eds.), Springer (Pub.) 2002.
[Lenseigne 04]
Lenseigne B., «Intégration de connaissances linguistiques dans un système de vision,
application à l'étude de la Langue des Signes». Thèse de doctorat en informatique de
l'Université Paul Sabatier 2004.
[Lenseigne & Dalle 05]
Lenseigne B. & Dalle P., «Using Signing Space as a Representation for Sign Language
Processing». Dans : «Gesture in Human-Computer Interaction and Simulation»,
LNCS/LNAI 388, S. Gibet, N. Courty & J.-F. Kamp (Eds.), Springer (Pub.), 2006.
[Liddell & Johnson 89]
Liddell S. & Johnson R., «American Sign Language: the phonological base». Dans : Sign
Language Studies, vol. 64, 1989.
[Liddell 00]
Liddell S. «Blended spaces and deixis in sign language discourse». Dans : «Language and
gesture». David McNeill (ed.), Cambridge University Press, 2000.
[Losson 00]
Losson O. Modélisation du geste communicatif et réalisation d’un signeur virtuel de
phrases en langue des signes française. Thèse de doctorat en informatique de l'Université
de Lille1, 2000.
68/70
A. Braffort - « TALS » Juin 2008
69/70
A. Braffort - « TALS » Juin 2008
70/70