1. L’interaction verbale
Presque implicitement, dès qu’on évoque la communication entre personnes
humaines (disposant de la parole), on pense à la communication verbale ;
celle-ci sous-tend une communication de type langagier. La communication
verbale est une forme d’interaction qui engage : on achète, on promet, on
passe un contrat, etc. Pourtant il y a de nombreuses autres formes
d’interaction entre l’homme et son environnement : l’humain ne semble
marquer une préférence pour le langage que lorsqu’il communique avec son
semblable (parfois aussi avec certains animaux domestiques). Par la langue il
construit des ordres, transmet des informations, formule des raisonnements,
coordonne ses actions et rythme ses efforts (chants de marin par exemple). Il
dispose par ailleurs de plusieurs modalités sensorielles qu’il utilise de manière
redondante ou complémentaire avec la parole. La multimodalité, naturelle chez
l’homme, semble donc être au service d’un langage plutôt que du langage. Ce
“langage” est un ensemble de moyens mis au service de l’action.
Cette vision des choses semble assez claire lorsqu’il s’agit d’individus qui
agissent de concert. Mais dans le domaine de l’interaction homme machine,
les choses restent encore très ambiguës : faut-il que la machine soit un
assistant dans la tâche ? Si tel est le cas, la machine — pseudo interlocuteur
humain — serait assujettie à comprendre à la fois les buts de l’utilisateur et
l’intelligence de la situation pour participer et collaborer au mieux à l’action…
Le postulat implicite que le dialogue est une activité rationnelle entretient
l’espoir que la machine peut la simuler utilement : le dialogue s’appuierait alors
sur des principes logiques et ne se distinguerait pas du raisonnement rationnel
ni des autres activités humaines planifiables ; il y aurait des buts à atteindre,
une activité à planifier selon des contraintes données par la situation, des
connaissances à utiliser et des données à manipuler. Le dialogue ne serait
alors qu’une forme d’interaction permettant à une personne d’utiliser la
machine comme participant à son propre plan (faire-faire ou faire-savoir) en
vue d’un certain but. Il est de fait que la machine offrirait peut-être moins de
résistance qu’un interlocuteur humain (à condition toutefois que son niveau de
compréhension soit suffisant pour ne pas obliger à répéter trop souvent…).
Mais en est-il réellement ainsi ?
Il est clair qu’il n’y a aucun intérêt à vouloir convaincre, influencer, apitoyer,
etc. une machine. Il y aura toujours une limite perlocutoire1 au dialogue homme
machine (DHM) : "haut les mains" sera toujours un acte sans effet pour une
machine, aussi bien que "les femmes et les enfants d’abord". Il n’y aura guère
d’intérêt non plus à utiliser les actes indirects ou les actes expressifs. Si donc le
DHM peut offrir une situation artificielle de dialogue, ce sera toujours un
dialogue à fonction purement illocutoire — c’est-à-dire à vocation actionnelle.
L'éthnométhodologie
Goffman [Goffman, 1981] va plus loin, il introduit les notions de rituel et de face
: l’interaction sociale est guidée par le souci de ne pas “perdre la face”. La
notion de face renvoie à celles de rôle, de statut, c’est-à-dire de la position d’où
on parle et que l’on doit conserver — car “en parlant on construit une image de
soi”. Ainsi au-delà des tours de parole et des paires adjacentes, y a-t-il d’autres
mécanismes de régulation comme la mise en scène des places de laquelle on
attend des “retours” comme l’acquiescement (Mmm…), la surprise (ah oui ?…),
les marques de sympathie, le rire, etc.
Jusqu'en (c) on peut représenter tout acte de langage par F(p), p = contenu
propositionnel et F=force illocutoire, (ex. : "je te promets que je viendrai", F
marquée par "je te promets", force promissive, et p marqué par "je viendrai").
Vanderveken [Vanderveken, 88] a formalisé une logique illocutoire du discours,
essentiellement monologique, poursuivant ainsi les travaux de Searle.
Acte assertif
Acte directif
Le but illocutoire est de mettre l'interlocuteur (qui est ici le locuteur lui-même)
dans l'obligation de réaliser une action future. Le locuteur essaie de faire faire
les choses. Le but est de rendre le monde conforme au contenu propositionnel
(qui contient l'action future de l'interlocuteur). L'acte directif exprime les désirs
et la volonté du locuteur. Les scripts contenant les verbes modaux (vouloir,
pouvoir, devoir, falloir) et l'expression du futur au moyen du verbe "aller" sont
étiquetés "directif".
- ordre, autorisation, invitation,
- conseil, suggestion, avertissement, défi,
- question, interrogation, demande d'information, de précision, de
confirmation, requête,
- réitération, relance, insistance, supplication
Acte promissif
Acte expressif
Le but illocutoire de l'acte expressif est d'exprimer l'état psychologique qui lui
est associé. La direction d'ajustement n'est pas de rendre le monde conforme
aux mots ou vice versa. La proposition exprimée est présupposée : on se
réjouit ou on déplore qu'elle soit vraie.
- expression d'un souhait,
- remerciement, excuse, salutation,
- hypothèse, spéculation, présupposition, anticipation,
- satisfaction, félicitations,
- hésitation, résignation, étonnement, déception, plainte, menace,
- juron, insulte
Acte déclaratif
Parmi les théories les plus fécondes pour la communication par le langage,
nous retiendrons les approches de Grice puis celles de Sperber et Wilson.
(a) Pour Grice [Grice, 75], un échange dialogique suit une logique fondée sur
un principe général de coopérativité ; les interlocuteurs reconnaissent chez
leurs partenaires participant à un échange, un ou plusieurs buts communs
dans une direction acceptée par tous, ce que Grice formule sous forme de
maximes à l’intention des conversants eux-mêmes (à la manière des
classiques français, La Rochefoucault notamment) : “que votre contribution à la
conversation soit, au moment où elle intervient, telle que le requiert l’objectif ou
la direction de l’échange verbal dans lequel vous êtes engagés”. Il exprime plus
précisément cette maxime à l’aide de deux autres et définit la notion
d’implicature comme l’ensemble des conséquences de l’application ou de la
non application de ces maximes par les conversants.
La maxime de qualité peut sembler limitative voire même quelque peu naïve
car elle semble exclure l’ironie, le mensonge ou la dissimulation. En réalité il
n’en est rien parce que précisément, une règle violée a autant d’implications
qu’une règle respectée par le fait qu’il y a eu à moment donné un besoin de la
transgresser. Ainsi pour Grice, l’ironie fonctionne parfaitement sous ce principe
car elle est intentionnellement codée par l’intonation de la voix ou des gestes
significatifs. De même le mensonge finit par se détecter parce qu’à un moment
donné du dialogue le menteur va manquer de preuves et va donc se découvrir
aux yeux des autres. Ce qui montre bien que le mensonge est une des
implicatures de la maxime “n’affirmez pas ce pour quoi vous manquez de
preuves”.
Enfin, Grice complète ses maximes sur le contenu (quoi dire) par des maximes
de modalité, c’est-à-dire sur le comment dire: “soyez clair”, “soyez bref”, “soyez
méthodique”, “évitez d’être ambigu”, qui visent à une meilleure efficacité du
dialogue.
Par le terme implicature, Grice veut distinguer certaines conclusions que l’on
peut tirer des énoncés, des véritables implications logiques. En effet les
implicatures sont fondées sur l’usage du langage d’une part et prennent en
compte les non dits, implicites, ellipses, etc., d’autre part. Le calcul des
implicatures ne devient donc possible qu’en appliquant les maximes, par
exemple “j’ai faim” suggère que d’une part ce fait est vrai et d’autre part que je
réclame à manger.
La linguistique
Les phases du dialogue que retient l'école de Genève sont les suivantes :
l'ouverture (initiative, évaluative, réactive), la continuation (initiative, évaluative,
réactive), la clôture (initiative, évaluative, réactive), l'incidence (abandon
temporaire d'une activité en cours de réalisation pour la reprendre par la suite)
et la rupture (abandon définitif d'une activité en cours de réalisation). Un
dialogue commence par une ouverture et s'achève par une clôture. La phase
non marquée est la continuation à caractère initiatif.
L’intelligence artificielle
Certains …
Il reste toutefois un pas décisif à faire : celui de concevoir les relations entre
les actes, non plus de parole, mais de dialogue, considérés comme éléments
de pratiques effectives d’échanges verbaux répondant à une finalité non
verbale. C’est là que l’étude du dialogue homme machine peut s’avérer d’une
grande utilité. La simulation informatique de dialogues finalisés, orientés par la
tâche, requiert une analyse à la fois trans et interactionnelle de tout acte de
dialogue.
La dimension transactionnelle :
Par ce terme on désigne les relations complexes qui lient l’acte de dialogue
comme pratique langagière aux activités non langagières dans lesquelles il
s’inscrit.
La dimension interactionnelle :
Fournir une compétence dialogique à une machine revient ainsi – entre autres
– à la doter d’un modèle dynamique de dialogue capable de traiter en temps
réel les stratégies d’échange d’information. Il convient alors d’interpréter l’acte
de dialogue selon sa fonction dialogique. Une assertion telle : ”je dois être à
Clermont-Ferrand à 14h ?” sera immédiatement interprétée par la machine
comme une demande d’information : ”Quelle est l’heure du train me
conduisant à Clermont-Ferrand pour 14h ? “ La même assertion répétée en
écho en deux moments différents du dialogue devra prendre une valeur
dialogique différente dans la mesure où elle manifeste une incompréhension,
etc. Dans une telle problématique, un des enjeux majeurs porte sur la capacité
à prévoir la réaction de l’allocutaire. Chez Austin, la dimension perlocutoire
des actes de parole n’était pas thématisée dans la mesure où elle semblait
échapper à toute conventionnalité. Dans le cas des actes de dialogue, il est
possible d’aller plus loin et de restaurer une certaine régularité des échanges
en prenant en compte les contraintes de l'interlocution telles qu’elles sont
définies par le modèle dialogique utilisé. Ainsi, selon qu’elle intervient au début
ou au terme d’un échange, une assertion telle que “Le train part à 7h 30”
pourra donner lieu soit à une demande de précision ouvrant une nouvelle
interaction, soit à un acquiescement clôturant l’échange.
Il faut donc définir une sémiotique claire et non ambiguë de l’interface pour
offrir un cadre fécond à la communication homme machine. Il est évident que
les capacités limitées de la machine ne peuvent conduire à une sémiotique
générale, puisqu’il serait nécessaire que la machine soit un système non
seulement intelligent mais aussi social (inséré dans le monde). Les
performances de la machine en reconnaissance de la parole, reconnaissance
du geste, vision par ordinateur, etc., semblent intéressantes a priori bien
qu’encore limitées ; en utilisant ces nouveaux médias on peut escompter ainsi
améliorer l’efficacité de l’interaction (entrées de plusieurs commandes
simultanément), sa fiabilité (utilisation de la redondance), sa souplesse (choix
des modes de communication les mieux adaptés à la tâche), en un mot son
ergonomie. Il faut cependant prendre garde au rôle dissymétrique que joue la
machine dans la communication avec un humain et du biais que l’on peut
introduire par une sémiotique mal définie : l’utilisateur, face à la machine, doit
suppléer le manque de naturel, les limitations de compréhension, se contrôler
dans ses productions langagières, inférer les réactions de la machine, adapter
son comportement, etc. En fin de compte, l’attrait des interfaces vocales
pourrait se retourner contre elles si le concepteur complique inutilement les
schémas de planification et les modèles de représentation de la tâche en
machine.
Vis-à-vis de l’humain la machine est (et doit rester) un outil qui doit être le plus
ergonomique possible, c’est-à-dire adapté et efficace : tout en reconnaissant
que l’utilisateur garde ses habitudes linguistiques face à la machine, le
dialogue homme machine ne peut pas être un artefact de la communication
humaine. Le DHM n’a semble-t-il, d’utilité que dans un cadre opératoire, c’est-
à-dire pour effectuer des tâches coordonnées (résoudre des problèmes,
renseigner, aider à la conception, assister l’enseignement, etc.). La
communication se situe donc dans une relation opérateur-tâche où la machine
à un rôle collaboratif [Falzon, 92]. Elle doit par conséquent avoir des capacités
qui lui permettent de coordonner les processus actionnels en fonction des buts
de l’usager. Cette relation opérateur-tâche place le dialogue homme machine
dans un cadre actionnel. A travers et par le dialogue la machine doit également
apprendre de nouvelles actions ou optimiser son comportement face à de
nouvelles situations. Pour cela elle doit pouvoir inférer et gérer les buts de
l’utilisateur, reconnaître ses actes de langage, être capable de les interpréter
en fonction de la situation pour finalement générer et effectuer l’action ou le
plan d’action le plus adéquat.
perlocutoire
Destinateur Destinataire
Effets et suites
locutoire illocutoire
Contenu
propositionnel Force et But
Langue Monde
Ce cadre représente les éléments qui entrent en jeu à chaque tour de parole.
C’est à dire aussi bien les relations qui interviennent entre le locuteur (ou
destinateur) et l’allocutaire (ou destinataire), leur connaissance respective du
langage que les rapports qu’ils peuvent avoir au monde. Ce cadre permet
également de voir les différences entre dialogue humain et dialogue homme
machine : l’abandon éventuel de la composante perlocutoire dans les actes de
dialogue et une simplification des formes langagières.
Dans le cas du DHM les aspects intersubjectifs peuvent être négligés encore
qu’en génération des énoncés par la machine, les utilisateurs sont très
exigeants (expressions complexes, intonation naturelle et variée, etc.). Nous
posons cependant comme hypothèse de travail, même en DHM, que chacun
des éléments, ainsi que les relations qu’ils entretiennent se projettent dans la
langue au niveau de l’énoncé. Et inversement, que les énoncés véhiculent ces
éléments que l’allocutaire (ou la machine) saura reconnaître et interpréter.
ε++ ε+ ε ε− ε−−
Demandes Offres
A(t)
α(t)
t = to
Fig. 2 : Modèle projectif du dialogue [Vernant, 92]. Dans le cas d’un dialogue réussi, la
convergence du dialogue au cours du temps est conduite par le but à atteindre. Ce schéma –
qui représente un Echange – montre les axes convergents (Demandes, Offres) et les axes
divergents (Mises en question, Mises en cause, Répliques et Requêtes) du dialogue.
« Le langage est propre à chaque locuteur mais le sens se négocie », c’est une
évidence, mais disons plutôt que chaque locuteur s’approprie un langage. Ce
langage suit les structures syntaxiques admises par tous (sous peine de se voir
corrigé en permanence par son entourage) mais ne partage pas forcément
exactement le même sens. Le sens général d’un mot s’affine en cours du
dialogue, se négocie entre les interlocuteurs. Voici un exemple tiré de [Luzzatti,
95] :
D : Pouvez-vous me donner l’adresse d’un taxidermiste ?
R : Comment ? Qu’est-ce qu’un taxidermiste ?
D : C’est un empailleur d’animaux.
R : Ah d’accord ! Non, je ne connais pas de taxidermiste…
Ceci étant, nous ne voulons pas considérer pour autant le langage naturel
comme une sorte de super-langage de programmation : cette approche
reviendrait aussi à doter la machine de capacités de produire de nouvelles
actions mais le dialogue se réduirait à une entrée interactive de programmes et
de sous-programmes. Il nous semble que dans ce cas, le dialogue serait guidé
par la structure de ce « super-langage de programmation » et perdrait de sa
spontanéité (il adopterait celle des langages structurés ou des langages à
objets). Il ne s’agit donc pas de cela ici, mais si l’on reste dans le cadre de la
métaphore informatique, il s’agirait plutôt d’une sorte de programmation
interactive par l’exemple.
La génération d'énoncés
Dans les deux cas les limites de ces solutions sont évidentes : l’adéquation des
réponses de la machine vis-à-vis des interventions de l’utilisateur peut-être
contestable d’une part et les échanges peuvent paraître très artificiels d’autre
part. En effet on ne dialogue pas comme on lit, on ne dialogue pas non plus
comme on écrit : les formes linguistiques sont différentes (au niveau syntaxique
et au niveau prosodique, mais aussi par un emploi plus fréquent d’ellipses, de
formes emphatiques, etc.), et surtout ces formes véhiculent une composante
perlocutoire évidente. Plus que la recherche du naturel qui n’est peut-être pas
une fin en soi, il faut viser l’intelligibilité et l’adéquation ou la justesse d’une
réponse qui procède de sa pertinence ; on sait également qu’une réponse peu
pertinente n’est pas compréhensible. Au niveau des interfaces homme
machine actuelles il y a donc nécessité de contrôler cette pertinence pour deux
raisons :
(a) pour diminuer le coût cognitif de l’utilisateur (avec des retombées
évidentes sur la performance d’exécution de la tâche, la diminution de la
fatigue, etc.) et,
(b) pour respecter le principe ergonomique d’observabilité qui stipule que
l’utilisateur doit avoir une conscience claire des véritables capacités de la
machine.
engendrerait :
si f = expressif “j’aimerais que tu viennes”
si f = insistance “j’aimerais que tu viennes vite”
si f = indirect “peux-tu venir ?”
si f = directif “viens”
si f = ordre “je t’ordonne de venir tout de suite”
4. Synthèse
Le programme de recherche du dialogue homme machine est plus ambitieux
que celui de l’interaction verbale. Pour le premier c’est considérer que la
machine (plus exactement l’ordinateur) peut être un assistant dans la tâche
c’est-à-dire qu’elle a des compétences langagières et qu’elle coopère à la
tâche. Pour le second, c’est considérer que le couple humain-machine est
plongé dans l’action et interagissent au moyen de la langue. La différence se
mesure donc dans le rapport du sujet à la langue : l’assistant-machine est dans
un cas suffisamment évolué pour mettre ses compétences linguistiques au
service de la collaboration, tandis que dans l’autre cas il reste centré sur
l’interaction à propos de laquelle il utilise des compétences langagières.