Annale Du Lamsade N°8 - Mai, 2007

Laboratoire dAnalyse et Modlisation de Systmes pour lAide la Dcision UMR CNRS 7024
ANNALES DU LAMSADE N8 Mai 2007

Modles formels de linteraction MFI07 Actes des Quatrimes Journes Francophones
Numro publi grce au Bonus Qualit Recherche accord par lUniversit Paris IX - Dauphine
Responsables de la collection : Vangelis PASCHOS, Bernard ROY Comit de Rdaction : Cristina BAZGAN, Marie-Jos BLIN, Denis BOUYSSOU, Albert DAVID, Marie-Hlne HUGONNARD-ROCHE, Eric JACQUETLAGRZE, Patrice MOREAUX, Pierre TOLLA, Alexis TSOUKIS.
Pour se procurer louvrage, contactez Mme D. Franois (secrtariat de rdaction) tl. 01 44 05 42 87 e-mail : francois@lamsade.dauphine.fr
COLLECTION CAHIERS, DOCUMENTS ET NOTES DU LAMSADE La collection Cahiers, Documents et Notes du LAMSADE publie, en anglais ou en franais, des travaux effectus par les chercheurs du laboratoire ventuellement en collaboration avec des chercheurs externes. Ces textes peuvent ensuite tre soumis pour publication dans des revues internationales. Si un texte publi dans la collection a fait l'objet d'une communication un congrs, ceci doit tre alors mentionn. La collection est anime par un comit de rdaction. Toute proposition de cahier de recherche est soumise au comit de rdaction qui la transmet des relecteurs anonymes. Les documents et notes de recherche sont galement transmis au comit de rdaction, mais ils sont publis sans relecture. Pour toute publication dans la collection, les opinions mises n'engagent que les auteurs de la publication. Depuis mars 2002, les cahiers, documents et notes de recherche sont en ligne. Les numros antrieurs mars 2002 peuvent tre consults la Bibliothque du LAMSADE ou tre demands directement leurs auteurs. Deux ditions papier par an, intitules Annales du LAMSADE sont prvues. Elles peuvent tre thmatiques ou reprsentatives de travaux rcents effectus au laboratoire.
COLLECTION "CAHIERS, DOCUMENTS ET NOTES" OF LAMSADE The collection Cahiers, Documents et Notes of LAMSADE publishes, in English or in French, research works performed by the Laboratory research staff, possibly in collaboration with external researchers. Such papers can (and we encourage to) be submitted for publication in international scientific journals. In the case one of the texts submitted to the collection has already been presented in a conference, it has to be mentioned. The collection is coordinated by an editorial board. Any submission to be published as cahier of LAMSADE, is sent to the editorial board and is refereed by one or two anonymous referees. The notes and documents are also submitted to the editorial board, but they are published without refereeing process. For any publication in the collection, the authors are the unique responsible for the opinions expressed. Since March 2002, the collection is on-line. Old volumes (before March 2002) can be found at the LAMSADE library or can be asked directly to the authors. Two paper volumes, called Annals of LAMSADE are planned per year. They can be thematic or representative of the research recently performed in the laboratory.
Prface
Linteractivit est une tendance majeure des systmes informatiques actuels et un champ de recherche important. Elle se dcline sous plusieurs aspects : interaction entre un systme et son environnement ; interaction entre utilisateurs et systmes informatiques ; interaction entre entits informatiques autonomes (agents) interconnectes sur un rseau local ou sur la toile, en vue de cooprer, de concourir ou tout simplement de coexister ; sans oublier lintgration de ces deux aspects dans les divers agents conversationnels, agents de recherche, assistants personnels, etc. Ces tendances sont lorigine dun besoin croissant de modles formels de linteraction, intgrant les rgles, normes et protocoles divers, ainsi que les connaissances spcifiques des agents (en particulier sur les autres agents - humains ou artificiels - et leurs comportements). Ces modles doivent permettre de concevoir, spcifier, valider et contrler de tels agents coopratifs et communicationnels. Le but des Journes Francophones sur les Modles Formels de lInteraction (MFI) est de rassembler des chercheurs de diffrentes communauts scientifiques (informatique, conomie, psychologie cognitive, linguistique, sociologie, etc.) ayant en commun la volont de formaliser tel ou tel aspect de linteraction entre agents artificiels et/ou humains. Plus que jamais, les journes se veulent un point de rencontre entre les chercheurs de toutes les disciplines oeuvrant dans le domaine. MFI07 est la quatrime dition des Journes. Aprs Toulouse (2001), Lille (2003) et Caen (2005), ldition de 2007 a lieu Paris. Les actes sont publis dans la srie des Annales du LAMSADE. Le programme de MFI07 est compos de quatre exposs invits et de 39 prsentations (20 longues et 19 courtes) slectionnes parmi 50 soumissions. Chaque article a t valu par trois relecteurs (voire quatre). Les communications acceptes proviennent en majorit de laboratoires franais, mais aussi de laboratoires britanniques, canadiens, chypriotes, italiens, nerlandais et no-zlandais. Les affiliations des auteurs refltent laspect pluridisciplinaire des Journes : on y trouve des chercheurs en informatique (en particulier en intelligence artificielle, systmes multi-agents et interaction homme-machine), en conomie mathmatique, en psychologie cognitive, en logique et en linguistique.
III
Prface Nous avons la chance cette anne daccueillir quatre confrenciers invits de renomme internationale : Jean-Pierre Benot, Professeur dEconomie la London Business School ; Robert Demolombe, Chercheur associ lInstitut de Recherche en Informatique de Toulouse ; Boi Faltings, Professeur 1Ecole Polytechnique Fdrale de Lausanne ; et Wiebe van der Hoek, Professeur lUniversit de Liverpool. Enfin, nous tenons remercier toutes les personnes qui ont contribu au succs de MFI07 : le comit de programme, ainsi que les relecteurs supplmentaires, qui ont fait un excellent travail dvaluation des articles; le comit dorganisation, qui sest non seulement charg de mettre en place les Journes lUniversit de ParisDauphine, mais aussi de mettre en page et de produire les Actes ; le LAMSADE, pour son soutien financier et logistique ; France Telecom et lUniversit de ParisDauphine, pour leur soutien financier. Jrme Lang, Yves Lesprance et David Sadek, prsidents du comit de programme Nicolas Maudet, prsident du comit dorganisation
IV
Annales du LAMSADE N8
Comit de Programme
Prsidents
J. Lang Y. Lesprance D. Sadek IRIT, Univ. Paul Sabatier York University France Tlcom RD Toulouse (France) Toronto (Canada) Lannion (France)
Membres
E. Aimeur L. Amgoud N. Asher P. Baibiani M. Batt B. Beaufils J.-F. Bonnefon B. Chaib-draa J. Caelen F. Charpillet R. Demolombe J.-L. Dessalles H. van Ditmarsch P. Egr A. El-Fallah Seghrouchni J. Euzenat F. Evrard C. Garion A. Herzig M.-P. Huget S. Konieczny P. Lamarre D. Longin V. Louis P. Mathieu P. Marquis N. Maudet A.-I. Mouaddib P. Muller M. Pauly O. Papini P. Perny E. Raufaste N. Sabouret P.-Y. Schobbens S. Shapiro J.-C. Vergnaud B. Walliser E. Weydert
Relecteurs additionnels
M. Bouzid L. Cholvy B. Gaudou L. Laera C. Pira N. Troquard
Comit dOrganisation
F. Badeig M.-J. Bellosta G. Bourgne Y. Chevaieyre S. Estivie S. Kornman A. Machado N. Maudet W. Ouerdane J. Saunier
Sommaire/Contents
Collection Cahiers et Documents Prface
Annales du LAMSADE N8
I III
MFI07 Actes des Quatrimes Journes Francophones
- Articles longs L. Amgoud, Y. Dimopoulos, P. Moratis An abstract framework for argumentation- based negotiation L. Amgoud, H. Prade Practical reasoning as a generalized decision making problem R. Ben Larbi, S. Konieczny, P. Marquis Planification multi-agent et diagnostic stratgique A. Boularias, B. Chaib-draa Les reprsentations prdictives des tats et des politiques S. Bouveret, M. Lematre Fonctions dutilit collective avec droits exognes ingaux C. Dgremont, J. A. Zvesper Logique dynamique pour le raisonnement stratgique dans les jeux extensifs V. Demeure, J. F. Bonnefon, E. Raufaste Rle de la face et de lutilit dans linterprtation dnoncs ambigus question/requte incomprhension/dsaccord R. Demolombe, V. Louis Actes communicatifs effets institutionnels J. Derveeuw, B. Beaufils, P. Mathieu, O. Brandouy Un modle dinteraction raliste pour la simulation de marchs financiers J. -L. Dessalles Le rle de limpact motionnel dans la communication des vnements H. van Ditmarsch, A. Herzig, T. de Lima Raisonnement sur les actions : de Toronto Amsterdam 3 15 25 37 49
61
75 89
103 113 127
H. van Ditmarsch, J. Ruan Model checking logic puzzles A. Goultiaeva, Y. Lesprance Incremental plan recognition in an agent programming framework N. Houy, L. Mnager Communication, consensus et ordre de parole. Qui veut parler en premier ? J. Hue, E. Wurbel, O. Papini Fusion de bases propositionnelles : une mthode base sur les R-ensembles S. Konieczny SBGM: concialiation et mesures de conflits J. Lieber Application de la thorie de la rvision ladaptation en raisonnement partir de cas : ladaptation conservatrice M. Morge, J. -C. Routier Debating over heterogeneous descriptions M. Ochs, D. Sadek, C. Pelachaud Vers un modle formel des motions dun agent rationnel dialoguant empathique S. Saget, M. Guyomard Doit-on dire la vrit pour se comprendre ? Principes dun modle collaboratif du dialogue bas sur la notion dacceptation
139 151
163
175 189
201 215
227
239
- Articles courts G. Aucher, A. Herzig De DEL EDL ou comment illustrer la puissance des vnements inverses. Ph. Balbiani, F. Cheikh, G. Feuillade Considrations relatives la dcidabilit et la complexit du problme de la composition de services F. Bouchet, J.-P. Sansonnet Caractrisation de requtes dassistance partir de corpus M. Boussard, M. Bouzid, A. Mouaddib La dcision multi-critre pour la coordination locale dans les systmes multi- agents
253
261 269
277
L. Chauvin, D. Genest, S. Loiseau Le modle des cartes cognitives contextuelles Y. Chevaleyre, N. Maudet Rgles naturelles optimales pour largumentation L. Cholvy, Ch. Garion, C. Saurel Modlisation de rglementations pour le partage dinformation dans un SMA S. Estivie Influence du protocole sur lissue des ngociations N. Hameurlain An optimistic approach for the specification of more flexible roles behavioural compatibility relations in MAS N. Laverny Logique doxastique graduelle Ph. Mathieu, S. Picault, J.-C. Routier Donner corps aux interactions (linteraction enfin concrtise) L. Mazuel, N. Sabouret Interprtation de commandes en langage naturel pour les agents conversationnels base dontologie B. Menoni, J.-Ch. Vergnaud Reprsentations syntaxique et smantique dun acte M. Morge, P. Mancarella The hedgehog and the fox : an argumentation-based decision support system A. Pauchet et al. Interactions collaboratives en situations co-localise et distante L. Perrussel, S. Doutre, J.-M. Thvenin, P. McBurney Un dialogue de persuasion pour laccs et lobtention dinformations C. Pira, A. El Fallah Seghrouchni Autour du problme du consensus J. A. Quian-Ruiz, Ph. Lamarre, P. Valduriez Un modle pour caractriser des participants autonomes dans un processus de mdiation J. Saunier, F. Balbo Vers un support des communications multi-parties pour les systmes multi-agents
285 293
301 309
317 325 333
341 349
357 365 373 379
389
397
ARTICLES LONGS
An Abstract Framework for Argumentation-based Negotiation

Leila Amgoud amgoud@irit.fr Yannis Dimopoulos yannis@cs.ucy.ac.cy Pavlos Moraitis pavlos@math-info.univ-paris5.fr
IRITCNRS 118, Route de Narbonne 31062 Toulouse cedex 09, FRANCE Univ. of Cyprus 75 Kallipoleos Str. PO Box 20537, Cyprus Paris Descartes Univ. 45 rue des Saints-Pres 75270 Paris, France Rsum : Le papier propose un cadre abstrait pour la ngociation base dargumentation, dans lequel le rle de largumentation est formellement analys, et les rsultats dune telle ngociation sont tudis. Il formalise la notion dun accord dans une ngociation. Le papier montre aussi comment cet accord est li aux thories des agents et quand il peut tre atteint. Il dnit aussi la notion de concession et montre dans quelle situation un agent en fera une. Mots-cls : Ngociation, Argumentation Abstract: This paper proposes an abstract framework for argumentation-based negotiation, in which the role of argumentation is formally analyzed. The framework makes it possible to study the outcomes of an argumentation-based negotiation. It shows what an agreement is, how it is related to the theories of the agents, when it is possible, and how this can be attained by the negotiating agents in this case. It denes also the notion of concession, and shows in which situation an agent will make one, as well as how it inuences the evolution of the dialogue. Keywords: Negotiation, Argumentation
agents to convince each other by adequate arguments during a negotiation dialogue. Indeed, an offer supported by a good argument has a better chance to be accepted by an agent, and can also make him reveal his goals or give up some of them. The basic idea is that by exchanging arguments, the theories of the agents (i.e. their mental states) may evolve, and consequently, the status of offers may change. For instance, an agent may reject an offer because it is not acceptable for it. However, the agent may change its mind if it receives a strong argument in favor of this offer. Several proposals have been made in the literature for modeling such an approach [1, 2, 6, 7, 11]. However, the work is still preliminary. Some researchers have mainly focused on relating argumentation with protocols. They have shown how and when arguments in favor of offers can be computed and exchanged. Others have emphasized on the decision making problem. In [2, 6], the authors argued that selecting an offer to propose at a given step of the dialogue is a decision making problem. They have thus proposed an argumentation-based decision model, and have shown how such a model can be related to the dialogue protocol. In existing works, there is no formal analysis on the role of argumentation in negotiation dialogues. It is not clear how ar3
1 Introduction
Roughly speaking, negotiation is a process aiming at nding some compromise or consensus between two or several agents about some matters of collective agreement, such as pricing products, allocating resources, or choosing candidates. Integrating argumentation theory in negotiation provides a good means for supplying additional information and also helps
____________________________________________________________________________ An abstract framework for argumentation-based negotiation
gumentation can inuence the outcome of the dialogue. Moreover, basic concepts in negotiation such as concession and agreement (i.e. optimal solutions, or compromise) are neither dened nor studied. This paper aims at proposing an abstract framework for argumentation-based negotiation, in which the role of argumentation is formally analyzed, and where the existing systems can be restated. In this framework, a negotiation dialogue takes place between two agents on a set O of offers, whose structure is not known. The goal of a negotiation is to nd among elements of O, an offer that satises more or less the preferences of both agents. Each agent is supposed to have a theory represented in an abstract way. A theory consists of a set A of arguments whose structure and origin are not known, a function specifying for each possible offer in O, the arguments of A that support it, a non specied conict relation among the arguments, and nally a preference relation between the arguments. The status of each argument is dened using Dungs acceptability semantics. Consequently, the set of offers is partitioned into four subsets: acceptable, rejected, negotiable and non-supported offers. We show how an agents theory may evolve during a negotiation dialogue. We dene formally the notions of concession, compromise, and optimal solution. Then, we propose a protocol that allows agents i) to exchange offers and arguments, and ii) to make concessions when necessary. We show that dialogues generated under such a protocol terminate, and even reach optimal solutions when they exist.
different. Offers correspond to the different alternatives that can be exchanged during a negotiation dialogue. For instance, if the agents try to decide the place of their next meeting, then the set O will contain different towns. Different arguments can be built from L. The set Args(L) will contain all those arguments. By argument, we mean a reason in believing or of doing something. In [2], it has been argued that the selection of the best offer to propose at a given step of the dialogue is a decision problem. In [3], it has been shown that in an argumentation-based approach for decision making, two kinds of arguments are distinguished: arguments supporting choices (or decisions), and arguments supporting beliefs. Moreover, it has been acknowledged that the two categories of arguments are formally dened in different ways, and they play different roles. Indeed, an argument in favor of a decision, built both on an agents beliefs and goals, tries to justify the choice; whereas an argument in favor of a belief, built only from beliefs, tries to destroy the decision arguments, in particular the beliefs part of those decision arguments. Consequently, in a negotiation dialogue, those two kinds of arguments are generally exchanged between agents. In what follows, the set Args(L) is then divided into two subsets: a subset Argso (L) of arguments supporting offers, and a subset Argsb (L) of arguments supporting beliefs. Thus, Args(L) = Argso (L) Argsb (L). As in [4], in what follows, we consider that the structure of the arguments is not known. Since the knowledge bases from which arguments are built may be inconsistent, the arguments may be conicting too. In what follows, those conicts will be captured by the relation RL , thus RL Args(L) Args(L). Three assumptions are made on this relation: First the arguments supporting different offers are conicting. The idea behind this assumption is that since offers are exclusive, an agent has to choose
2 The logical language

In what follows, L will denote a logical language, and is an equivalence relation associated with it. From L, a set O = {o1 , . . . , on } of n offers is identied, such that oi , oj O such that oi oj . This means that the offers are
4
___________________________________________________________________________ Annales du LAMSADE N8
only one at a given step of the dialogue. Note that, the relation RL is not necessarily symmetric between the arguments of Argsb (L). The second hypothesis says that arguments supporting the same offer are also conicting. The idea here is to return the strongest argument among these arguments. The third condition does not allow an argument in favor of an offer to attack an argument supporting a belief. This avoids wishful thinking. Formally: Denition 1 RL Args(L) Args(L) is a conict relation among arguments s.t: - a, a Argso (L), s.t. a = a , a RL a - a Argso (L) and a Argsb (L) s.t a RL a Note that the relation RL is not symmetric. This is due to the fact that arguments of Argsb (L) may be conicting but not necessarily in a symmetric way. In what follows, we assume that the set Args(L) of arguments is nite, and each argument is attacked by a nite number of arguments.
support offers of the set O. We assume that an agent is aware of all the arguments of the set Args(L). The agent is even able to express a preference between any pair of arguments. This does not mean that the agent will use all the arguments of Args(L), but it encodes the fact that when an agent receives an argument from another agent, it can interpret it correctly, and it can also compare it with its own arguments. Similarly, each agent is supposed to be aware of the conicts between arguments. This also allows us to encode the fact that an agent can recognize whether the received argument is in conict or not with its arguments. However, in its theory, only the conicts between its own arguments are considered. Denition 2 (Negotiating agent theory) Let O be a set of n offers. A negotiating agent theory is a tuple A, F , , R, Def : A Args(L). F : O 2A s.t i, j with i = j , F (oi ) F (oj ) = . Let AO = F (oi ) with i = 1, . . . , n. Args(L) Args(L) is a partial preorder denoting a preference relation between arguments.
3 Negotiating agents theories and reasoning models

In this section we dene formally the negotiating agents, i.e. their theories, as well as the reasoning model used by those agents in a negotiation dialogue. 3.1 Negotiating agents theories Agents involved in a negotiation dialogue, called negotiating agents, are supposed to have theories. In this paper, the theory of an agent will not refer, as usual, to its mental states (i.e. its beliefs, desires and intentions). However, it will be encoded in a more abstract way in terms of the arguments owned by the agent, a conict relation among those arguments, a preference relation between the arguments, and a function that species which arguments
R RL s.t R A A Def A A s.t a, b A, a defeats b, denoted a Def b iff a R b, and not (b a). The function F returns the arguments supporting offers in O. We assume that an argument cannot support two distinct offers. However, F (oi ) may be empty. Example 1 Let O = {o1 , o2 , o3 }. A = {a1 , a2 , a3 , a4 } F (o1 ) = {a1 }, F (o2 ) = {a2 }, F (o3 ) = . Thus, Ao = {a1 , a2 }
5
= {(a1 , a2 ), (a2 , a1 ), (a3 , a2 ), (a4 , a3 )}
R = {a1 , a2 ), (a2 , a1 ), (a3 , a2 ), (a4 , a3 )} Def = {(a4 , a3 ), (a3 , a2 )} 3.2 The reasoning model From the theory of an agent, one can dene the argumentation system used by that agent for reasoning about the offers and the arguments, i.e. for computing the status of the different offers and arguments. Denition 3 (Argumentation system) Let A, F , , R, Def be the theory of an agent. The argumentation system of that agent is the pair A, Def . In [4], different acceptability semantics have been introduced for computing the status of arguments. These are based on two basic concepts, defence and conictfree, dened as follows: Denition 4 (Defence/conict-free) Let S A. S defends an argument a iff each argument that defeats a is defeated by some argument in S . S is conict-free iff there exist no a, a in S such that a Def a . Denition 5 (Acceptability semantics) Let S be a conict-free set of arguments, and let T : 2A 2A be a function such that T (S ) = {a | a is defended by S }. S is a complete extension iff S = T (S ). S is a preferred extension iff S is a maximal (w.r.t set ) complete extension.
6
S is a grounded extension iff it is the smallest (w.r.t set ) complete extension. Let E1 , . . . , Ex denote the different extensions under a given semantics. Note that there is only one grounded extension. It contains all the arguments that are not defeated, and those arguments that are defended directly or indirectly by nondefeated arguments. Theorem 1 Let A, Def the argumentation system dened as shown above. 1. It may have x 1 preferred extensions. 2. The grounded extensions is S = i1 T (). Note that when the grounded extension (or the preferred extension) is empty, this means that there is no acceptable offer for the negotiating agent. Example 2 In example 1, there is one preferred extension, E = {a1 , a2 , a4 }. Now that the acceptability semantics is dened, we are ready to dene the status of any argument. Denition 6 (Argument status) Let A, Def be an argumentation system, and E1 , . . . , Ex its extensions under a given semantics. Let a A. 1. a is accepted iff a Ei , Ei with i = 1, . . . , x. 2. a is rejected iff Ei such that a Ei . 3. a is undecided iff a is neither accepted nor rejected. This means that a is in some extensions and not in others.
Note that A = {a|a is accepted} {a|a is rejected} {a|a is undecided}. Example 3 In example 1, the arguments a1 , a2 and a4 are accepted, whereas the argument a3 is rejected. As said before, agents use argumentation systems for reasoning about offers. In a negotiation dialogue, agents propose and accept offers that are acceptable for them, and reject bad ones. In what follows, we will dene the status of an offer. According to the status of arguments, one can dene four statuses of the offers as follows: Denition 7 (Offers status) Let o O. The offer o is acceptable for the negotiating agent iff a F (o) s.t a is accepted. Oa = {oi O, s.t oi is acceptable}. The offer o is rejected for the negotiating agent iff a F (o), a is rejected. Or = {oi O, s.t oi is rejected}. The offer o is negotiable iff a F (o), a is undecided. On = {oi O, s.t oi is negotiable}. The offer o is non-supported iff it is neither acceptable, nor rejected or negotiable. Ons = {oi O, s.t oi is nonsupported offers}. Example 4 In example 1, the two offers o1 and o2 are acceptable since they are supported by accepted arguments, whereas the offer o3 is non-supported since it has no argument in its favor. From the above denitions, the following results hold: Property 1 Let o O.
O = Oa Or On Ons . The set Oa may contain more than one offer. From the above partition of the set O of offers, a preference relation between offers is dened. Let Ox and Oy be two subsets of O. Ox Oy means that any offer in Ox is preferred to any offer in the set Oy . We can write also for two offers oi , oj , oi oj iff oi Ox , oj Oy and Ox Oy . Denition 8 (Preference between offers) Let O be a set of offers, and Oa , Or , On , Ons its partition. Oa On Ons Or . Example 5 In example 1, we have o1 o3 , and o2 o3 . However, o1 and o2 are indifferent.
4 Argumentation-based Negotiation
In this section, we dene formally a protocol that generates argumentation-based negotiation dialogues between two negotiating agents P and C . The two agents negotiate about an object whose possible values belong to a set O. This set O is supposed to be known and the same for both agents. For simplicity reasons, we assume that this set does not change during the dialogue. The agents are equipped with theories denoted respectively AP , F P , P , RP , DefP , and AC , F C , C , RC , DefC . Note that the two theories may be different in the sense that the agents may have different sets of arguments, and different preference relations. Worst yet, they may have different arguments in favor of the same offers. Moreover, these theories may evolve during the dialogue. 4.1 Evolution of the theories Before dening formally the evolution of an agents theory, let us rst introduce the
7
notion of moves. Denition 9 (Move) A move is a tuple mi = pi , ai , oi , ti such that: pi {P, C } ai Args(L) 1 oi O ti N is the target of the move, such that ti < i The function Player (resp. Argument, Offer, Target) returns the player of the move (i.e. pi ) (resp. the argument of a move, i.e ai , the offer oi , and the target of the move, ti ). Let M denote the set of all the moves that can be built from {P, C }, Arg(L), O . Note that the set M is nite since Arg(L) and O are assumed to be nite. Let us now see how an agents theory evolves and why. The idea is that if an agent receives an argument from another agent, it will add the new argument to its theory. Moreover, since an argument may bring new information for the agent, thus new arguments can emerge. Example 6 Suppose that an agent P has the following propositional knowledge base: P = {x, y z }. From this base one cannot deduce z . Lets assume that this agent receives the following argument {a, a y } that justies y . It is clear that now P can build an argument, say {a, a y, y z } in favor of z . In a similar way, if a received argument is in conict with the arguments of the agent i, then those conicts are also added to its relation Ri . Note that new conicts may arise between the original arguments
1 In what follows denotes the fact that no argument, or no offer is given
of the agent and the ones that emerge after adding the received arguments to its theory. Those new conicts should also be considered. As a direct consequence of the evolution of the sets Ai and Ri , the defeat relation Defi is also updated. The initial theory of an agent i, (i.e. its theory before the dialogue starts), is dei i i i noted by Ai 0 , F0 , 0 , R0 , Def0 , with i {P, C }. Besides, in this paper, we suppose that the preference relation i of an agent does not change during the dialogue. Denition 10 (Theory evolution) Let m1 , . . ., mt , . . ., mj be a sequence of moves. The theory of an agent i at a step i i i i t > 0 is: Ai t , Ft , t , Rt , Deft such that:
i Ai t = A0 {ai , i = 1, . . . , t, ai = Argument(mi )} A with A Args(L)
Fti = O 2At
i t
i 0
i Ri t = R0 {(ai , aj ) | ai = Argument(mi ), aj = Argument(mj ), i, j t, and ai RL aj } R with R RL i i Defi t At A t
The above denition captures the monotonic aspect of an argument. Indeed, an argument cannot be removed. However, its status may change. An argument that is accepted at step t of the dialogue by an agent may become rejected at step t + i. Consequently, the status of offers also change. Thus, the sets Oa , Or , On , and Ons may change from one step of the dialogue to another. That means for example that some offers could move from the set Oa to the set Or and vice-versa. Note that in the denition of Rt , the relation RL is used to denote a conict between exchanged arguments. The reason is that, such a conict may not be in the set Ri of the agent
i. Thus, in order to recognize such conicts, we have supposed that the set RL is known to the agents. This allows us to capture the situation where an agent is able to prove an argument that it was unable to prove before, by incorporating in its beliefs some information conveyed through the exchange of arguments with another agent. This, unknown at the beginning of the dialogue argument, could give to this agent the possibility to defeat an argument that it could not by using its initial arguments. This could even lead to a change of the status of these initial arguments and this change would lead to the one of the associated offers status.
i In what follows, Ot,x denotes the set of offers of type x, where x {a, n, r, ns}, of the agent i at step t of the dialogue. In some places, we can use for short the noi tation Ot to denote the partition of the set O at step t for agent i. Note that we have: i i Ot not(Ot,x +1,x ).
Thus, agents make concessions by proposing/accepting less preferred offers. Denition 12 (Concession) Let o O. The offer o is a concession for an agent i i i i = , and Oy such that Oy iff o Ox i Ox . During a negotiation dialogue, agents exchange rst their most preferred offers, and if these last are rejected, they make concessions. In this case, we say that their best offers are no longer defendable. In an argumentation setting, this means that the agent has already presented all its arguments supporting its best offers, and it has no counter argument against the ones presented by the other agent. Formally: Denition 13 (Defendable offer) Let i i i i Ai t , Ft , t , Rt , Deft be the theory of agent i at a step t > 0 of the dialogue. Let o O such that j t with Player(mj ) = i and offer(mj ) = o. The offer o is defendable by the agent i iff: a Fti (o), and k Argument(mk ) = a, or t s.t.
4.2 The notion of agreement As said in the introduction, negotiation is a process aiming at nding an agreement about some matters. By agreement, one means a solution that satises to the largest possible extent the preferences of both agents. In case there is no such solution, we say that the negotiation fails. In what follows, we will discuss the different kinds of solutions that may be reached in a negotiation. The rst one is the optimal solution. An optimal solution is the best offer for both agents. Formally: Denition 11 (Optimal solution) Let O be a set of offers, and o O. The offer o is an optimal solution at a step t 0 iff P C Ot,a o Ot,a Such a solution does not always exist since agents may have conicting preferences.
a At \Fti (o) s.t. a Defi t b with Argument(mk ) = b, k t, and Player(mk ) = i l t, Argument(ml ) = a The offer o is said non-defendable otheri is the set of non-defendable wise and NDt offers of agent i at a step t. 4.3 Negotiation dialogue Now that we have shown how the theories of the agents evolve during a dialogue, we are ready to dene formally an argumentation-based negotiation dialogue. For that purpose, we need to dene rst the notion of a legal continuation.
9
Denition 14 (Legal move) A move m is a legal continuation of a sequence of moves m1 , . . . , ml iff j, k < l, such that: Offer(mj ) = Offer(mk ), and Player(mj ) = Player(mk ) The idea here is that if the two agents present the same offer, then the dialogue should terminate, and there is no longer possible continuation of the dialogue. Denition 15 (Negotiation) A negotiation dialogue d between two agents P and C is a non-empty sequence of moves m1 , . . . , ml s.t: pi = P iff i is even, and pi = C iff i is odd Player(m1 ) = P , Argument(m1 ) = , Offer(m1 ) = , and Target(m1 ) = 02 mi , if Offer(mi ) = , then Offer(mi ) o j , oj Player(mi ) Player(mi ) O\(Oi,r NDi ) i = 1, . . . , l, mi is a legal continuation of m1 , . . . , mi1 Target(mi ) = mj such that j < i and Player(mi ) = Player(mj ) If Argument(mi ) = , then: if Offer(mi ) = then Argument(mi ) F (Offer(mi )) if Offer(mi ) = then Player(mi ) Argument(mi ) Defi Argument(Target(mi )) i, j l such that mi = mj m M such that m is a legal continuation of m1 , . . . , ml
Let D be the set of all possible dialogues. The rst condition says that the two agents take turn. The second condition says that agent P starts the negotiation dialogue by presenting an offer. Note that, in the rst turn, we suppose that the agent does not present an argument. This assumption is made for strategical purposes. Indeed, arguments are exchanged as soon as a conict appears. The third condition ensures that agents exchange their best offers, but never the rejected ones. This condition takes also into account the concessions that an agent will have to make if it was established that a concession is the only option for it at the current state of the dialogue. Of course, as we have shown in a previous section, an agent may have several good or acceptable offers. In this case, the agent chooses one of them randomly. The fourth condition ensures that the moves are legal. This condition allows to terminate the dialogue as soon as an offer is presented by both agents. The fth condition allows agents to backtrack. The sixth condition says that an agent may send arguments in favor of offers, and in this case the offer should be stated in the same move. An agent can also send arguments in order to defeat arguments of the other agent. The next condition prevents repeating the same move. This is useful for avoiding loops. The last condition ensures that all the possible legal moves have been presented. The outcome of a negotiation dialogue is computed as follows: Denition 16 (Dialogue outcome) Let d = m1 , . . ., ml be a argumentationbased negotiation dialogue. The outcome of this dialogue, denoted Outcome, is Outcome(d) = Offer(ml ) iff j < l s.t. Offer(ml ) = Offer(mj ), and Player(ml ) = Player(mj ). Otherwise, Outcome(d) = .
2 The rst move has no target.
10
Note that when Outcome(d) = , the negotiation fails, and no agreement is reached by the two agents. However, if Outcome(d) = , the negotiation succeeds, and a solution that is either optimal or a compromise is found. Theorem 2 di D, the argumentationbased negotiation di terminates. The above result is of great importance, since it shows that the proposed protocol avoids loops, and dialogues terminate. Another important result shows that the proposed protocol ensures to reach an optimal solution if it exists. Formally: Theorem 3 (Completeness) Let d = m1 , . . . , ml be a argumentation-based negotiation dialogue. If t l such that C P P = , then Outcome(d) Ot,a Ot,a Ot,a C Ot,a . We show also that the proposed dialogue protocol is sound in the sense that, if a dialogue returns a solution, then that solution is for sure a compromise. In other words, that solution is a common agreement at a given step of the dialogue. We show also that if the negotiation fails, then there is no possible solution. Theorem 4 (Soundness) Let d = m1 , . . . , ml be a argumentation-based negotiation dialogue. 1. If Outcome(d) = o, (o = ), then t P C Ot,y , with x, y l such that o Ot,x {a, n, ns}.
P 2. If Outcome(d) = , then t l, Ot,x C = , x, y {a, n, ns}. Ot,y
Property 2 Let d = m1 , . . . , ml be a argumentation-based negotiation dialogue. If Outcome(d) = , then t l,

P C C C = Ot,a Ot,n Ot,ns , and Ot,r C P P P Ot,r = Ot,a Ot,n Ot,ns .
5 Illustrative examples
In this section we will present some examples that illustrate the framework. Example 7 (No argumentation) Let O = {o1 , o2 }, P and C are two agents equipped with the same theory: A, F , , R, Def s.t. A = , F (o1 ) = F (o2 ) = , = , R = , Def = . It is clear that the two offers o1 and o2 are non-supported. The proposed protocol (see Denition 15) will generate one of the following dialogues: P: m1 = P, , o1 , 0 C: m2 = C, , o1 , 1 This dialogue ends with o1 as a compromise. This solution is optimal since it is not an acceptable offer for the agents. P: m1 = P, , o1 , 0 C: m2 = C, , o2 , 1 P: m3 = P, , o2 , 2 This dialogue ends with o2 as a compromise. P: m1 = P, , o2 , 0 C: m2 = C, , o2 , 1 This dialogue also ends with o2 as a compromise. The last possible dialgue ends with o1 as a compromise.
11
A direct consequence of the above theorem is the following:
P: m1 = P, , o2 , 0 C: m2 = C, , o1 , 1 P: m3 = P, , o1 , 2 In the above example, the theories of both agents do not change since there is no exchange of arguments. Let us now consider the following example. Example 8 (Static theories) Let O = {o1 , o2 } be the set of all possible offers. The theory of agent P is AP , F P , P , RP , DefP such that: AP = {a1 , a2 }, F P (o1 ) = {a1 }, F P (o2 ) = {a2 }, P = {(a1 , a2 )}, RP = {(a1 , a2 ), (a2 , a1 )}, DefP = {a1 , a2 }. The argumentation system AP , DefP of this agent will return a1 as an accepted argument, and a2 as a rejected one. Consequently, the offer o1 is acceptable and o2 is rejected. The theory of agent C is AC , F C , C , RC , DefC such that: AC = {a1 , a2 }, F C (o1 ) = {a1 }, F C (o2 ) = {a2 }, C = {(a2 , a1 )}, RC = {(a1 , a2 ), (a2 , a1 )}, DefC = {a2 , a1 }. The argumentation system AC , DefC of this agent will return a2 as an accepted argument, and a1 as a rejected one. Consequently, the offer o2 is acceptable and o1 is rejected. The rst possible dialogue is: P: m1 = P, , o1 , 0 C: m2 = C, , o2 , 1 P: m3 = P, a1 , o1 , 2 C: m4 = C, a2 , o2 , 3 The second possible dialogue is: P: m1 = P, , o1 , 0 C: m2 = C, a2 , o2 , 1 P: m3 = P, a1 , o1 , 2
12
C: m4 = C, , o2 , 3 Both dialogues end with failure. Note that in both dialogues, the theories of both agents do not change. The reason is that the exchanged arguments are already known to both agents. The negotiation fails because the agents have conicting preferences. Let us now consider an example in which argumentation will allow agents to reach an agreement. Example 9 (Dynamic theories) Let O = {o1 , o2 } be the set of all possible offers. The theory of agent P is AP , F P , P , RP , DefP such that: AP = {a1 , a2 }, F P (o1 ) = {a1 }, F P (o2 ) = {a2 }, P = {(a1 , a2 ), (a3 , a1 )}, RP = {(a1 , a2 ), (a2 , a1 )}, DefP = {(a1 , a2 )}. The argumentation system AP , DefP of this agent will return a1 as an accepted argument, and a2 as a rejected one. Consequently, the offer o1 is acceptable and o2 is rejected. The theory of agent C is AC , F C , C , RC , DefC such that: AC = {a1 , a2 , a3 }, F C (o1 ) = {a1 }, F C (o2 ) = {a2 }, C = {(a1 , a2 ), (a3 , a1 )}, RC = {(a1 , a2 ), (a2 , a1 ), (a3 , a1 )}, DefC = {(a1 , a2 ), (a3 , a1 )}. The argumentation system AC , DefC of this agent will return a3 and a2 as accepted arguments, and a1 as a rejected one. Consequently, the offer o2 is acceptable and o1 is rejected. The following dialogue may take place between the two agents: P: m1 = P, , o1 , 0 C: m2 = C, , o2 , 1 P: m3 = P, a1 , o1 , 2 C: m4 = C, a3 , , 3
C: m5 = P, , o2 , 4 At step 4 of the dialogue, the agent P receives the argument a3 from P . Thus, its theory evolves as follows: AP = {a1 , a2 , a3 }, RP = {(a1 , a2 ), (a2 , a1 ), (a3 , a1 )}, DefP = {(a1 , a2 ), (a3 , a1 )}. At this step, the argument a1 which was accepted will become rejected, and the argument a2 which was at the beginning of the dialogue rejected will become accepted. Thus, the offer o2 will be acceptable for the agent, whereas o1 will become rejected. At this step 4, the offer o2 is acceptable for both agents, thus it is an optimal solution. The dialogue ends by returning this offer as an outcome.
of concession is not modeled in that framework, and it is not clear what is the status of the outcome of the dialogue. Moreover, it is not clear how an agent chooses the offer to propose at a given step of the dialogue. In [2, 6], the authors have focused mainly on this decision problem. They have proposed an argumentation-based decision framework that is used by agents in order to choose the offer to propose or to accept during the dialogue. In that work, agents are supposed to have a beliefs base and a goals base. Our framework is more general since it does not impose any specic structure for the arguments, the offers, or the beliefs. The negotiation protocol is general as well. Thus this framework can be instantiated in different ways by creating, in such manner, different specic argumentation-based negotiation frameworks, all of them respecting the same properties. Our framework is also a unied one because frameworks like the ones presented above can be represented within this framework. For example the decision making mechanism proposed in [6] for the evaluation of arguments and therefore of offers, which is based on a priority relation between mutually attacked arguments, can be captured by the relation defeat proposed in our framework. This relation takes simultaneously into account the attacking and preference relations that may exist between two arguments.
6 Related work
Argumentation has been integrated in negotiation dialogues at the early nineties by Sycara [11]. In that work, the author has emphasized the advantages of using argumentation in negotiation dialogues, and a specic framework has been introduced. In [7], the different types of arguments that are used in a negotiation dialogue, such as threats and rewards, have been discussed. Moreover, a particular framework for negotiation have been proposed. In [8], different other frameworks have been proposed. Even if all these frameworks are based on different logics, and use different denitions of arguments, they all have at their heart an exchange of offers and arguments. However, none of those proposals explain when arguments can be used within a negotiation, and how they should be dealt with by the agent that receives them. Thus the protocol for handling arguments was missing. Another limitation of the above frameworks is the fact that the argumentation frameworks they use are quite poor, since they use a very simple acceptability semantics. In [1] a negotiation framework that lls the gap has been suggested. A protocol that handles the arguments was proposed. However, the notion
7 Conclusions Work
and
Future
In this paper we have presented a unied and general framework for argumentationbased negotiation. Like any other argumentation-based negotiation framework, as it is evoked in (e.g. [9]), our framework has all the advantages that argumentation-based negotiation approaches present when related to the negotiation approaches based either on game
13
theoretic models (see e.g. [10]) or heuristics ([5]). This work is a rst attempt to formally dene the role of argumentation in the negotiation process. More precisely, for the rst time, it formally establishes the link that exists between the status of the arguments and the offers they support, it denes the notion of concession and shows how it inuences the evolution of the negotiation, it determines how the theories of agents evolve during the dialogue and performs an analysis of the negotiation outcomes. It is also the rst time where a study of the formal properties of the negotiation theories of the agents as well as of an argumentative negotiation dialogue is presented.
References
[1] L. Amgoud, S. Parsons, and N. Maudet. Arguments, dialogue, and negotiation. In Proc. of the 14th ECAI, 2000. [2] L. Amgoud and H. Prade. Reaching agreement through argumentation: A possibilistic approach. In Proc. of the 9 th KR, 2004. [3] L. Amgoud and H. Prade. Explaining qualitative decision under uncertainty by argumentation. In Proc. of the 21st AAAI, pages 1620, 2006. [4] P. M. Dung. On the acceptability of arguments and its fundamental role in nonmonotonic reasoning, logic programming and nperson games. Articial Intelligence, 77:321 357, 1995. [5] N. R. Jennings, P. Faratin, A. R. Lumuscio, S. Parsons, and C. Sierra. Automated negotiation: Prospects, methods and challenges. International Journal of Group Decision and Negotiation, 2001. [6] A. Kakas and P. Moraitis. Adaptive agent negotiation via argumentation. In Proc. of the 5th AAMAS, pages 384391, 2006. [7] S. Kraus, K. Sycara, and A. Evenchik. Reaching agreements through argumentation: a logical model and implementation. Articial Intelligence, 104:169, 1998. [8] S. Parsons and N. R. Jennings. Negotiation through argumentationa preliminary report. In Proc. of the 2nd ICMAS, pages 267 274, 1996. [9] I. Rahwan, S. D. Ramchurn, N. R. Jennings, P. McBurney, S. Parsons, and E. Sonenberg. Argumentation-based negotiation. Knowledge Engineering Review, 18 (4):343375, 2003. [10] J. Rosenschein and G. Zlotkin. Rules of Encounter: Designing Conventions for Automated Negotiation Among Computers,. MIT Press, Cambridge, Massachusetts, 1994. [11] K. Sycara. Persuasive argumentation in negotiation. Theory and Decision, 28:203242, 1990.
Our future work concerns several points. A rst point is to relax the assumption that the set of possible offers is the same to both agents. Indeed, it is more natural to assume that agents may have different sets of offers. During a negotiation dialogue, these sets will evolve. Arguments in favor of the new offers may be built from the agent theory. Thus, the set of offers will be part of the agent theory. Another possible extension of this work would be to allow agents to handle both arguments PRO and CONS offers. This is more akin to the way human take decisions. Considering both types of arguments will rene the evaluation of the offers status. In the proposed model, a preference relation between offers is dened on the basis of the partition of the set of offers. This preference relation can be rened. For instance, among the acceptable offers, one may prefer the offer that is supported by the strongest argument. In [3], different criteria have been proposed for comparing decisions. Our framework can thus be extended by integrating those criteria. Another interesting point to investigate is that of considering negotiation dialogues between two agents with different proles. By prole, we mean the criterion used by an agent to compare its offers.
14
Practical reasoning as a generalized decision making problem

Leila Amgoud amgoud@irit.fr Henri Prade prade@irit.fr
IRITCNRS 118, Route de Narbonne 31062 Toulouse cedex 09, FRANCE Rsum : La prise de dcision, souvent vue comme une forme de raisonnement sur les actions, a t considre de diffrents points de vue. La thorie classique de la dcision, dveloppe principalement par des conomistes, sest concentre sur lidentication et la justication de critres, tels que lutilit espre, pour comparer diffrentes alternatives. Cette approche prend en entre un ensemble dactions qui sont atomiques faisables, et une fonction qui value les consquences de chaque action. Un trait remarquable mais aussi une limitation de cette approche est la rduction du problme de dcision la disponibilit de deux fonctions : une fonction de distribution de probabilit et une fonction dutilit. Cest pourquoi certains chercheurs en IA ont prconis le besoin dune approche dans laquelle tous les aspects qui interviennent dans un problme de dcision (tels que les dsirs dun agent, la faisabilit des actions, etc..) sont explicitement reprsents. Dans cette perspective, des architectures BDI (Beliefs, Desires, Intentions) ont t proposes. Elles prennent leur inspiration dans le travail de philosophes sur ce que les anglo-saxons nomment practical reasoning ou le "raisonnement pratique". Le raisonnement pratique traite principalement de la pertinence au contexte, de la faisabilit et nalement des intentions retenues et excutables. Cependant, ces approches souffrent dun manque de formulation claire de rgles de dcision qui combinent les considrations ci-dessus pour dcider quelle action excuter. Dans cet article, nous montrons que le raisonnement pratique est un problme de la prise de dcision gnralis. Lide fondamentale est quau lieu de comparer des actions atomiques, on compare des ensembles dactions. Lensemble prfr dactions devient les intentions retenues par lun agent. Le papier prsente un cadre uni qui bncie des avantages des trois approches (dcision classique, architectures BDI, lide gnrales du raisonnement pratique). Plus prcisment, nous proposons un cadre formel qui prend en entre un ensemble de croyances, un ensemble de dsirs conditionnels, et un ensemble de rgles prsisant comment des dsirs peuvent tre raliss, et renvoie en sortie un sous-ensemble cohrent de dsirs ainsi que les actions pour les raliser. De telles actions sappellent les intentions. En effet, nous montrons que ces intentions sont choisies par lintermdiaire de quelques rgles de dcision. Ainsi, selon que lagent ait une attitude optimiste ou pessimiste, lensemble des intentions peut ne pas tre le mme. Mots-cls : Raisonnement pratique, Thorie de la dcision, Argumentation Abstract: Decision making, often viewed as a form of reasoning toward action, has been considered from different points of view. Classical decision theory, as developed by economists, has focused mainly on identifying criteria such as expected utility for comparing different alternatives. The inputs of this approach are a set of feasible atomic actions, and a function that assesses the value of their consequences when the actions are performed in a given state. One of the main practical limitation of this approach is the fact that it reduces the whole decision problem to the availability of two functions: a probability distribution and a utility function. This is why some researchers in AI have advocated the need for a different approach in which all the aspects that may be involved in a decision problem (such as the desires of an agent, the feasibility of actions, etc) are explicitly represented. Hence, BDI architectures have been developed. They take their inspiration in the work of philosophers who have advocated practical reasoning. Practical reasoning mainly deals with the adoption, lling in, and reconsideration of intentions. However, these approaches suffer from a lack of a clear formulation of decision rules that combine the above qualitative concepts to decide which action to perform. In this paper, we argue that practical reasoning is a generalized decision making problem. The basic idea is that instead of comparing atomic actions, one has to compare sets of actions. The preferred set of actions becomes the intentions of the agent. The paper presents a unied setting that benets from the advantages of the three above-mentioned approaches (classical decision,
15
Practical ___________________________________________________________________________ reasoning as a generalized decision making problem

BDI, practical reasoning). More precisely, we propose a formal framework that takes as input a set of beliefs, a set of conditional desires, and a set of rules stating how desires can be achieved, and returns a consistent subset of desires as well as ways/actions for achieving them. Such actions are called intentions. Indeed, we show that these intentions are generated via some decision rules. Thus, depending on whether the agent has an optimistic or a pessimistic attitude, the set of intentions may not be the same. Keywords: Practical reasoning, Decision making, Argumentation theory
1 Introduction
Decision making, often viewed as a form of reasoning toward action, has raised the interest of many scholars including philosophers, economists, psychologists, and computer scientists for a long time. Any decision problem amounts to select the best option(s) among different alternatives. The decision problem has been considered from different points of view. Classical decision theory, as developed by economists, has focused mainly on identifying criteria for comparing different alternatives. The inputs of this approach are a set of feasible actions, and a function that assesses the value of their consequences when the actions are performed in a given state. The output is a preference relation between actions. A decision criterion, such as the classical expected utility [11], should then be justied on the basis of a set of postulates to which the preference relation between action should obey. Note that such an approach considers a group of candidate actions as a whole rather than focusing on a candidate action individually. Moreover, the candidate actions are supposed to be feasible. More recently, some researchers in AI have advocated the need for a new approach in which the different aspects that may be involved in a decision problem (such as the goals of the agent, the feasi16
bility of an action, its consequences, the conicts between goals, the alternative plans for achieving the same goal, etc) can be handled. In [5, 6], it has been argued that this can be done by representing the cognitive states, namely agents beliefs, desires and intentions (thus the so-called BDI architecture). The decision problem is then to select among the conicting desires a consistent and feasible subset that will constitute the intentions. The above line of research takes its inspiration in the work of philosophers who have advocated practical reasoning [10]. Practical reasoning mainly deals with the adoption, lling in, and reconsideration of intentions and plans. It follows two main steps: 1) deliberation, in which an agent decides what state of affairs it wants to achieve that is, its desires; and (2) means-ends reasoning, in which an agent devises plans for achieving these desires. In this paper, we argue that practical reasoning is a generalized decision making problem. The basic idea is that instead of comparing atomic actions, one has to compare sets of coherent plans (i.e. plans that can be achieved together) that will achieve the desires computed at the deliberation step. The preferred set of plans becomes the intentions of the agent. The paper presents a formal framework for practical reasoning that works in three steps: at the rst step one computes, from a set of conditional desires, a set of arguments supporting them, and a conict relation among these arguments, a set of what is called justied desires. These desires can be pursued provided that they have plans for achieving them. The second step computes sets of plans that can are achievable together. The input is the set of conditional desires, a set of plans (whose structure and origin are not discussed here), a function specifying for each conditional desire the plans for achieving it, and nally a set of conicting plans. The framework returns extensions
____________________________________________________________________________ Annales du LAMSADE N8
of plans. An extension is a set of plans that can be achieved together. Once, these sets identied, one applies decision making techniques for ordering these extensions. The idea is to prefer the set that achieves the most important desires returned at the deliberation level. The paper is organized as follows: we start by presenting our abstract framework of practical reasoning, then we illustrate it on an example. Then we compare our work with existing works in the literature. The last section is devoted to some concluding remarks and perspectives.
Since knowledge bases may be inconsistent, arguments may be conicting too. These conicts are captured by a binary relation Ra A A. Let us dene a function Fd that returns for each desire di in D the set of arguments supporting it. Thus, Fd : D 2A for instance, Fd (d1 ) = {a1 , . . . , an } with {a1 , . . . , an } A. Note that some desires may not be supported by arguments. Such desires will not be considered as intentions. We assume that an argument cannot support two or more desires at the same time. Formally: di , dj , Fd (di ) Fd (dj ) = . We assume that we have a set P = {p1 , . . . , pm } of plans. A plan is a way of achieving a desire. The structure and the origin of the plans are left unknown. Plans are related to the desires they achieve by the following function Fp : D 2P . Each plan is assumed to achieve at least one desire, i.e. di , dj D, Fp (d) Fp (d ) = . It is very common that a given plan may not be achievable because, for instance, it has a consequence that contradicts the desire it wants to achieve. It is also possible that two or more plans cannot be achievable at the same time since, for instance they yield to conicting situations. Such conicts among elements of P are given by a set Rp 2P . We assume that only minimal conicts are given in Rp , this means that S, S RP such that S S . Let us consider the following example.
17
2 General framework for practical reasoning

Practical reasoning is the reasoning toward action. It follows three main steps: 1. Generating desires to be achieved, called also deliberation 2. Generating plans for achieving those desires, called means-end reasoning 3. Selecting the intentions to be pursued by the agent. The intentions are the plans that will be performed for reaching the generated desires. In what follows, L will denote a logical language. From L, we distinguish a nite set D of potential conditional desires. Desires will be denotes by d1 , . . . , dn . Some desires may be more important than others. This is captured by a partial preordering d on D, thus d D D. Similarly, from L, different arguments can be built. An argument may provide a reason of generating or adopting a given desire. Let A denote the set of these arguments whose structure and origin are not known.
Example 1 Let D = {d1 , d2 , d3 }, A = {a1 , a2 , a3 , a4 }, Ra = {(a1 , a2 ), (a2 , a3 )}, Fd (d1 ) = {a3 }, Fd (d2 ) = {a4 }, Fd (d3 ) = , P = {p1 , p2 , p3 }, Fp (d1 ) = {p1 }, Fp (d2 ) = {p2 }, Fp (d3 ) = {p3 }, and Rp = {{p2 }, {p1 , p3 }}. 2.1 A general framework for deliberation This section aims at generating the desires that can be pursued by the agent (in case they are feasible, i.e. they have plans). As shown in the above illustrative example, one may have conditional desires that depend on some beliefs. The idea is to check whether the conditions of these desires hold in the current state of the world. In the above example, both desires d1 and d2 are generated since their conditions hold. In our general framework, we suppose that an argument is built for supporting a desire as soon as the conditions on which it depends hold. However, since a knowledge base may be inconsistent, i.e. the condition may hold but, at the same time there is an information which contradicts it, counterarguments can be built. Thus, the generated desires, or the outcome of the deliberation step, is the result of a simple argumentation system dened as follows. Denition 1 (Argumentation system) An argumentation system for generating desires to be pursued in a pair A, Ra . In [7], different acceptability semantics have been introduced for computing the status of arguments. These are based on two basic concepts, defence and conictfree, dened as follows: Denition 2 (Defence/conict-free) Let S A. S defends an argument a iff each argument that defeats a is defeated in the sense of Ra by some argument in S .
18
S is conict-free iff there exist no a, a in S such that a Ra a . Denition 3 (Acceptability semantics) Let S be a conict-free set of arguments, and let T : 2A 2A be a function such that T (S ) = {a | S defends a}. S is a complete extension iff S = T (S ). S is a preferred extension iff S is a maximal (w.r.t set ) complete extension. S is a grounded extension iff it is the smallest (w.r.t set ) complete extension. Let E1 , . . . , Ex denote the different extensions under a given semantics. Note that there is only one grounded extension. It contains all the arguments that are not defeated, and those arguments that are defended directly or indirectly by nondefeated arguments. Now that the acceptability semantics dened, we are ready to dene the status of any argument. Denition 4 (Argument status) Let A, Ra be an argumentation system, and E1 , . . . , Ex its extensions under a given semantics. Let a A. 1. a is accepted iff a Ei , Ei with i = 1, . . . , x. 2. a is rejected iff Ei such that a Ei . 3. a is undecided iff a is neither accepted nor rejected. This means that a is in some extensions and not in others. On the basis of the status of each argument, it is now possible to compute the set
of desires that are supposed to be justied in the current state of the world. As said before, this will represent the outcome of the deliberation step. Denition 5 (Justied desires) Let D be a set of potential desires. The justied desires are gathered in the set Output = {di D such that a A, a is accepted, and a Fd (di )}. Example 2 (Example 1 continued) Let D = {d1 , d2 , d3 }, A = {a1 , a2 , a3 , a4 }, Ra = {(a1 , a2 ), (a2 , a3 )}, Fd (d1 ) = {a3 }, Fd (d2 ) = {a4 }, Fd (d3 ) = . In this example, the argumentation system A, Ra returns only one grounded extension {a1 , a3 , a4 }. Thus, the output of the deliberation is {d1 , d2 }. The desire d3 is not supported by arguments, thus there is no reason to generate this desire. Note that the generated desires will not necessarily be pursued by an agent. They should also be feasible. 2.2 A general framework for meansend reasoning The second step of practical reasoning consists of looking for plans to achieve desires. Since an agent may have several desires at the same time, then it needs to know not only which desire is achievable, but also which subsets of desires can be achieved together. In what follows, we propose an abstract framework that returns extensions of plans, i.e. sets of coherent plans, and thus subsets of desires that can be pursued at the same time. This framework takes as input the following elements: D, P , Fp , and Rp . Denition 6 A framework for generating feasible plans is a pair P , Rp .
Here again, we are looking for groups of plans that are achievable together. This means that the plans should not be conicting. Thus, the extensions should be conict-free: Denition 7 (Conict-free) Let S P . S is conict-free iff S S , such that S Rp . Denition 8 (Extension of plans) Let S P . S is an extension iff: S is conict-free S is maximal for set inclusion among subsets of P that satises the rst condition. S1 , . . . , Sn will denote the different extensions of plans. As for arguments, it also possible to dene the status of each plan as follows: Denition 9 (Status of plans) Let p P . p is feasible iff Si such that p Si p is unachievable iff Si such that p Si p is universally feasible iff Si , p Si . This means that such a plan is feasible with other plans. On the basis of the status of plans, one can dene the status of each desire. Four cases are distinguished: Denition 10 (Status of desires) Let d D. d is achievable iff p Fp (d) such that p is feasible
19
d is unachievable iff p Fp (d), p is unachievable d is universally feasible iff p Fp (d) such that p is universally feasible d is universally accepted iff p Fp (d), p is universally feasible The desires achieved by each extension are returned by a function dened as follows: Denition 11 Let Si be an extension of the framework P , Rp . Desires(Si ) = {dj D s.t. p Si and Fp (dj ) = p}. Example 3 (Example 1 continued) P = {p1 , p2 , p3 }, Fp (d1 ) = {p1 }, Fp (d2 ) = {p2 }, Fp (d3 ) = {p3 }, and Rp = {{p2 }, {p1 , p3 }}. The set Rp means that the plan p2 is not achievable, and that the two plans p1 , and p3 cannot be achieved together. Thus, the system P , Rp will return two extensions: S1 = {p1 }, and S2 = {p3 }, with Desires(S1 ) = {d1 } and Desires(S2 ) = {d3 }. It is clear that the desire d2 is unachievable, and the two desires d1 , d3 cannot be pursued at the same time. The agent should select only one of them. 2.3 Selecting intentions In the previous section, we have proposed a framework that returns extensions of plans, i.e. plans that may co-exist together. However, as shown before, several extensions may exist at the same time. One needs to select the one that will constitute the intentions of the agent. A preordering on the set {S1 , . . . , Sn } is then needed. This is a decision making problem. This latter amounts to dening a pre-ordering, usually a complete one, on a set of possible
20
alternatives, on the basis of the different consequences of each alternative. In [1], it has been shown that argumentation can be used for dening such a pre-ordering. The idea is to construct arguments in favor of and against each alternative, to evaluate such arguments, and nally to apply some principle for comparing pairs of alternatives on the basis of the quality or strength of their arguments. In that framework, atomic actions are ordered. In what follows, we will extend the framework to the case of sets of plans, i.e. instead of ordering atomic actions, we will dene a preordering on the set E = {S1 , . . . , Sn }. The main ingredients that are involved in the denition of an argumentation-based decision framework are the following: Denition 12 (Decision framework) An argumentation-based decision framework is a tuple E , Ae , e where: E is the set of possible alternatives. Ae is a set of arguments supporting/attacking elements of E .
e is a (partial or complete) preordering on Ae .
The output is a preordering on E . Si Sj means that the extension Si is preferred to the extension Sj . Once the relation is identied, one can compute the intentions of an agent. The intentions are the set of plans belonging to the most preferred extension w.r.t. , and which achieve generated desires. Denition 13 (The intentions) The set of intentions is {pi Sj | pi Fp (d), d Output, and Sk , Sj Sk }.

Arguments.
A decision may have arguments in its favor (called PROS), and arguments against it (called CONS). Arguments PROS point out the existence of good consequences for a given decision. In our application, an argument PRO an extension Si points out the fact it achieves a generated desire, i.e. an element of the set Output. Formally:
Some decision criteria.
Different criteria for dening the preordering on E can be dened. In what follows, we will present some examples borrowed from [1], and adapted to our application, i.e. ordering sets of plans.
Denition 14 (Arguments PROS) Let Si E . An argument in favor of, or PRO, the extension Si is a triple A = pj , Si , dk such that pj Si , pj Fp (dk ), and dk Output. Let ArgP be the set of all such arguments that can built. Note that there are as many arguments as plans to carry out the same desire. Arguments CONS highlight the existence of bad consequences for a given decision, or the absence of good ones. Arguments CONS are dened by exhibiting a generated desire that is not achieved by the extension. Formally: Denition 15 (Arguments CONS) Let Si E . An argument against, or CONS, the extension Si is a pair A = Si , dk such that pj Si , pj Fp (dk ), and dk Output. Let ArgC be the set of all such arguments that can built. Note that some arguments may be stronger than others. For instance, an argument A = pj , Si , dk in favor of the extension Si may be preferred to an argument B = pj , Si , dl if the desire dk is preferred to the desire dl . In this case, the preference relation e is based on a preference relation d between the potential desires of D. The relation e can also be dened on the basis of the plans themselves. For instance, one may prefer the argument A over the argument B if the cost of pj is lower than the cost of the plan pj .
In what follows, GoalsX (Si ) be a function that returns for a given decision or extension Si , all the desires for which there exists an argument of type X (i.e. PROS or CONS) with conclusion Si . Let Si , Sj E . Si
1
Sj iff GoalsP (Si ) = , and GoalsP (Sj ) = (1)
The above criterion prefers the extension that achieves generated desires. This can be rened as follows: Si
2
Sj iff GoalsP (Si ) GoalsP (Sj ) (2)
The above criterion prefers the extension that achieves more generated desires. This partial preorder can be further rened into a complete preorder as follows: Si
3
Sj iff |GoalsP (Si )| > |GoalsP (Sj )| (3)
3 Illustrative example
Let us consider an agent who has the two following conditional desires: 1. To go on a journey to central Africa if he is in holidays. (hol jca) 2. To nish a publication if there is a deadline of a conference. (conf fp) In addition to the desires, the agent is supposed to have beliefs on the way of achieving a given desire:
21
t vac jca fp w ag t fr t hop vac dr vac with: t = to get the tickets, vac = to be vaccinated, w = to work, ag = to go to the agency, fr = to have a friend who may bring the tickets, hop = to go to the hospital, dr = to go to a doctor. For example, the rule t vac jca means that the agent believes that if he gets tickets and he is vaccinated then he will be able to go on a journey in central Africa. The rule w fp expresses that the agent believes that if he works then he will be able to nish his paper. To get tickets, the agent can either visit an agency or ask a friend of him to get them. Similarly, to be vaccinated, the agent has the choice between going to a doctor or going to the hospital. In these two last cases, the agent has two ways to achieve the same desire. An agent may have also another kind of beliefs representing integrity constraints and facts. In our example, we have: hol conf w ag w hop The two latter rules mean that the agent believes that if he works, he can neither visit an agency nor go to a doctor. In this example, the two conditional desires jca and fp are justied in the current state of the world since the they depend on beliefs (respectively hol and conf ) that are true. Moreover, both desires have at least a plan for achieving them. However, some ways of achieving the desires are conicting.
22
<{t, vac}, jca>
<{t, vac}, jca>
<{ag}, t>
<{hop}, vac>
<{fr}, t>
<{hop}, vac>
<{}, ag>
<{}, hop>
<{}, fr>
<{}, hop>
g1
g2
<{t, vac}, jca>
<{t, vac}, jca>
<{ag}, t>
<{dr}, vac>
<{fr}, t>
<{dr}, vac>
<{w}, fp>
<{}, ag> g3
<{}, dr>
<{}, fr> g4
<{}, dr>
<{}, w>
g5
Figure 1: Complete plans Of course, it would be ideal if all the desires can become intentions. As our example illustrates, this may not always be the case. We will answer the following questions: which desires will be pursued by the agent and with which plans? In this example, we have two arguments in favor of the conditional desires jca and fp. Let A = {hol, hol jca}, jca and B = {conf, conf fp}, fp . These arguments are not defeated at all, thus they belong to the grounded extension of the argumentation system. Consequently, Output = {jca, fp}. there are four complete plans (g1 , g2 , g3 , g4 ) for the desire going on a journey to central africa and exactly one complete plan g5 for the desire nishing the paper. These are given in gure 1. Moreover, g5 attacks g1 , g2 and g3 . Thus, there are exactly two extensions: S1 = {g1 , g2 , g3 , g4 } S2 = {g4 , g5 } The extension S1 is supported by four arguments: A1 = g1 , S1 , jca A2 = g2 , S1 , jca
A3 = g3 , S1 , jca A4 = g4 , S1 , jca The four arguments exhibits the same desire jca. However, the extension S2 is supported by only two arguments: B1 = g4 , S1 , jca B2 = g5 , S1 , fp However, the two arguments refer to two different desires. According to criterion (2), it is clear that S2 is preferred to S1 since GoalsP (S2 ) GoalsP (S1 ), knowing that GoalsP (S1 ) = {jca}, and GoalsP (S1 ) = {jca, fp}. The intensions to be pursued by the agent are then {g4 , g5 }.
dont specify how arguments are built from bases. Indeed, the structure and the origin of the arguments are left unknown and can be instantiated with any logic. Moreover, in that work it is not clear how intentions are chosen. Hulstijn and van der Torre [8], on the other hand, have a notion of desire rule, which contains only desires in the consequent. But their approach is still problematic. It requires that the selected goals are supported by goal trees which contain both desire rules and belief rules that are deductively consistent. This consistent deductive closure again does not distinguish between desire literals and belief literals (see Proposition 2 in [8]). This means that one cannot both believe p and desire p. Here again, the selection of intention is left unsolved.
4 Related works
Recently, a number of attempts have been made to use formal models of argumentation as a basis for practical reasoning. Some of these models (e.g. [2, 3, 8]) are instantiations of the abstract argumentation framework of Dung [7]. Others (e.g. [9, 12]) are based on an encoding of argumentative reasoning in logic programs. Finally, there are frameworks based on empirical approaches to practical reasoning and persuasion (e.g. [4, 13]). Our framework builds on the former, and is therefore a contribution towards formalising practical reasoning using abstract argumentation systems. Amgoud [2] presented an argumentation framework for generating consistent plans from a given set of desires and planning rules. This was later extended with argumentation frameworks that generate the desires themselves (see below). Amgoud and Kaci [3] have a notion of conditional rule, which is meant to generate desires from beliefs. Our framework is more general in the sense that we
5 Conclusion
This paper has presented the rst general and abstract framework for practical reasoning. It shows that this latter generalizes the decision making problem. We presented a formal model for reasoning about desires (generating desires and plans for achieving them) based on argumentation theory. We adapted the notions of attack and preference among arguments in order to capture the differences in arguing about desires and plans. One of the main advantages of our framework is that, being grounded in argumentation, it lends itself naturally to facilitating dialogues about desires and plans. Indeed, we are currently extending our framework with dialogue game protocols in order to facilitate negotiation and persuasion among agents. Another interesting area of future work is investigating the relationship between our framework and axiomatic approaches to BDI agents.
23
References
[1] L. Amgoud and H. Prade. Explaining qualitative decision under uncertainty by argumentation. In Proc. of the 21st National Conference on Articial Intelligence, AAAI06, pages 219224, 2006. [2] Leila Amgoud. A formal framework for handling conicting desires. In Thomas D. Nielsen and Nevin Lianwen Zhang, editors, Proc. ECSQARU, volume 2711 of LNCS, pages 552563. Springer, Germany, 2003. [3] Leila Amgoud and Souhila Kaci. On the generation of bipolar goals in argumentation-based negotiation. In Iyad Rahwan et al, editor, Proc. 1st Int. Workshop on Argumentation in Multi-Agent Systems (ArgMAS), volume 3366 of LNCS. Springer, Germany, 2005. [4] Katie Atkinson, Trevor BenchCapon, and Peter McBurney. Justifying practical reasoning. In C. Reed F. Grasso and G. Carenini, editors, Proc. Workshop on Computational Models of Natural Argument (CMNA), pages 8790, 2004. [5] M. Bratman. Intentions, plans, and practical reason. Harvard University Press, Massachusetts., 1987. [6] M. Bratman, D. Israel, and M. Pollack. Plans and resource bounded reasoning., volume 4. Computational Intelligence., 1988. [7] Phan Minh Dung. On the acceptability of arguments and its fundamental role in nonmonotonic reasoning, logic programming and nperson games. Articial Intelligence, 77(2):321358, 1995. [8] Joris Hulstijn and Leendert van der Torre. Combining goal generation
24
and planning in an argumentation framework. In Anthony Hunter and Jerome Lang, editors, Proc. Workshop on Argument, Dialogue and Decision, at NMR, Whistler, Canada, June 2004. [9] Antonis Kakas and Pavlos Moraitis. Argumentation based decision making for autonomous agents. In Proc. 2nd International Joint Conference on Autonomous Agents and Multiagent Systems (AAMAS), pages 883 890, Melbourne, Australia, 2003. [10] J. Raz. Practical reasoning. Oxford, Oxford University Press, 1978. [11] L. J. Savage. The Foundations of Statistics. Dover, New York, 1954. Reprinted by Dover, 1972. [12] Guillermo R. Simari, Alejandro J. Garcia, and Marcela Capobianco. Actions, planning and defeasible reasoning. In Proc. 10th International Workshop on Non-Monotonic Reasoning, pages 377384, 2004. [13] Yuqing Tang and Simon Parsons. Argumentation-based dialogues for deliberation. In Frank Dignum et al, editor, Proc. AAMAS, Utrecht, The Netherlands, pages 552559, New York NY, USA, 2005. ACM Press.
Planication multi-agent et diagnostic stratgique

Ramzi Ben Larbi benlarbi@cril.fr Sbastien Konieczny konieczny@cril.fr Pierre Marquis marquis@cril.fr
CRIL - CNRS, Universit dArtois, Lens Rsum : Quand plusieurs agents oprent dans un environnement commun, leurs plans peuvent interfrer. Le rsultat de chaque plan peut tre altr par cette interaction et la notion de plan valide de la planication classique (mono-agent) ne convient plus. Dans cet article, nous tendons ce cadre un cadre multi-agent. Nous montrons comment les "meilleurs" plans pour un agent rationnel peuvent tre caractriss en utilisant des notions de thorie des jeux, en particulier celle dquilibre de Nash. Nous identions par ailleurs les scnarios pour lesquels une coopration entre agents devrait seffectuer et montrons que nombre dinformations stratgiques peuvent tre drives du jeu. Mots-cls : Planication, interaction, systmes multi-agents Abstract: When several agents act in a common environment their plans may interfere. The predicted outcome of each plan may be altered and the usual notion of valid plan of classical (monoagent) planning is not adequate. In this paper we extend this framework to the multi-agent case. We show how the best plans of rational agents can be characterized using gametheoretic notions, especially Nash equilibrium. We also identify the scenarios for which a cooperation between agents is likely to occur and show that many strategic information can be derived from the game. Keywords: Planning, interaction, multiagent systems
fait que lagent connat ltat initial du monde, chaque action possible est dterministe et son rsulat peut tre parfaitement prdit quel que soit ltat o elle est excute, les buts sont binaires (i.e. un tat du monde est soit compltement satisfaisant soit compltement insatisfaisant), et le monde est statique dans le sens o la seule manire de le modier est dexcuter lune des actions de lagent (ainsi, non seulement il ny a pas dvnement exogne mais aussi le monde na pas de dynamique intrinsque). Dans cet article, nous tendons le cadre de la planication classique un cadre de planication multi-agent, i.e., nous considrons un groupe dagents. Chaque agent possde ses propres actions et buts. Les agents agissent dans un environnement commun. Dans ce cadre, les hypothses standard de planication classique sont faites (except le fait que les buts ne sont pas forcment binaires). Quand plus dun agent est considr, de telles hypothses de planication (en particulier, le monde statique et les actions dterministes) ne sont pas sufsantes pour permettre de prdire comment le monde va voluer aprs lexcution du plan. En effet, mme si les actions restent dterministes, linteraction entre les plans des agents introduit un surplus de complexit. Chaque agent ignore gnralement quels plans les autres agents vont nalement choisir et comment ses propres actions sintercaleront avec les leurs. Nous suggrons de pallier cela en utilisant des concepts de thorie des jeux qui permettront lagent de construire un diagnostic stratgique exprimant ses chances datteindre ses buts tant donnes les interactions possibles
25
1 Introduction
La modlisation de linteraction entre agents est un domaine de recherche qui a t explor depuis des annes en conomie, psychologie mais aussi intelligence articielle. En planication classique, on calcule des plans qui, une fois excuts, permettent lagent qui les a forms datteindre son but. Parmi les hypothses standard de planication classique gurent le
Planification ___________________________________________________________________________ multi-agent et diagnostic stratgique
avec les autres agents. Nous supposons que lagent connat les buts de chaque agent du groupe, ainsi que les plans que chaque agent peut proposer. Par ailleurs, les agents peuvent aussi se coordonner, ce qui veut dire quils peuvent dcider de btir un plan commun. Dans ce cas lincertitude cause par linteraction est dissipe. Mais il nest pas toujours dans lintrt de lagent de se coordonner. Exemple 1 Deux agents, un peintre et un lectricien, agissent dans une mme pice. Lampoule doit tre change (ce qui est le but de llectricien) et le plafond doit tre peint (ce qui est le but du peintre). Llectricien a une nouvelle ampoule et le peintre a le matriel ncessaire la peinture. Il y a une seule chelle dans la pice (lchelle est donc une ressource critique). De plus, le peintre a besoin de lumire pour peindre. Llectricien possde trois actions Prendre-EchelleElectricien (PEE), Changer-Ampoule (CA), Reposer-Echelle-Electricien (REE), et le peintre trois actions : PrendreEchelle-Peintre (PEP), Peindre (P), Reposer-Echelle-Peintre (REP). Peindre russit seulement si Changer-Ampoule a dj t excut. Prendre-Echelle-Peindre russit seulement si lchelle est disponible (i.e., elle a t repose auparavant). Les interactions suivantes peuvent tre facilement envisages : si le peintre prend lchelle en premier, il ne sera pas capable datteindre son but (lampoule doit tre change avant) ; sil ne repose pas lchelle, llectricien ne sera pas capable datteindre son but. si llectricien prend lchelle en premier, il sera capable datteindre son but ; alors, le peintre sera capable datteindre son but si et seulement si llctricien repose lchelle. En consquence, si les deux agents peuvent se coordonner pour excuter le plan joint PEE.CA.REE.PEP.P, alors les deux agents seront satisfaits.
26
Lide de se concentrer sur des plans linaires peut tre justie dans ce cadre lorsque lagent en charge de lexcution (qui peut tre diffrent de lagent qui construit le plan) ne peut observer lenvironnement et ainsi ne peut adapter son plan aux vnements extrieurs (i.e. actions des autres agents), ou lorsquil peut observer lenvironnement mais ne peut replanier dynamiquement cause dun manque de ressources calculatoires ou la prsence de contraintes temps rel (cest le cas par exemple dagents autonomes et mobiles comme des drones volant grande vitesse, ou des infobots - agents logiciels - devant agir sur des marchs hautement volatiles). Les questions cls que nous posons dans ce papier sont les deux suivantes : pour chaque agent du groupe, quels sont ses "meilleurs" plans ? Est-ce quun plan donn requiert une coordination an dtre excut dune manire satisfaisante pour les deux agents ? En nous concentrant principalement sur le cas de deux agents et en considrant seulement des buts binaires, nous montrons comment un jeu peut tre associ nimporte quel problme de planication multi-agent ; en consquence, les "meilleurs" plans pour un agent rationnel peuvent tre caractriss en utilisant des notions de thorie des jeux, spcialement lquilibre de Nash. Nous identions aussi les scnarios pour lesquels une coopration entre agents est opportune et montrons comment plusieurs informations stratgiques peuvent tre drives du jeu sous forme stratgique. Finalement, nous montrons que plusieurs cadres formels dans lesquels on considre linteraction entre agents peuvent tre intgrs au ntre, incluant ceux de la planication robuste et des jeux boolens.
2 Un cadre formel pour la planication multi-agent

On considre un groupe dagents N= {1, 2, , k }, o chaque agent est identi-
par un entier. Soit S un ensemble ni non vide dtats abstraits. Notons s0 ltat initial, suppos tre ltat actuel du monde. s0 est connu par chacun des agents de N. Chaque agent est associ un ensemble dactions : Dnition 1 (action) Une action est une application de S dans S. Lensemble des actions de lagent i est not Ai . Dans la suite, une action sera note par une lettre grecque (, , ). La dnition prcdente impose que les actions soient dterministes et toujours excutables. Cette dernire hypothse nest pas excessive. En effet, si lon veut modliser le fait quune action nest pas excutable si ltat du monde est s, on peut typiquement la reprsenter par une action qui ne change pas ltat du monde dans cet tat, i.e. (s) = s, ou qui conduit un tat "puits", i.e., (s) = s , avec s un tat qui a la pire valuation par rapport aux buts de lagent et tel que (s ) = s pour toute action . A partir de son ensemble dactions, chaque agent peut construire des plans : Dnition 2 (plan) Soit A un ensemble dactions. Un plan p sur A est une suite (possiblement vide) dactions de A, i.e. p = 1 .2 . .n , o chaque i A. Smantiquement, cest une application de S dans S, dnie partir de la composition de ses actions, i.e., pour toute action S , p(s) = s si p = (la squence vide), et p(s) = n ( (1 (s)) ) autrement. Lensemble des plans sur A est not A . Soit un plan p = 1 .2 . .n . Un sousplan de p est une sous-suite de ses actions, i.e., p = 1 . .m est un sousplan de p si et seulement si il existe une application strictement croissante t de {1, , m} dans {1, , n} telle que q {1, , m}, a = t(q) . Soit
un autre plan p = 1 . .k , p.p dnote la concatnation de p et p , i.e., p.p = 1 . .n .1 . .k . Enn, si p est un plan sur A, A(p) dnote le sous-ensemble de A form par les actions de p. Les buts dun agent sont exprims dune manire qualitative au moyen dune relation de prfrence (un pr-ordre) sur lensemble des tats : G i S S . Ainsi, pour s, s S, s G i s signie que pour chaque agent i, ltat s est au moins aussi prfr que s. Quand S est ni, chaque prordre G i sur S peut tre reprsent par une fonction relle Gi telle que pour tout s, s S , s G i s si et seulement si Gi (s) Gi (s ). Dans la suite, nous allons souvent nous concentrer sur le cas binaire dans lequel les tats sont diviss entre tats buts et tats non-buts : Dnition 3 (but binaire) On dit quun agent i a des buts binaires Gi S si et seulement si sa relation de prfrence i i G est telle que s G s si et seulement si i i / G . Nous utiliserons la s G ou s, s notation Gi (s) = 1 si s Gi et Gi (s) = 0 si s / Gi . Assez naturellement, toute relation de prfrence sur les tats induit une relation de prfrence sur les plans : Dnition 4 (prfrence sur les plans) Soit i un agent, A un ensemble de plans, s0 un tat et G i une relation de prfrence sur les tats. La relation de prfrence i sur A est dnie comme suit : pour tout p, p A , p i p si et seulement si p(s0 ) G i p (s0 ). La qualit dun plan est donne par la qualit de ltat atteint ; comme en planication classique, des critres additionnels (e.g., le cot du plan) peuvent tre utiliss pour discriminer les meilleurs plans
27
ainsi dnis. Dans plusieurs cas, il est raisonnable de supposer que seulement un sous-ensemble i de Ai est envisag par lagent i ; en particulier, cause de capacits de calcul limites, les plans dont la longueur excde un seuil donn peuvent tre limins. Toutefois, cela a du sens de considrer que i est clos pour les sousplans, i.e., quand un plan p appartient i , alors tout sous-plan de p appartient aussi i . En particulier, le plan vide appartient toujours i . Nous sommes maintenant prts dnir la notion de reprsentation dun agent et celle de problme de planication multi-agent : Dnition 5 (reprsentation dun agent) Chaque agent i N est caractris par un triplet A i = Ai , i , G i form par un ensemble dactions Ai , un ensemble de plans i Ai et une relation de prfrence G i . Dnition 6 (problme de planication multi-agent) Un problme de planication multi-agent (MAPP) pour un ensemble N dagents est un triplet S, s0 , {A i |i N } form par un ensemble dtats S, un tat initial s0 S et un ensemble de reprsentations dagents Ai . Un MAPP avec buts binaires est tel que chacun des agents possde une structure de buts binaire. Lorsque chaque agent a choisi un plan, la suite dvnements correspondant leur excution jointe est lun de leurs mlanges, sauf si une coordination est ralise. Nous notons lapplication de A A dans 2A qui associe chaque paire de plans pi et pj , lensemble contenant leurs mlanges : Dnition 7 (mlange, ensemble de mi i langes) Soit pi = 1 Ai , pj = . . . . .n j j j 1 . . . . .p A . Alors pi pj est lensemble de plans p qui sont des permutations de pi .pj pour lesquel pi et pj sont des
28
sous-plans. Chaque p est appel un mlange de pi et pj et pi pj est appel l ensemble de mlanges de pi et pj . Exemple 2 Reprenons lexemple 1 avec p1 le plan de llctricien : PEe.CA et p2 le plan du peintre : PEp.P. Alors p1 p2 = {PEe.CA.PEp.P, PEe.PEp.CA.P, PEe.PEp.P.CA, PEp. PEe.P.CA, PEp.P.PEe.CA, PEp.PEe. CA.P}. Observons que est une fonction permutative (i.e., commutative et associative). Il sen suit que les dnitions prcdentes de mlange et densemble de mlanges peuvent tre facilement tendues au cas o n > 2. Observons aussi que (la suite vide) est un lment neutre pour . Dans le cas dterministe avec un seul agent, valuer un plan est une tche facile. Ltat prdit est le rsultat de lexcution du plan. Caractriser un meilleur plan est aussi facile pour lagent considr : le plan est dautant meilleur que ltat atteint lest. Dans le cas non dterministe, lagent doit considrer tous les tats possiblement atteints et agrger leurs scores an dvaluer le plan (plusieurs fonctions dagrgation peuvent tre utilises, e.g. min (critre de Wald) pour traduire le comportement dun agent pessimiste, ou un critre dutilit espre quand les scores sont quantitatifs et les actions non dterministes sont donnes par des ensembles de distributions de probabilit). Dans le cas multi-agent (quoique dterministe), qui est le cas tudi dans cet article, la situation est similaire celle du cas non-dterministe un agent dans le sens o chaque agent doit considrer tous les tats possiblement atteints pour valuer ses plans. La diffrence principale vient de la nature de lincertitude : dans notre cadre, lincertitude vient de linteraction avec les plans fournis par les autres agents. En consquence, chaque agent doit exploiter le fait quil connat les reprsen-
tations des autres agents (il connat les buts des agents ainsi que leurs plans) an de dduire quel est son "meilleur" plan. Il diffre en cela du cas non dterministe o lincertitude vient de limpossibilit de prdire prcisement le rsultat de certaines actions, comme "tirer pile ou face". Dans plusieurs cas, une telle impossibilit rsulte dvnements extrieurs (sur lesquels notre connaissance est imparfaite), qui ne peuvent tre totalement observs ou prdits et qui ont un certain effet sur le monde. Par exemple, dans le cas de planication des mouvements dun robot, leffet normal de laction "avancer(1m)" est davancer le robot dun mtre ; toutefois, il se peut que cet effet normal ne se produise pas : si le sol est mouill (et que cela ne puisse pas tre observ), un effet exceptionnel de "avancer(1m) sera davancer le robot de 0.5 mtre, seulement. Toutefois, dans la section 5, nous expliquerons comment la planication robuste, qui traite le problme de trouver un plan robuste dans un cadre non dterministe, peut tre exprime dans notre cadre. Exemple 3 Si le peintre dans lexemple 1 propose le plan p = PEp.P.REp , il est seulement assur que les actions de p seront excuts dans lordre dsir. Alors quil connat la reprsentation de llectricien, il ne sait pas quel plan llectricien va proposer (en effet, lensemble des plans possibles nest en gnral pas un singleton). Mme si cet ensemble est un singleton, le peintre ignore encore lordre dexcution, i.e., comment son plan va sintercaler avec celui de llectricien. Supposons que llectricien propose le plan p = PEe.CA.REe, le plan joint qui va tre nalement excut peut tre nimporte quel plan de p p . Lincertitude rsultante disparait ds que les deux agents se coordonnent pour excuter un plan commun comme p = PEp.P.REp.PEe.CA.PEe. Dans notre approche, une tche capitale pour chaque agent est celle dvaluer lin-
teraction de ses plans avec ceux des autres agents. Formellement, cela requiert lvaluation de chaque ensemble de mlanges. A cette n, nous associons chaque ensemble de mlanges son prol de satisfaction (SP), qui est une vue rsume et abstraite de lvaluation des mlanges pour tous les agents du groupe. Expliquons comment construire un prol de satisfaction pour un groupe de deux agents ayant des buts binaires. Etant donne un couple de plans, pi i et pj j , chaque mlange de lensemble de mlanges pi pj est un plan construit partir des actions des deux agents ; lexcution dun tel plan conduit un tat spcique qui est plus ou moins satisfaisant pour chaque agent. Lvaluation dun plan dpend de ltat rsultant de son excution. On peut reprsenter lvaluation dun ensemble de mlanges par les agents en utilisant une reprsentation sur 2 axes (chaque axe exprime la satisfaction de lagent correspondant) qui associe un point de coordonnes (x,y) un mlange p ssi Gi (p(s0 )) = x et Gj (p(s0 )) = y . Notons quune telle reprsentation peut tre facilement gnralise au cas de n agents. Dnition 8 (prol de satisfaction) Soit un MAPP avec buts binaires pour un ensemble N = {1, . . . , m} dagents, avec un tat intial s0 . Un prol de satisfaction (SP) pour lensemble de mlanges p1 p2 . . . pk (pi i pour i {1, . . . k }) est un ensemble SP (p1 p2 . . . pk ) de vecteurs (x1 , . . . , xk ) vriant (x1 , . . . , xk ) SP (p1 p2 . . . pk ) si et seulement si p p1 p2 . . . pk tel que i {1, . . . k }, Gi (p(s0 )) = xi . Quand nous considrons seulement deux agents ayant des buts binaires, les prols de satisfaction possibles est dcrit dans la gure 1. De nombreuses conclusions peuvent tre tires partir de tels SPs. Ainsi, quelques
29
j 1 6 1 0 1-i j 4 6 1
0 1 i j 7 6 1
j 2 6 1
0 1 i j 5 6 1
j 3 6 1
0 1 i j 6 6 1
0 1 i j 8 6 1
0 1-i j 9 6 1
0 1-i 0 1-i 0 1-i j 10 j 6 11 j 6 12 6 1 1 1

0 1-i 0 1 i 0 1 i j 13 j 6 14 j 6 15 6 1 1 1
1 i
0 1 i
0 1 i
F IG . 1 SPs possibles dans le cas binaire avec deux agents SPs sont clairement meilleurs pour un agent donn que dautres. Clairement, SP 2 dans lequel les mlanges conduisent seulement des tats que lagent i value 1, est plus intressant pour lui que SP 10, dans lequel les mlanges conduisent toujours des tats non buts pour cet agent. De plus, considrons SP 3 : pour chacun des deux agents, au moins lun des mlanges conduit un mauvais tat (i.e., un tat non but), et au moins lun des mlanges conduit un tat but. Cet SP montre aussi lexsistence dau moins un mlange gagnant-gagnant (valu comme le vecteur (1,1)). Dans un tel cas, si les deux agents sont rationnels (i.e., ils agissent pour changer le monde vers un tat but), alors il devraient se coordonner pour excuter un tel mlange. En effet, la coordination est un moyen dliminer lincertitude. Si les deux agents i et j proposent deux plans pi Ai et pj Aj de manire indpendante, ils courent le risque que lexcution jointe de
30
pi pj conduise un tat valu (0,1) ou (1,0), auquel cas, lun des agents sera insatisfait. A linverse, sils se coordonnent et proposent conjointement un plan correspondant un mlange gagnant-gagnant, ils auront la garantie dtre tous deux satisfaits. Dans une situation correspondant au SP 3, les deux agents ont intrt offrir (et accepter) une coordination. En labsence de plus dinformation (comme une distribution de probabilit sur lensemble des mlanges), cela a un sens de classer les SPs sur une chelle ordinale. Prenons pour cela le point de vue de lagent i et montrons comment les SPs peuvent tre rassembls et ordonns : Toujours Satisfait SP 1,2,5. Pour ces SPs, lagent i est assur datteindre ses buts mme si lagent j naccepte aucune coordination. Cest le cas le plus favorable pour i. Intrt Mutuel SP 3,4,9,13,14. Pour chacun de ces SPs, une certaine excution jointe est bnque et dautres non (pour les deux agents), mais ils partagent tous le vecteur (1,1), ce qui signie que si les deux agents se coordonnent, il peuvent tous deux atteindre leurs buts. Dpendance SP 8,11. Pour ces SPs, lvaluation des mlanges par lautre agent est constante. Cela signie que, a priori, il ny a aucune raison pour lautre agent daccepter une coordination an daider lagent i atteindre son but. Antagonisme SP 12,15. Ces SPs retent des situations plus problmatiques tant donn que les intrts des deux agents sont clairement distincts. Cela signie que si lun est satisfait, alors lautre ne lest pas ( i.e. la coordination (1,1) nest pas une option). Dans de tels cas, lagent i peut juste esprer que lexcution jointe lui sera favorable. Toujours Insatisfait SP 6,7,10. Quelle que soit la suite des vnements, lagent i sera insatisfait (aucune excution jointe ne permet lagent datteindre son but). De tels SPs sont clairement les pires pour lagent i.
Notre thse est que, en labsence dinformation supplmentaire, une telle classication est la plus rationnelle. Par consquent, nous considrons que chaque agent possde les prfrences suivantes sur les valuations des ensembles de mlanges : Toujours Satisfait> Intrt Mutuel > Dpendance > Antagonisme> Toujours Insatisfait X>Y signie que les SPs de la classe X sont strictement prfrs ceux de la classe Y. Tous les SPs dune mme classe sont indiffrents. On peut facilement encoder un tel prordre total en utilisant des nombres. Ainsi, nous crivons ei (pi pj ) = 4 si et seulement si SP (pi pj ) Toujours Satisfait(i), , ei (pi pj ) = 0 si et seulement si SP (pi pj ) Toujours Insatisfait(i) (voir table1).
3 Rsolution du jeu et gnration de diagnostic stratgique

A partir de la construction prcdente, nous sommes maintenant capables dassocier chaque mlange une valuation pour chaque agent. Ceci nous permet de modliser linteraction entre les plans des agents comme un jeu (non-coopratif) sous forme stratgique. En faisant cela, on peut utiliser deux concepts de solutions pour ces jeux : ceux de niveau de scurit et dquilibre de Nash. En effet, chaque MAPP buts binaires pour un ensemble de deux agents N={i, j }, on peut associer un jeu sous forme stratgique, dni par lensemble N de joueurs, lensemble de stratgies pour chaque joueur (les ensembles i et j de plans dans notre cas), et par une fonction dvaluation pour chaque joueur qui associe une valuation chaque prol de stratgies (les valuations ei (pi pj ) et ej (pi pj ) pour chaque ensemble de mlanges pi pj dans notre cas). Exemple 4 Considrons le MAPP suivant : S, s0 , {A i | i 1, 2} . A 1 = 2 2 2 A1 , 1 = {p1 , p1 }, 1 G . A = A , = 2 {p2 , p2 }, G . Supposons quil en rsulte le SP de la gure 2 :
Classe Evaluation Toujours Satisfait 4 Intrt Mutuel 3 Dpendance 2 Antagonisme 1 Toujours Insatisfait 0
TAB . 1 Evaluation des SPs
De telles valuations ei (pi pj ) peuvent grossirement tre vues comme des utilits, mais elles ne dpendent pas seulement des buts de lagent i. Notons aussi que les nombres utiliss importent peu, seul lordre compte (notre cadre nest pas quantitatif). Notons nalement que, alors que les dnitions venir vont utiliser des valuations ei (pi pj ) et ej (pi pj ), elles ont encore du sens quand dautres valuations sont utilises. Ainsi, si quelquun est en dsaccord avec lchelle propose, les dnitons suivantes sappliquent toujours (tant que lon utilise une valuation qui permet de comparer tous les couples de plans).
2 p1 p2 6 1 -1 0 1 2 6 p 1 p2 1
2 6 1
p1 p 2
0 1 -1 2 6 p1p2 1
-1 1
-1 1
F IG . 2 Exemple de SPs On peut maintenant associer un MAPP avec le jeu suivant sous forme stratgique de la table 2 Une premire analyse quun agent peut faire est base sur la notion de niveau de
31
p2 p2 p1 (3,3) (0,4) p1 (4,0) (1,1)
TAB . 2 Jeu associ scurit de ses plans. Dnition 9 (niveau de scurit dun plan) Etant donn un MAPP avec buts binaires pour N = {1, 2}, le niveau de scurit dun plan pi dun agent i (i N ) face un ensemble j de plan de lagent j (j = i) est dni comme lvaluation minimum de lensemble de mlanges entre le plan pi et un plan du joueur j , i.e., Sj (pi ) = minj ei (pi pj ).
pj
raisonnable dutiliser les niveaux de scurit pour comparer des mlanges. Toutefois, les niveaux de scurit ne prennent pas en compte toutes les opportunits offertes aux agents. Une notion de solution beaucoup plus largement accepte est base sur la notion dquilibre de Nash. Dnition 11 (quilibre de Nash) Etant donn un MAPP avec buts binaires pour N = {i, j }, un couple de plans pi i , pj j est un quilibre de Nash si aucun des agents ne peut avoir une meilleure valuation en choisissant un autre plan, i.e., pi , pj est un quilibre de Nash si et seulement si p i s.t ei (p pj ) > ei (pi pj ) et p j s.t. ej (pi p) > ej (pi pj ). Exemple 5 Revenons au jeu donn la table 2. Considrons le couple p1 , p2 . Lagent 1 na aucun intrt dvier seul de ce couple. En effet, p1 , p2 le conduit une situation moins favorable (e1 (p1 p2 ) < e1 (p1 p2 )). De mme, p1 , p2 est clairement moins favorable lagent 2 que p1 , p2 . Ainsi, on peut conclure que p1 , p2 est un quilibre de Nash. Il est facile de vrier que cest le seul du jeu. Comme dans le cas gnral en thorie des jeux, il se peut dans notre cadre quun jeu nait pas dquilibre de Nash en stratgie pure [?], ou quil y en ait plusieurs. Quand il y a plusieurs quilibres de Nash, dautres critres, comme la Pareto optimalit 1 , sont souvent utiliss pour les diffrentier. Les propositions suivantes donnent deux conditions sufsantes lexistence dun quilibre de Nash. Proposition 1 Considrons un MAPP avec buts binaires et deux agents 1 et 2 tel que G1 = G2 . Alors le jeu associ exhibe un quilibre de Nash.
1 Un vecteur Pareto domine un autre si chacune des composantes du premier est suprieure ou gale la composante correspondante du second
A partir des niveaux de scurit des plans dun agent on peut dnir le niveau de scurit de lagent : Dnition 10 (niveau de scurit dun agent) Etant donn un MAPP avec buts binaires N = {1, 2}, le niveau de scurit de lagent i face lensemble j de plans de lagent j est le plus grand niveau de scurit des plans de lagent i, i.e., Sj (pi ). Sj (i) = max i
pi
Une solution au jeu associ un MAPP donn peut tre dnie comme un couple de plans p1 1 , p2 2 telle que p1 (resp. p2 ) maximise le niveau de scurit de lagent 1 ( resp 2) face 2 (resp. 1 ). Une telle solution a du sens dans notre cadre tant donn quelle peut tre vue comme une analyse au pire cas de linteraction stratgique. En effet, les SPs sont des ensembles de vecteurs de satisfaction possibles, et comme la classication des SPs que nous avons fournie repose sur une analyse au pire cas, il semble
32
Autrement dit, si les deux agents partagent les mmes buts et sil existe un plan form sur lensemble de leurs actions qui permette dy parvenir, alors le modle prsent retient ce plan comme solution. Proposition 2 Considrons un MAPP avec buts binaires pour deux agents 1 et 2. Notons G1,+ (resp. G2,+ ) le sous-ensemble G1 (resp. G2 ) des tats atteignables en utilisant des plans sur A1 (resp. A2 ) et G1,2,+ (resp. G2,1,+ ) le sous-ensemble de G1 (resp. G2 ) des tats atteignables en utilisant des plans sur A1 A2 . Si G1,+ = G2,+ = et G1,2,+ = G2,1,+ = , alors le jeu associ au MAPP exhibe un quilibre de Nash. Notons que, dans notre cadre, le dilemne des prisonniers, un jeu particulier largement tudi[?, ?], peut aussi tre atteint. Exemple 6 Considrons encore une fois l exemple 4. Le jeu associ (table 2) exhibe une situation de dilemne du prisonnier . p1 , p2 est un quilibre de Nash. Le couple p1 , p2 qui est plus protable que p1 , p2 pour les deux agents nest pas un quilibre de Nash (chaque agent est tent dutiliser un autre plan). Au del de la notion de solution, chacun des deux agents i et j considrs dans le MAPP peut driver beaucoup dinformations stratgiques partir du jeu sous forme stratgique associ. Concentrons nous sur les notions de plans robustes, deffets de synergie, et dindpendance. Un plan pi pour lagent i est robuste par rapport lagent j si et seulement si son excution jointe avec nimporte quel plan de lagent j lui assure datteindre son but. Dans le jeu sous forme stratgique, un tel plan correspond une ligne (ou colonne) pour laquelle toutes les valuations pour cet agent sont gales 4 : pj j , ei (pi pj ) = 4 . Assez clairement, un tel plan maximise le niveau de scurit de lagent i. Si un plan robuste existe
pour un agent i, alors aucune coordination nest ncssaire avec lagent j. Lexistence dune synergie entre deux agents peut assez facilement tre dduite du jeu sous forme stratgique. En effet, un effet synergtique pour les agents i et j est possible si et seulement si il existe pi i et pj j tel que ei (pi pj ) > maxpi ei (p) et ej (pi pj ) > maxpj ej (p). Assez clairement, aucun effet synergtique nest possible quand au moins lun des agents possde un plan robuste. La proposition suivante donne une condition sufsante pour assurer quun couple de plans p1 , p2 exhibant un effet synergtique pour les deux agents 1 et 2 soit aussi une solution du jeu : Proposition 3 Considrons un MAPP avec buts binaires et deux agents 1 et 2. Supposons que p (A1 A2 ) satisfaisant G1 (p(s0 )) = 1 et G2 (p(s0 )) = 1 et p (A1 A2 ) , p = p (G1 (p (s0 )) = 0 et G2 (p (s0 )) = 0). Soient p1 1 , p2 2 . Si p p1 p2 alors p1 , p2 est un quilibre de Nash du jeu associ. Une notion dindpendance entre agents, retant le fait quil ny a pas dinteraction entre leurs plans, peut aussi tre facilement drive du jeu sous forme stratgique. En effet, les deux agents sont indpendants si et seulement si pi i , pj j , ei (pi pj ) = ei (pi ) et ej (pi pj ) = ej ( pj ).
4 Exemple : le pont
On considre deux agents 1 et 2. Lagent 1 est en position a et lagent 2 est en position b. An daller de a c, lagent 1 doit traverser le pont, qui doit tre ouvert auparavant (action B 1 ). Il en va de mme pour 2 (action B 2 ). Si le pont est ouvert pour 1, il est ferm pour 2 et inversement. Chaque agent a une action C i lui permettant de traverser le pont (mais requiert que le pont soit ouvert pour russir), i.e., C 1 change la
33
position de lagent 1 de a c. Lagent 1 a une action supplmentaire J 1 qui lui pemet de sauter par dessus le pont. En utilisant cette action, lagent 1 na pas besoin douvrir le pont. Cette action conduit directement lagent 1 la position c.
d 1 a b2 c
J1 B1C 1 B1J 1 C 1J 1 J 1B1 J 1C 1
0, 0 4, 0 4, 0 4, 0 4, 0 4, 0 4, 0
B2C 2 0, 4 4, 4 3, 3 4, 2 4, 4 4, 2 4, 4
F IG . 3 Traverser le pont Clairement, lagent 1 doit excuter le plan B 1 .C 1 ou le plan J 1 an datteindre la position dsire ; lagent 2 doit excuter B 2 .C 2 . Etant donn quun agent ne peut ouvrir le pont pour un autre, les plans qui ne contiennent pas lun de ces sousplans ne peuvent conduire un tat but. Si chaque agent tait tout seul dans cet environnement, le problme de planication serait facilement rsolu tant donn quun agent serait alors sr datteindre son but (B i .C i permet datteindre le but de i). Ce nest plus la mme histoire lorsque les deux agents agissent conjointement. En effet, dans ce cas, une coordination est ncessaire : si lexcution jointe est B 1 .B 2 .C 1 .C 2 lagent 1 ne pourra pas traverser le pont et ne pourra pas atteindre son but. Reprsentons le jeu sous forme stratgique associ ce problme de planication multi-agent. Nous restreignons la longueur des plans examins deux actions (observons que les plans de longueur suprieure 2 sont inutiles). Ce jeu peut tre simpli en supprimant les plans nuls (un plan nul est un plan qui conduit une satisfaction de 0 quel que soit le mlange dans lequel il est impliqu). Toutefois, nous gardons le plan dans la version simplie, mme lorsque cest un plan nul (voir Table 3). Avec nimporte lequel des plans J 1 .B 1 , J 1 .C 1 , J 1 , B 1 .J 1 ou C 1 .J 1 , lagent 1 a un niveau de scurit de 4. Comme J 1 est
34
TAB . 3 Jeu sous forme stratgique (simpli) un sous-plan de tous ces plans, les autres plans incluent des actions inutiles. Lagent 1 va probablement choisir le plan J 1 . Pour lagent 2, le seul plan dont le niveau de scurit est non nul est B 2 .C 2 (tous les autres plans sont des plans nuls, ils ne peuvent donc conduire un tat but). Ainsi, dans cette situation, le rsultat probable du jeu sera le couple de plans J 1 , B 2 .C 2 qui est value 4 par chaque agent, ce qui signie que les deux agents vont srement atteindre leurs buts et que cette situation stratgique ne requiert aucune coordination. Lagent 1 peut aussi choisir B 1 .J 1 au lieu de J 1 . Ces deux plans sont pareillement valus par lagent 1. Cependant, avec B 1 .J 1 lagent 1 peut sassurer que le plan de lagent 2 obtiendra une plus faible valuation (2 au lieu de 4) face J 1 . Si lagent 1 choisit B 1 .J 1 , il exhibe un comportement agressif par rapport lagent 2. On ne dveloppera pas ce point dans la suite, mais il est intressant dobserver que de telles attitudes peuvent tre modlises dans notre cadre. Les quilibres de Nash de ce MAPP correspondent ici exactement aux solutions obtenues en utilisant la notion de niveau de scurit.
5 Gnralit du cadre
Nous allons voir dans ce paragraphe que plusieurs cadres formels dans lesquels on considre linteraction entre agents
peuvent tre facilement vus comme des cas particuliers du ntre. Il sagit de la planication robuste et des jeux boolens. 5.1 Planication robuste En planication robuste (see e.g. [?]), le but est de dterminer si une suite dactions (i.e., un plan) est robuste, i.e., sil permet datteindre le but pour toutes les contingences possibles. Dnition 12 (planication robuste) Une action non dterministe sur un ensemble ni et non vide S dtats est une application de S dans 2S \ {}. Un plan non dterministe sur un ensemble A dactions non dterministes est une suite nie dlments de A. Une trajectoire pour un plan non dterministe = 1 . . n tant donn un tat initial s0 S est une suite dtats sO , . . . , sn+1 telle que pour tout i 0 . . . n, si+1 i (si ). Un plan non dterministe = 1 . . n sur A est robuste pour un but G S tant donn un tat initial s0 S si et seulement si pour chaque trajectoire sO , . . . , sn+1 pour , sn+1 G. Le problme de la planication robuste peut tre facilement exprim dans notre cadre. Le codage est assez technique, donnons-en simplement le principe : lide est de considrer chaque trajectoire du plan non dterministe considr comme le rsultat dun mlange avec le plan dun second agent qui joue le rle de la nature ; considrons la premire action de et supposons quelle possde au plus k effets ; dans ce cas, le plan du second agent va dbuter par le sous-plan 1 , ..., k , o j est laction vide si na pas t excute lorsque j est rencontre (information que lon mmorise dans les tats via un uent supplmentaire), et produit le kme effet de sinon ; il reste essentiellement
rpter ce traitement pour les actions suivantes de en mettant jour le plan du second agent par concatnation avec les sous-plans produits chaque tape. 5.2 Jeux boolens Les jeux boolens (see e.g. [?, ?]) traitent le cas dagents contrlant un ensemble de variables (binaires) propositionnelles. Plus prcisement, ce sont des jeux o les utilits des agents sont binaires et les buts sont spcis par des formules propositionnelles. Dnition 13 (jeu boolen) Un jeu boolen est un quadruplet A, V, , o A = {1 n} est un ensemble dagents, V est un ensemble de variables propositionnelles (variables de dcision), : A 2V une fonction dassignation qui induit une partition {1 , , n } de V o i est lensemble de variables contrles par lagent i, = {1 n } un ensemble de formules propositionnelles. Pour un joueur i A, une stratgie est une instanciation des variables quil contrle (i.e., une application de (i) = i dans {0, 1}). Un prol de stratgies P consiste en linstanciation de toutes les variables considres et peut tre vu comme une application de V dans {0, 1}). Un agent i est satisfait par un prol de stratgies P si et seulement si P est un modle de i . On peut exprimer ce cadre dans le ntre en associant chaque variable v V une action v + qui affecte la variable v 1. A chaque jeu boolen G = A, V, , nous associons un MAPP S, s0 , {A i | i 1 n} o P est lensemble de toutes les affectations de V , s0 est laffectation telle que s0 (v ) = 0 pour tout v V . Pour chaque agent i, Ai = {v + | v i }, i est le sous ensemble de plans de Ai tels que chaque action possde au plus une seule occurence dans chaque plan et Gi est lensemble des modles de i .
35
6 Conclusion
Dans ce travail, nous avons propos un cadre pour modliser des problmes de planication multi-agents. Ce cadre nous permet de former diverses conclusions stratgiques propos dinteractions spciques et nous permet de "rsoudre" de nombreuses situations. Ce travail ouvre de nombreuses perspectives. Lune delles consiste ajouter des cots aux actions, comme dans certains problmes de planication. Dans ce cas, lobjectif principal de chaque agent est datteindre un tat but et un objectif auxiliaire est de driver un plan de cot minimal. Une autre extension est de considrer plus en profondeur le cas de n agents (n>2), et de rechercher les coalitions possibles dans ce cadre. Si de nombreux travaux ont t consacrs la planication multi-agent, on y suppose souvent que les agents partagent un certain nombre de buts. Relcher cette hypothse a un impact majeur sur les approches possibles du problme et appelle des notions provenant de la thorie des jeux. Une approche comparable la ntre est dcrite dans [?]. Dans ce papier, les politiques sont values au niveau du groupe par rapport chaque agent et les "meilleures" sont caractriss comme des quilibres de Nash, comme cest le cas dans notre travail. Cette approche est nanmoins diffrente de la ntre par de nombreux aspects : le cadre formel considr est celui de la planication sous incertitude et observabilit totale et non celui de la planication classique. Des actions non dterministes sont considres et un ensemble dtats initiaux possibles (et non un seul tat) est connu par chaque agent. Les politiques sont des applications associant des actions des tats et non des plans linaires (suites dactions), et la qualit dun plan nest pas binaire par essence ( linverse de ce qui se passe dans le cadre classique).
36
les politiques au niveau du groupe font partie de lentre du problme mais les politiques au niveau des agents ne le sont pas (alors que les plans possibles au niveau du groupe sont caractriss comme des mlanges de plans au niveau des agents dans notre travail). enn, aucune notion de diagnostic stratgique nest aborde (en particulier, le besoin de coordination ne peut tre dduit de lentre considre).
Remerciements
Merci aux relecteurs pour leurs remarques avises. Les auteurs ont bnci du soutien de la Rgion Nord/Pas-de-Calais, de lIRCICA et du programme FEDER de la Communaut Europenne.
Rfrences
[1] R. Axelrod. The Evolution of Cooperation. Basic Books, New York, USA, 1984. [2] B. Beauls, J.-P. Delahaye, and Ph. Mathieu. Complete classes of strategies for the classical iterated prisoners dilemma. In Proc. of EP98, pages 33 41, 1998. [3] E. Bonzon, M.-C. Lagasquie-Schiex, J. Lang, and B. Zanuttini. Boolean games revisited. In Proc. of ECAI06, pages 265269, 2006. [4] M.H. Bowling, R.M. Jensen, and M.M. Veloso. A formalization of equilibria for multiagent planning. In Proc. of IJCAI03, pages 14601462, 2003. [5] A. Cimatti and M. Roveri. Conformant planning via model checking. In Proc. of ECP99, pages 2134, 1999. [6] P. Harrenstein. Logic in Conict. PhD thesis, Utrecht University, 2004. [7] J.F Nash. Equilibrium points in nperson games. Proc. of the National Academy of Sciences of the USA, 36(1) :4849, 1950.
Les reprsentations prdictives des tats et des politiques

A. Boularias boularia@damas.ift.ulaval.ca B. Chaib-draa chaib@damas.ift.ulaval.ca
Laboratoire DAMAS Dpartement dinformatique et gnie logiciel, Universit Laval G1K7P4, Qubec Canada Rsum : Nous proposons dans cet article une nouvelle approche pour reprsenter les politiques (stratgies) dans les environnements stochastiques et partiellement observables. Nous nous intressons plus particulirement aux systmes multi-agents, o chaque agent connat uniquement ses propres politiques, et doit choisir la meilleure parmi elles selon son tat de croyance sur les politiques du reste des agents. Notre modle utilise moins de paramtres que les mthodes de reprsentation usuelles, telles que les arbres de dcision ou les contrleurs dtats nis stochastiques, permettant ainsi une acclration des algorithmes de planication. Nous montrons aussi comment ce modle peut tre utilis efcacement dans le cas de la planication multiagents cooprative et sans communication, les rsultats empiriques sont compars avec le modle DEC-POMDP (Decentralized Partially Observable Markov Decision Process). Mots-cls : Incertitude, PSRs, POMDPs, DECPOMDPs. Abstract: We discuss the problem of policy representation in stochastic and partially observable systems, and address the case where the policy is a hidden parameter of the planning problem. We present a new model that generalizes the predictive state representations (PSRs) by introducing tests about the policy. Our approach uses less parameters than the usual policy representation methods, such as the decision trees or the stochastic nite-state controllers. We show how this model can be used efciently in the cooperative multi-agent planning, and compare it empirically with the Decentralized Partially Observable Markov Decision Process (DEC-POMDP). Keywords: Uncertainty, PSRs, POMDPs, DECPOMDPs.
1 Introduction
La planication est certainement lune des tches les plus importantes pour nimporte
quel agent voluant dans un environnement dynamique. Un environnement dynamique est un systme qui ragit aux actions de lagent en changeant son tat, et en produisant en mme temps des observations qui permettent lagent de dduire le nouveau tat. Lobjectif de la planication est datteindre certains tats dsirables du systme en choisissant laction approprie dans chacun des tats intermdiaires. Cependant, dans la plupart des environnements du monde rel, ltat du systme est partiellement observable, et leffet des actions sur lvolution du systme est non dterministe. Les processus dcisionnels de Markov partiellement observables (POMDPs : Partially Observable Markov Decision Processes) est un modle trs populaire utilis pour rsoudre ce type de problmes, et plusieurs algorithmes efcaces pour rsoudre les POMDPs ont t dvelopps auparavant. Les POMDPs utilisent une reprsentation explicite de ltat sous-jacent (cach) sous la forme dune distribution de probabilit sur tous les tats du systme. Ce vecteur de probabilit, appel ltat de croyance, dpend directement du nombre dtats spcis dans le modle, ce qui rend les algorithmes de planication extrmement lents pour les problmes trs large espace des tats. Les reprsentations prdictives des tats (PSRs : Predictive State Representations) [1, 2] est une mthode alternative, rcente et prometteuse, permettant de rsoudre efcacement ce mme type de problmes. Contrairement aux POMDPs, ltat de croyance dans les PSRs est reprsent par un vecteur de probabilits sur des entits compltement observables appeles tests. Les
37
Les ___________________________________________________________________________ reprsentations prdictives des tats et des problmes
tests sont des squences nies dactions et dobservations. De ce fait, lun des avantages immdiats des PSRs est que lagent peut apprendre plus facilement le modle stochastique de transition et dobservation juste en interagissant avec son environnement [3]. De plus, lagent doit garder uniquement la quantit dinformation (rete par le nombre de paramtres) sufsante pour prdire lvolution future du systme. Il a t aussi prouv que dans un type particulier des PSRs, appels les PSRs linaires, on peut rutiliser tous les algorithmes de planications dvelopps originalement pour les POMDPs, sans faire une grande modication [4]. Dans plusieurs situations, ltat du systme nest pas le seul paramtre cach du problme, la politique de lagent peut ltre aussi. En effet, dun point de vue externe, lagent est lui mme considr comme un systme dynamique qui ragit aux observations quil reoit en produisant des actions, selon une politique qui peut y aller dune simple fonction ractive : observationaction, un contrleur dtats nis stochastique. Les mthodes de recherche de la politique optimale (Policy Search) maintiennent des probabilits sur les diffrentes politiques, reprsentant la croyance de lagent propos de la politique optimale. Dans les systmes multiagents, la politique dun agent ne peut pas connue des autres, sauf si la communication est possible, et que les agents sont dans un contexte de coopration. La gure 1 montre un problme classique de navigation de robots dans une grille 3 3. Les deux agents, agent 1 and agent 2, choisissent leurs actions de lensemble suivant : Right, Left, Up, Down, et reoivent comme observation W : Lagent vient de toucher un mur , ou N : Pas de mur touch. Si lobjectif de lagent 1 est de rencontrer lagent 2, on comprend alors facilement que lagent 1 doit connatre la politique de lagent 2 pour pouvoir trouver la meilleure politique qui mne vers un point de rencontre. Mais lagent 1 ne peut connatre
38
quun tat de croyance sur les politiques de lagent 2, reprsent par des paramtres probabilistes. La gure 2 montre un ensemble de politiques possibles pour lagent 2. Intuitivement, lagent 1 doit maintenir une distribution de probabilit sur toutes ces politiques, et rsoudre le problme de la planication en utilisant cette reprsentation. Malheureusement, cette reprsentation utilise un nombre de paramtres (probabilits) qui est gal au nombre de politiques, et donc doublement exponentiel en longueur de lhorizon, et en nombre dobservations. Par consquence, le cot de la solution est trs lev en termes du temps dexcution et de lespace mmoire. Dune manire gnrale, lagent fait face deux types dincertitudes : dun cot, lincertitude sur ltat du systme, et de lautre cot, lincertitude sur la politique (qui peut tre la politique dun autre agent, ou la politique optimale que lagent cherche). Le modle des reprsentations prdictives des tats et des politiques (PSPR : Predictive State and Policy Representations) que nous proposons dans cet article, est une tentative dunier ces deux problmes. En effet, on utilise le mme principe, qui est les prdictions, pour reprsenter les croyances sur les tats et sur les politiques. Lorsque la politique nest pas cache, ce modle permet plutt de reprsenter la politique dune manire potentiellement plus compacte que les autres mthodes, telles que les arbres de dcision par exemple. Dans la prochaine section, nous prsentons une description tendue des reprsentations prdictives des tats. Dans la section 3, on dcrit le modle PSPR en introduisant la notion des tests sur la politique, nous prsentons aussi quelques rsultats thoriques sur la puissance des PSPRs. On montre par la suite comment ce modle peut tre utilis dans un contexte de planication multi-agent cooprative et sans communication. On compare alors les rsultats empiriques dun algorithme de planication (Programmation Dynamique en

Up
Left
Stay Down
Right
F IG . 1 Un environnement de navigation de robots dans une grille 3 3.

R
N W N
R
W N
R
W N
R
W
U
N W N
D
W N
U
W N
D
W N
U
W N
D
W N
U
W N
D
W
p(P0)=0.0625
R
N W
p(P1)=0.0625
R
N W
p(P2)=0.0625
R
N W
p(P3)=0.0625
R
N W
tion a. : Un facteur descompte. t : Lhorizon de la planication. b0 : La distribution de probabilit initiale sur les tats du systme. Notant que les deux derniers paramtres (t et b0 ) sont optionnels. Un tat de croyance bk = (P r(s0 ), P r(s1 ), . . . , P r(s|S|1 )) est une distribution de probabilit sur les tats du systme ltape k. La proprit de Markov garantit que lhistorique du systme est encapsul dans cet tat de croyance. En effet, on commence avec un tat initial b0 , et chaque fois que lagent applique une action a et reoit une observation o, il met jours bk en utilisant la rgle de Bayes :
P r(s |bk , a, o) =
sS
U
N W N
D
W N
U
W N
D
W N
U
W N
D
W N
U
W N
D
W
R R
N
R R
L R
L R
p(P4)=0.0625
W
p(P5)=0.0625
N W
p(P6)=0.0625
N W
p(P7)=0.0625
N W
s S
sS
T (s, a, o, s ) T (s, a, o, s )
U
N W N
D
W N
U
W N
D
W N
U
W N
D
W N
U
W N
D
W
p(P8)=0.0625
R
N W
p(P9)=0.0625
R
N W
p(P10)=0.0625
R
N W
p(P11)=0.0625
R
N W
Dans le reste de cette section, nous prsenterons une brve rcapitulation des principes des PSRs tels que dcrit dans [2]. Lide fondamentale des PSRs est de reprsenter ltat cach du systme avec une distribution de probabilit sur tous les scnarios futurs possibles qui peuvent se produirent. Un scnario est une squence ordonne des pairs action-observation, quon appel 1 test de ltat et quon dnote par 2 st = a1 o1 a2 o2 . . . ak ok . La probabilit que le test st russisse est donne par P r(st) = P r(o1 = o1 , o2 = o2 , . . . ok = ok |a1 = a1 , a2 = a2 , . . . ak = ak ). Dans le cas gnral, la probabilit de russir le test st en commenant ltape i est P r(st|hi ) = P r(oi+1 = o1 , oi+2 = o2 , . . . oi+k = ok |hi , ai+1 = a1 , a2 = a2 , . . . ai+k = ak ), ou hi = a0 o0 a1 o1 . . . ai oi est lhistorique complet du systme jusqu linstant i. La matrice
1 Cette entit est appele test de ltat au lieu de test seulement comme dans [1, 2] , pour pouvoir la distinguer dun autre type de tests que nous introduisons dans le reste de cet article. 2 on dnote par a (resp. o ) laction courante (resp. obseri i vation) ltape i, et ai (resp. oi ) une certaine action (resp. observation) donne de lensemble A (resp. O).
U
N W N
D
W N
U
W N
D
W N
U
W N
D
W N
U
W N
D
W
p(P12)=0.0625
p(P13)=0.0625
p(P14)=0.0625
p(P15)=0.0625
F IG . 2 Une distribution de probabilit sur lensemble des politiques. loccurrence) utilis avec le modle PSPR et avec le modle DEC-POMDP [5, 6, 7].
2 Rappel sur les POMDPs et les PSRs

Formellement, un POMDP est de : S : Un ensemble ni des tats du systme. A : Un ensemble ni des actions de lagent. : Un ensemble ni des observations de lagent. T : Une fonction de transition et dobservation, T (s, a, o, s ) est la probabilit de transiter de ltat s vers ltat s et dobserver o, lorsquon applique lac-
39

Qs
D
ho= h1 h2 . . . hi .
st0 st 1
...
sti
stj
stk
. .
p( sti ) p( st i |h1 ) p( st i |h2 ) . . . p( st i |hi) .
F IG . 3 La matrice de la dynamique du systme. de la dynamique du systme D (Figure 3) est constitue de lensemble inni de tous les tests dtat possibles sti et de tous les historiques hi possibles. Cette matrice forme un modle adquat du systme, puisque elle peut tre utilise toute tape du temps pour prdire le comportement futur du systme. Une entre D(sti , hj ) de la matrice de la dynamique est la probabilit de russir le test sti lorsquon commence avec un historique hj , i.e. P r(sti |hj ). Une caractristique intressante de la plupart des systmes rels est que la probabilit de nimporte quel test sti dpend uniquement des probabilits dun certain nombre de tests, appels les tests de base. En dautres termes, les probabilits des tests de base constituent une statistique sufsante pour le systme. Notant que ces tests ne doivent pas tre ncessairement effectus pour connatre ltat du systme, on a juste besoin de connatre leur probabilits de russite sans pour autant essayer de les effectuer pour voir sil russissent ou pas. Pour mieux comprendre la notion des tests de base, considrons lenvironnement de lagent 1 dans la gure 1 (et ignorant lagent 2). An de simplier lexemple, nous supposons que les actions et les observations sont dterministes. Lagent 1
40
observe W lorsquil cot dun mur et il essaie davancer dans sa direction, et il observe N dans toutes les autres situations. Ce systme contient 9 tats (positions possibles de lagent), mais il peut tre reprsent uniquement avec 4 tests de base Left Wall, Right Wall, Up Wall et Down Wall. En effet, si lagent connat lesquels de ces tests vont russir sil seront effectus et lesquels vont chouer, il pourra alors dterminer exactement dans quelle case de la grille il se trouve. Si on a par exemple P r(Left Wall)=1, P r(Right Wall)=0, P r(Up Wall)=1 et P r(Down Wall)=0, alors on conclue que lagent se trouve dans la case (0,0) (la premire ligne et la premire colonne), par consquence on pourra prdire la russite ou lchec de nimporte quel autre test. On dnote les tests de base par qs1 , qs2 , . . . qsN , Qs dsigne lensemble de ces tests. P r(Qs|hj ) = (P r(qs1 |hj ), P r(qs2 |hj ), . . . , P r(qsN |hj )) est le vecteur de probabilit des tests de base, cest lquivalent de ltat de croyance pour les POMDPs, on a alors :
P r(sti |hj ) = fsti (P r(Qs|hj )) (1)
o fsti est une fonction propre au test sti . Donc chaque test qui ne fait pas partie de la base, a une fonction associe, indpendante de lhistorique, qui permet de prdire sa probabilit de russite en utilisant uniquement les probabilits de la base Qs. Aprs avoir fait laction a et observer lobservation o, le vecteur p(Qs|hj ) est mis jours selon la formule :
P r(qsi |hj ao) = P r(aoqsi |hj ) P r(ao|hj )
faoqsi (Qs|hj ) fao (Qs|hj )
(2)
Si la fonction fsti est linaire pour tout sti , alors le modle PSR utilis est dit linaire, et lquation (1) peut tre simplie ainsi :
P r(sti |h) = P r(Qs|h)mT sti (3)
ou msti est le vecteur de poids spcique au test dtat sti . Les paramtres dun PSR linaire sont : Qs, lensemble des tests dtat de base. p(Qs|), les probabilits initiales des tests dtat de base. a A, o O : mao , le vecteur de poids du test dtat ao. a A, o O, qsi Qs : maoqsi , le vecteur de poids du test dtat aoqsi qui est compos du test ao suivi par le test qsi . Le cardinal du plus petit ensemble Qs, tel que fsti est une fonction linaire, est appel la dimension linaire du systme, qui est aussi le rang linaire de la matrice D. Les auteurs de [2] ont prouv que tout systme qui peut tre reprsent (modlis) par un POMDP, ou un modle bas sur lhistorique, peut aussi tre reprsent par un PSR avec un certain nombre de tests de base au plus gal au nombre dtats dans le POMDP. Dans [8], on peut trouver quelque exemples de systmes qui ne peuvent pas tre reprsents par aucun POMDP, mais qui peuvent tre reprsents par des PSRs, et dautres o le nombre de tests de base est exponentiellement infrieur au nombre dtats dans le POMDP quivalant. Le modle PSR est alors plus gnral que les POMDPs, et plus compact. Une autre proprit intressante est que les paramtres dun PSR peuvent plus facilement tre apprises que les probabilits de transition des POMDPs [3], car on peut toujours connatre si le test russit ou choue aprs quelques tapes du temps, par contre, on ne peut pas vrier directement ltat sous-jacent du systme. Ces proprits intressantes sont derrire notre motivation pour gnraliser les PSRs de telle sorte que les politique aussi peuvent tre reprsentes par des prdictions sur la russite ou lchec de certains tests. Comme on verra dans la section suivante, le problme de la reprsentation de la politique nest pas trs diffrents du problme
de la reprsentation des tats.
3 Reprsentation prdictive des politiques

Dans le modle PSPR que nous proposons ici, on utilise deux types de tests : les tests dtat usuels quon a vu dans la section prcdente, et les tests de politique. Un test de politique pt peut tre vu comme le duel du test de ltat, o les actions et les observations sont interchangs. La probabilit quun test de politique pt = o0 , a1 , o1 , a2 , o2 . . . ok1 , ak russisse est donne par P r(pt) = prob(a1 = a1 , a2 = a2 , . . . ak = ak |o0 = o0 , o1 = o1 , o2 = o2 , . . . ok1 = ok1 ). Pour bien comprendre cette notion, imaginons que lenvironnement E dun agent A est luimme un agent. Donc pour E , A est considr comme un environnement dont on cherche connatre la dynamique, et prdire ses comportements futurs. E choisit des actions quil applique sur A, qui ne sont rien dautre que les observations de O, et il reoit comme observations les actions de A. La probabilit quun test de politique pt russisse lorsquon commence ltape i est P r(pt|hi ) = P r(ai+1 = a1 , ai+2 = a2 , . . . , ai+k = ak |hi , oi = o0 , oi+1 = o1 , oi+2 = o2 , . . . , oi+k1 = ok1 ). Lhistorique hi ici se termine par une action et pas par une observation, et ltape de temps i dsigne ltape aprs avoir fait ai et avant dobserver oi , on considre aussi que tous les historiques commencent par lobservation ctive o . La politique de lagent peut tre reprsente par une matrice P (gure 4), construite en considrant lensemble inni de tous les historiques possibles (lignes), et tous les tests de politique possibles. Cette matrice est quivalente la politique de lagent, mme si cette dernire nest pas stationnaire. Une entre P (pti |hj ) dnit la probabilit que lagent choisisse les actions du test pti , sachant que lhistorique actuel
41

Qp
P
ho= h1 h2 . . . hi .
pt 0 pt 1
...
pti
ptj
pt k
. .
p( pti ) p( pti |h1 ) p( pti |h2 ) . . . p( pt i |hi) .
Qp, les tests de politique de base. (Qp|), les probabilits initiales des tests de base. a A, o O : moa , le vecteur des poids du test de politique ao. a A, o O, qpi Qp : moaqpi , le vecteur des poids du test de politique aoqpi . En utilisant ces paramtres, on peut mettre jours la probabilit du test qpi aprs avoir observ lvnement oa par :
p(qpi |hj oa) = p(Qp|hj )mT oaqpi p(Qp|hj )mT oa
F IG . 4 La matrice de la politique. est hj , et que les observations futures seront celles de pti . On dnit aussi lensemble des tests de politique de base Qp = {qp1 , qp2 , . . . qpM }, ces tests sont sufsants pour dterminer la probabilit de nimporte quel autre test de politique pti :
(6)
Lensemble des paramtres des tests dtat et des tests de politique forment les paramtres du modle PSPR. Notant que ces deux ensembles sont spars et utiliss indpendamment lun de lautre, car on peut bien reprsenter les tats avec les tests dtat et les politique avec des arbre de dP r(pti |hj ) = fpti (p(Qp|hj )) (4) cision par exemple, comme on peut bien Tel que fpti est la fonction as- reprsenter les politiques avec des tests de socie pti , et P r(Qp|hj ) = politique et les tats avec un POMDP par exemple. La relation qui peut potentielle(P r(qp1 |hj ), P r(qp2 |hj ), . . . , P r(qpM |hj )). ment exister entre ces deux types de test La fonction de mise jours des tests de po- fera lobjet dune futur investigation. litique de base est donne par : Les thormes suivants permettent de comparer les PSPRs avec quelques autres P r(oaqpi |hj ) P r(qpi |hj oa) = modles. P r(oa|hj ) Theorem 1. Une politique dun MDP foaqpi (Qp|hj ) (Markov Decision Process) peut tre re(5) = foa (Qp|hj ) prsente par un PSPR utilisant au plus le Les paramtres des repsentations prdic- mme nombre de paramtres. tives des politiques sont : Dmonstration. Dans les MDPs, les tats Qp, les tests de politique de base. (Qp|), les probabilits initiales des sont compltement observables, On a donc O = S . Une politique est une fonction tests de base. a A, o O : foa , la fonction asso- de S vers une distribution de probabilit sur les actions de A, tel que (s, a) est la cie au test de politique oa. a A, o O, qpi Qp : foaqpi , probabilit que lagent choisisse laction la fonction associe au test de politique a dans ltat s. La politique du MDP est oaqpi compos du test oa suivi par le test donc reprsente avec |S||A| paramtres. Dans le modle PSPR, les tests de poqpi . Si la fonction fpti est linaire, les para- litique sa, au nombre |S||A|, sont sufmtres devient alors : sants pour dcrire si on considre que
42
p(sa|h) = (s, a). On peut voire facilement que ces deux reprsentations sont quivalantes.
a1 o1 a4 o2
o1 o1 o2 o2 o1
a2 o2 a3
Theorem 2. Une politique dhorizon ni pour un POMDP peut tre reprsente par un PSPR utilisant au plus le mme nombre de paramtres. Dmonstration. Une politique dhorizon ni t pour un POMDP est un arbre de dcision dterministe ( condition de connatre ltat de croyance initial). Cet arbre de )t+1 1 dcision contient exactement (|A||O| (|A||O|)1 noeuds. La matrice P correspondante )t+1 1 lignes et cette politique a (|A||O| (|A||O|)1
F IG . 5 Un contrleur dtats nis dterministe 4 tats qui peut tre compltement dcrit avec 2 tests de politique seulement. Les fonction et dans le contrleur reprsent dans la gure 5 sont dterministes, chaque tat est tiquet par une action. Ce contrleur contient 4 tats, mais il peut tre exactement dcrit avec les deux tests de politique : pt1 = o1 a1 et pt2 = o2 a2 . On peut vrier que les rponses ces deux tests sont sufsantes pour dterminer ltat du contrleur. Si on a par exemple P r(pt1 ) = 1 et P r(pt2 ) = 1 on dduit alors quon est dans ltat tiquet par a4 . An de pouvoir comparer empiriquement les performances du modle PSPR avec les autres modles, nous avons choisi le problme de la planication multi-agent cooprative pour tre la premire application des PSPRs, ce choix est motiv par le fait que la reprsentation des politiques sous lincertain est une difcult inhrente ce genre de problmes.
colonnes, donc le rang de P ne peut pas tre suprieur ce nombre, un PSPR peut utiliser les tests de politique formant les colonnes linairement indpendantes pour dcrire cette politique.
(|A||O|)t+1 1 (|A||O|)1
Theorem 3. Une politique dcrite par un contrleur dtats nis stochastique peut tre reprsente par un PSPR utilisant au plus le mme nombre de paramtres. Dmonstration. (sketch) Un contrleur dtats nis stochastique est un tuple Q, , , tel que Q est un ensemble ni dtats du contrleur, est une fonction dnie de Q vers une distribution de probabilit sur A, tel que (q, a) est la probabilit de choisir laction a dans ltat q du contrleur. est une fonction de transition, (q, a, o, q ) est la probabilit que le prochain tat du contrleur soit q lorsque le dernier tat a t q , et la dernire action effectue est a et la dernire observation est o. Si on remplace Q par S et on change A avec O, on obtient exactement une description dun POMDP, donc on peut utiliser la mme preuve de [2] pour prouver que le rang linaire de P ne peut pas tre suprieur |Q|. Donc le nombre de tests de politique de base dont on a besoin est au plus |Q| tests.
4 PSPR versus DEC-POMDPs

Les DEC-POMDPs (Decentralized Markov Decision Processes), proposs rcemment par Daniel S. Bernstein et al. [5], sont une gnralisation des POMDPs aux systmes multiagent. chaque tape de temps, chaque agent i fait une action ai et reoit une observation oi et une rcompense immdiate r, qui est la mme pour
43
tous les agents bien quils peuvent choisir des actions diffrentes, ceci les incitent choisir des politiques individuelles coopratives. Les agents ne peuvent pas communiquer entre eux des informations propos des actions quils choisissent ou des observations quils reoivent. Lobjectif de la planication dans les DEC-POMDPs consiste donc trouver la politique jointe optimale, qui est compose de plusieurs politiques individuelles, une pour chacun des agents. Un DEC-POMDP pour n agents est un tuple S ,A,T ,R,O,t,p0 , tel que : S est un ensemble ni dtats. A est un ensemble ni dactions pour chaque agent, les agents partagent le mme ensemble A dactions individuelles. An est lensemble des actions jointes. R(s, a1 , a2 , . . . , an ) est la fonction de la rcompense immdiate. O est un ensemble ni dobservations pour chaque agent, les agents partagent le mme ensemble O dobservations individuelles. T (s, a1 , a2 , . . . , an , o1 , o2 , . . . , on , s ) est une fonction de transition et dobservation. t est lhorizon de la planication. est le facteur descompte. b0 est ltat de croyance initial. On dsigne par qit une politique horizon t pour lagent i, et par q t = (q1 , . . . , qn ) une politique jointe horizon t pour tous les t agents. q i = (q1 , . . . , qi1 , qi+1 , . . . , qn ) est une politique dhorizon t pour tous les agents sauf lagent i. on a donc q t = t t t {q i , qi }. On utilise Qi pour dsigner lensemble des politiques qit et Qt i pour les t politiques qi Les tats et les politiques dans les DECPOMDPs sont reprsents par un tat de croyance bi pour chaque agent i, qui contient une distribution de probabilit sur les tats, et une autre distribution sur les politiques jointes qi des autres agents, car lagent i ne connat pas exactement
44
quelles sont les politiques suivi par les autres agents. Dans les DEC-POMDPs, on a deux fonctions de valeur. La premire est la valeur dune politique jointe q dans un tat s :
V (s, q ) = R(s, A(q )) +
oOn s S
T (s, A(q ), o, s )V (s , q (o))
(7)
tel que A(q ) la premire action jointe qui se trouve la racine de larbre q , o est une observation jointe, et q (o) la politique jointe qui reste dans larbre q aprs lobservation o. On dnie aussi la fonction de valeur dune politique individuelle qi selon ltat de croyance bi par :
V (b i , q i ) =
sS qi Pi
bi (s, qi )V (s, {qi , qi }) (8)
Pour trouver la politique jointe optimale partir de ces formules, les auteurs de [6] ont propos loprateur de la programmation dynamique pour les DEC-POMDPs :
1 1. tant donns les ensembles Qt des i politiques dhorizon t 1 pour chaque agent i. 2. Pour chaque agent i, gnrer partir 1 t de Qt i , lensemble Qi de toutes les politiques dhorizon t. 3. Pour chaque agent i, laguer les politiques compltement domines. Une politique qi est dite compltement domine si et seulement si :
bi , qi Qt i : V (bi , qi ) > V (bi , qi )
(9)
4. Retourner lensemble Qt i des politiques optimales pour chaque agent i. Le problme le plus important dans loprateur de la programmation dynamique est llagage des politiques domines, car on doit considrer tous les tats de croyance bi possibles pour chaque agent, ceci peut tre fait avec un programme linaire, mais lexcution de tels programmes est relativement importante dans ce cas, car le
nombre de variables (tats, et politiques) volue exponentiellement en la taille de lhorizon et en nombre dobservations. Les auteurs de [7] avaient propos dutiliser une mthode approximative pour dterminer les politiques domines. Au lieu de vrier lquation 9 pour tous les tats de croyance, on peut se limiter un petit ensemble de points de croyances. Cependant, le nombre de paramtres utiliss pour reprsenter les probabilits sur les politiques jointes dans chaque tat de croyance est toujours important, car on a une probabilit par politique jointe. Dans nos exprimentations, nous avons implment une version modie de lalgorithme PBDP [7], la seule diffrence est que nous slectionnons alatoirement les points de croyances utiliss pour llagage, sans tenir en considration le fait que ces points soient accessibles ou pas. Nous proposons ici une solution ce problme qui est base sur les reprsentations prdictives. On verra que les tats de croyance sur les politiques jointes sont plus compactes lorsquon utilise des tests au lieu dnumrer explicitement toutes les politiques. Les actions et les observations dans les tests dtat tels quon les a vu jusqu maintenant sont remplaces par des actions et des observations jointes. Donc, un test st devient st = a1 o1 a2 o2 . . . ak ok , avec ai An et oi On . Puisque on a dans ce cas deux types de politiques, savoir les politiques individuelles et les politiques jointes (qui ne sont quune collection de politiques individuelles, une par agent), on doit alors utiliser deux types de tests de politique, les tests de politique individuels, et les tests de politique joints, qui sont de la forme pt = o0 a1 o1 . . . ak , avec ai An et oi On . Ltat de croyance bi pour un agent i est constitu des trois vecteurs : Qs : les probabilits des tests dtat.
R
W
R
W
R
W
R
W
U
N
U
N
U
W
U
W
p(pt4)=0.5 p(pt5)=0.5 p(pt6)=0.5 p(pt7)=0.5

R
N
R
N
R
N
R
N
U
N
U
N
U
W
U
W
p(pt0)=0.5 p(pt1)=0.5 p(pt2)=0.5 p(pt3)=0.5
F IG . 6 La reprsentation dun tat de croyance sur les politiques dans les PSPRs. Qp : les probabilits des tests de politique joints, elles reprsentent la croyance de lagent i sur les politiques des autres agents. Qpi : les probabilit des tests de politique individuels, elle dterminent une politique pour lagent i. Puisquon utilise des politiques dterministes (des arbres de dcision), les probabilits de Qpi sont toutes des 1 ou des 0. On a donc un arbre de dcision par vecteur Qpi , et un vecteur Qpi par arbre. Si on considre que les rcompenses immdiates font partie des observations, alors on peut utiliser lquation de Bellman suivante pour rsoudre ce problme, avec nimporte quelle technique de programmation dynamique utilise pour les POMDPs (ou les DEC-POMDP)[4] :
V (b i , q ) =
rR
P r(A(q )r|bi )r P r(A(q )o|bi )V ( (bi , A(q ), o), q (o))
+
oOn
(10)
tel que R est lensemble des rcompenses, est la fonction de mise jours (quation 1 en utilisant les paramtres mao et maoqsi ), A(q )r est un test dtat compos de la premire action jointe de q et de lobservation (rcompense) r. Pour bien montrer lapport de lutilisation
45
des reprsentations prdictives des politiques, on a choisit des environnements de test o la reprsentation prdictive des tats est quivalente la reprsentation POMDP, i.e. les tests dtat sont linaires et leur nombre est gal au nombre dtats de lenvironnement, donc le fait dutiliser les PSRs ici napporte aucun gain en temps de calcul, puisque ils ne permettent pas de compresser lespace des tats. On va focaliser notre discussion dans ce qui suit uniquement sur les reprsentations prdictives des politiques. Initialement, ltape dhorizon 1, lensemble des politiques Q1 i pour un agent i, est reprsent par : Qp1 i = A : Lensemble des tests de base, qui est form de toutes les actions individuelles possibles. P r(Qp1 i ) : Le vecteur des probabilits initiales des tests de base. Les paramtres moa et moaqp ne sont pas utiliss ici car lhorizon est 1, donc on ne fait pas de mise jours des probabilits P r(Qp1 i ). Chaque politique de Q1 i correspond une 1 instance de P r(Qpi ). Les paramtres de la politique qui consiste faire laction ai sont donc P r(ai ) = 1 et P r(aj ) = 0, aj = ai .
Les tests de politique de base quon a considr ici sont des squences qui se terminent avec une action ou une politique. On a choisi dutiliser des tests de la forme aoqit1 (de profondeur 2) plutt que de la forme conventionnelle aoao . . . a (de profondeur t) car a nous permet de rduire le nombre de tests de base utiliss. En effet, si le nombre de politiques par horizon est born (par le nombre de points de croyance dans notre algorithme) et lhorizon t est sufsament grand, alors on aura besoins de plus de tests de base de profondeur t que de politiques. Par contre, on a besoins 1 de seulement |A||O||Qt i | de tests de base t1 de la forme aoqi gnrs exhaustivement 1 1 |Qt i | partir de Qt i , au lieu des |A||O| politiques (arbre) gnres dans le modle DEC-POMDP.
La prochaine tape consiste laguer les politiques individuelles qui sont compltement domines dans tous les points de croyance. On gnre dabord lensemble de toutes les politiques jointes Qt1 , cet ensemble est dcrit de la mme faon 1 n n que Qt i , avec a A , o O , et q t1 Qt1 . Les tats de croyance pour lagent i sont donc des vecteurs bi = (P r(Qpt ), P r(Qs)). P r(Qpt ) est une distribution de probabilit sur les tests de pot1 1 Lensemble Q de toutes les politiques litique aoq (cest une distribution car jointes dhorizon 1 est reprsent de la ces tests sont vnements disjoints), et P r(Qs) est un vecteur de probabilits sur mme manire que les ensembles Q1 i , il tests dtat qs. Pour chaque politique suft de remplacer les actions de A par des les t q , on redistribue les probabilits uniquen i actions de A . ment sur les tests joints qui sont compatibles avec qit . Un test aoq t1 est dit com ltape dhorizon t > 1, on gnre Qt i, lensemble de toutes les politiques dhori- patible avec qit si et seulement si laction zon t pour lagent i, partir de lensemble de lagent i dans laction jointe a est la pre1 t mire action (la racine de larbre) de qit , et Qt i . Les paramtres de Qi sont : t1 t1 la politique de lagent i dans q t1 est la pot t1 1 {aoq Qpi = Qpi i }. aA,oO,qi Qpt i litique qui reste dans qit aprs lobservation t P r(Qpi ). o . ma (aj oj qit1 ) = 1 pour a = aj , On dnie aussi la fonction de valeur de qit , dans un tat de croyance bi , par : ma (aj oj qit1 ) = 0 pour a = aj . maoqit1 (aj oj qit1 ) = 1 pour ao = aj oj , t V (b i , q i )= P r(aoq t1 |bi )V (bi , aoq t1 ) maoqit1 (aj oj qit1 ) = 0 pour ao = aj oj . t 1 t aoq Qp
46

120000
V (bi , aoq t1 ) =
rR
p(ar|bi )r
Runtime (ms)
110000 100000 90000 80000 70000 60000 50000 40000 30000 20000 10000 0 0 1 2 Horizon 3
DEC-POMDP PSPR
+P r(ao|bi )V ( (bi , a, o), q t1 )
La fonction permet de mettre jours les probabilit de bi selon les paramtres ma et maoqit1 pour les tests de politique de base, et les paramtres mao et maoqsi pour les tests dtat de base. Cette fonction de valeur est utilise dans lquation 9 pour dterminer les politiques compltement domines et les liminer de lensemble Qt i . Le cot du calcul de la valeur dune politique qit , dans un tat de croyance bi , est de lordre de 1 |A||O||Qt i |N pour un le modle P SP R, 1 et de |A||O|| Qt i |N pour un POMDP. N est le nombre dtats, qui est gal au nombre de tests dtats dans notre cas. La Figure 6 illustre la reprsentation PSPR dun tat de croyance sur les politiques qui est quivalente la reprsentation DECPOMDP dans la gure 2. Le nombre de paramtres est rduit de 16 8. Cette reprsentation utilise la forme conventionnelle des tests, i.e. les tests se terminent avec des actions et pas avec des politiques.
F IG . 7 Le temps dexcution en fonction de lhorizon, avec le problme du tigre.

1000 900 800 700
Runtime (ms)
DEC-POMDP PSPR
600 500 400 300 200 100 0 0 1 2 3 4 Horizon 5 6 7 8
5 Rsultats Exprimentaux
Nous avons test les performances de lalgorithme de la Programmation Dynamique utilisant le modle DEC-POMDP et PSPR sur deux problmes cits dans la littrature [6]. Le premier problme est Le tigre et la princesse, o deux agents se trouvent devant deux portes, une droite et une gauche. Derrire lune des portes se trouve une princesse, et derrire lautre se trouve un tigre. Le problme contient donc deux tats. Deux observations avec perturbation sont possibles : Entendre le tigre gauche, ou lentendre droit. Lobjectif des agents est douvrir la porte de la princesse. Les actions possibles sont : couter, ouvrir la porte gauche, ou ouvrir la porte droite.
F IG . 8 Le temps dexcution en fonction de lhorizon, avec le problme du canal. Le deuxime problme est celui du Canal de Communication, o deux agents changent des messages travers un canal partag, et essaient dviter les collisions. Ce problme contient 4 tats, selon que chacun des agents a ou na pas de message envoyer, deux observations par agent : collision ou pas de collision, et deux actions par agent : envoyer ou ne pas envoyer un message. On a utilis le mme nombre de tests dtat de base que dtats rels dans ces deux problmes. Les gures 7 et 8 montrent le temps dexcution de lalgorithme en fonction de lhorizon. Ces rsultats conrment lavan47

Le tigre DEC-POMDP PSPR Le canal DEC-POMDP PSPR
t=1 -2 -2 t=1 1 1
t=2 -4 -4 t=2 2 2
t=3 5.19 5.19 t=3 2.90 2.99
t=4 4.80 4.80 t=4 t=5 t=6 t=7 t=8 3.89 4.79 5.69 6.59 7.49 3.80 4.79 5.60 6.50 7.49
TAB . 1 Les valeurs retournes dans les modles DEC-POMDP et PSPR avec le problme du tigre et le problme du canal. tage dutiliser les reprsentations prdictives des politiques par rapport aux reprsentations nominales. On remarque que le temps dexcution avec le modle PSPR est polynomial, quasiment linaire, alors que le temps dexcution avec le modle DEC-POMDP est exponentiel. Ltape qui consomme le plus du temps dans cet algorithme est celle de llagage des politiques domines, et cest prcisement cette tape qui a t amliore signicativement dans le modle PSPR.
de conrmer que les PSPRs sont un modle prometteur. Dans les travaux futurs, on essayera de trouver dautres applications de ce modle, telles que lapprentissage par renforcement , qui peut tre vu comme une recherche dans lespace des politiques, ou bien les algorithmes de planication pour le cas mono-agent. On tudiera aussi plus profondement les proprits thoriques de ce modle, et comment on peut exploiter efcacement les liens qui existent entre les tests dtat et les tests de politique.
Rfrences
[1] M. Littman, R. Sutton, S. Singh, Predictive representations of state. Advances in Neural Information Processing Systems 14 (NIPS02). pp. 1555-1561, 2002. [2] S. Singh, M. James, M.R. Rudary, Predictive state representations : A new theory for modeling dynamical systems. Uncertainty in Articial Intelligence : Proceedings of the 20th conference (UAI04). pp. 512-519, 2004. [3] S. Singh, M. Littman, N. Jong, D. Pardoe and P. Stone, Learning Predictive State Representations, Proceedings of the 20th International Conference on Machine Learning (ICML03). pp. 712-719, 2003. [4] M. James, S. Singh and M. Littman, Planning with Predictive State Representations, Proceedings of the International Conference on Machine Learning and Applications (ICMLA04), pp. 304-311, 2004. [5] D. Bernstein, N. Immerman and S. Zilberstein, The complexity of decentralized control of markov decision processes, Journal of Mathematics of Operations Research, Vol. 27, Num. 4, pp. 819-840, 2002. [6] E. A. Hansen, D. S. Bernstein and S. Zilberstein, Dynamic programming for partially observable stochastic games, Proceedings of the 19th National Conference on Articial Intelligence (AAAI04), pp. 709-715, 2004. [7] D. Szer and F. Charpillet, Point-based Dynamic Programming for DEC-POMDPs, Proceedings of the 21th National Conference on Articial Intelligence (AAAI06), pp. 304-311, 2006. [8] M. James, Using Predictions for Planning and Modeling in Stochastic Environments, Thse de doctorat, Universit de Michigan, 2005.
6 Conclusion et Travaux futurs

Dans la plupart des systmes du monde rel, lincertitude de lagent ne porte pas uniquement sur ltat du systme, mais bien aussi sur les politiques. Ce problme devient plus crucial dans le cas des systmes multi-agents. Dans cet article, nous avons propos une mthode originale qui permet de reprsenter les politiques et les tats en utilisant le mme principe, qui est la prdiction. Lavantage de ce modle, appel PSPR, est que lagent utilise uniquement la quantit dinformation minimale et sufsante pour reprsenter sa croyance. Comme premire application des PSPRs, on a implment un algorithme de programmation dynamique propos pour rsoudre le problme de la planication multi-agent cooprative, et compar les rsultats obtenu de cet algorithme lorsquil utilise la reprsentation standard DEC-POMDP pour modliser les politiques, et lorsquil utilise la reprsentation prdictive. Ces rsultats nous permettent
48
Fonctions dutilit collective avec droits exognes ingaux

Sylvain Bouveret sylvain.bouveret@onera.fr Michel Lematre michel.lemaitre@onera.fr
Ofce National dtudes et de Recherches ArospatialesDCSD. 2, avenue Edouard Belin. BP 4025. 31055 TOULOUSE Cedex 4 FRANCE.
Institut de Recherche en Informatique de Toulouse. 118, route de Narbonne. 31062 TOULOUSE Cedex FRANCE.
Rsum : On sintresse la prise de dcision collective et cooprative dans un groupe dagents ayant des prfrences individuelles sexprimant par des utilits numriques. Dans ce modle, les prfrences des agents sont agrges en une prfrence commune laide dune fonction dutilit collective, traduisant ainsi de manire formelle le critre thique choisi par la collectivit. La plupart des travaux issus du choix social supposent que les agents sont gaux a priori vis--vis de la prise de dcision, mais ce nest pas toujours le cas pour des problmes rels. Nous nous intressons la construction et ltude de fonctions dutilit collective prenant en compte ces droits ingaux. Mots-cls : Modles conomiques de la dcision, choix social, allocation centralise de tches et de ressources, rsolution cooprative de problmes Abstract: We study the collective and cooperative decision making in a group of agents having unequal rights expressed by numerical utilities. In that framework, the agents preferences are aggregated into a common decision using a collective utility function that encompasses the ethical criterion choosen by the society of agents. Most social choice works assume that the agents are equal a priori as regards the collective decision making, but this is not always the case in real-world problems. In this paper, we focus on the construction and the study of collective utility functions that take unequal rights into account. Keywords: Economical models of decision making, social choice, centralized tasks and resource allocation, cooperative problem solving
une dcision commune choisie parmi un ensemble de dcisions admissibles. Dans la littrature, ce type de problmes est classiquement dcrit par le modle utilitariste1 . Dans ce modle, on admet que lon est capable de mesurer le bien-tre de chaque agent sous la forme dune fonction dutilit individuelle qui associe chaque dcision potentielle un indice numrique, lutilit individuelle. Le problme de choix de la bonne dcision pour le groupe dagents se ramne donc la donne de lensemble des utilits individuelles pour chaque dcision admissible. On supposera ici que toutes les utilits individuelles sont exprimes de manire sincre par les agents sur une chelle commune, et on ne sintressera pas au problme de llicitation de ces prfrences. Le choix entre les dcisions admissibles se fait laide dune fonction dutilit collective (CUF pour Collective Utility Function) dont le rle est dagrger lensemble des utilits individuelles en une utilit collective, reprsentant le bien-tre du groupe vis--vis de chaque dcision potentielle. Cette CUF est suppose choisie de manire consensuelle, ou mane dune instance de dcision suprieure (un arbitre). Le processus de prise de dcision se ramne alors dterminer la dcision qui maximise la CUF. Si lapplication de cette approche des problmes macroconomiques est trs criticable (et critique
1 ne pas confondre avec lutilitarisme classique qui est une manire particulire dagrger les utilits individuelles.
1 Introduction
On sintresse aux problmes dans lesquels un groupe dagent doit saccorder de manire collective et cooprative sur
49
Fonctions ___________________________________________________________________________ d'utilit collective avec droits exognes ingaux
[10]), elle reste utile lchelle microconomique pour tudier et formaliser les problmes de dcision collective en contexte limit et enjeux restreints. Cest dans ce cadre que nous nous plaons. La CUF la plus frquemment propose est la somme des utilits individuelles (utilitarisme classique). Avec cette fonction, chaque agent est considr comme producteur dutilit collective, et plus chacun produit, plus le groupe est satisfait. Un peu moins classique, la CUF galitariste consiste prendre, pour utilit collective, le minimum des utilits individuelles (la satisfaction du groupe est celle du moins satisfait des membres du groupe), ce qui correspond une vision radicalement diffrente de la justice sociale [9]. Entre ces deux extrmes, il y a place pour de nombreuses CUF intermdiaires (voir par exemple [7, chapitre 2] ou [1, chapitre 12]). Sil existe de nombreux travaux sur les CUF, la plupart de ces travaux considrent implicitement le cas dagents situs au dpart sur un pied dgalit, nous dirons ayant des droits exognes gaux. Cette supposition, qui se traduit par exemple en thorie du vote par le principe une personne, une voix, sexprime dans le modle utilitariste par la symtrie des CUF. Pourtant, dans beaucoup de situations concrtes, ce nest pas le cas, car les agents ne doivent pas avoir le mme poids dans la dcision collective, pour des raisons aussi diverses que celles exposes dans les exemples prsents ci-aprs. Dans cet article, nous traduirons cette diffrence dimportance entre agents par la notion de droits des agents, ces droits tant reprsents par des indices numriques : plus le droit est lev, plus lagent est cens bncier de la dcision, dune manire que nous cherchons capturer prcisment. Ce problme est li avec celui des indices de pouvoir [4] en thorie du vote, dans un contexte cependant lgrement diffrent, puisque dans ce contexte la procdure de
50
vote est en gnral xe, et lon cherche soit attribuer les droits aux votants de manire ce quils aient un certain pouvoir de vote, soit, les droits tant xs, on cherche analyser le pouvoir de vote de chaque votant. Voici quelques exemples de problmes dallocation de ressources, qui seront repris en section 6 : un bien de consommation (ressource) rpartir entre plusieurs populations (agents) de tailles (droits) diffrentes ; un ensemble de reprsentants (ressource) de circonscriptions (agents) de tailles (droits) diffrentes dsigner pour un comit de taille xe ; lactif (ressource) infrieur aux dettes dune socit en faillite rpartir entre ses cranciers (agents), auquels lentreprise doit des montants (droits) diffrents ; une ressource industrielle commune exploite par plusieurs agents ayant particip de manire ingale son nancement, chacun attendant un retour sur investissement (droits) proportionnel celui-ci (voir le problme de partage de ressources satellitaires [5]) ; une ressource partager entre plusieurs agents qui la transforment en biens revendus au bnce du groupe, les agents ayant des productivits diffrentes2 . Dans cet article, nous nous intressons la prise en compte de droits ingaux dans le modle utilitariste. Aprs avoir dni formellement la notion de droits ingaux en section 2 nous introduisons quelques exemples de CUF droits gaux ou ingaux, qui illustreront lensemble de larticle. Les sections 4 et 5, qui constituent les principales contributions de cet article, concernent respectivement le principe de duplication, au cur du schma propos, et lextension des proprits classiques des CUF aux droits ingaux ainsi que lin2 Cet exemple est la limite du cadre des droits exognes, car la productivit dun agent constitue plutt une proprit intrinsque de sa fonction dutilit. Cependant, son traitement (section 6) apporte une solution tout--fait plausible.
troduction de nouvelles proprits lies ces droits. La suite de larticle traite de CUF ralisant des compromis entre lgalitarisme et lutilitarisme classique (section 7), et enn quelques ides sont introduites sur la prise en compte de droits ingaux dans un contexte pour lequel ces droits sont ordinaux (section 8).
2 Formalisation et notations
Lensemble de n agents est not N = {1, . . . , n}. La dcision collective est prendre dans un ensemble A de dcisions admissibles. La dcision admissible a apporte chaque agent i lutilit ui (a). chaque dcision admissible a correspond un prol dutilit def u (a) = u1 (a), , un (a) , crit simdef plement u = u1 , , un lorsque a est sous-entendue. Lensemble des agents doit saccorder sur une CUF maximiser, ou sen remettre pour ce choix un arbitre impartial. Cette CUF est note W : Rn R. Les droits ingaux des agents sont dondef ns par un vecteur e = e1 , , en (e pour entitlement), et on notera m = i ei . Nous considrons sans perte de gnralit que les ei sont des entiers naturels (ei N) : si, pour les besoins dune application quelconque, les droits sont dans Q, nous pouvons raisonner sur des droits entiers proportionnels au vecteur e grce la proprit dIndpendance lchelle Commune de Droits introduite en section 5 (nous excluons les droits non rationnels). Une CUF droits ingaux sera note W e.
fermiers utilise un systme commun de distribution deau capte. Ils doivent dcider ensemble de la quantit deau ai alloue annuellement chaque fermier i, toutes les distributions ntant pas admissibles (quantit limite, tuyaux plus ou moins gros. . .). De sa quantit deau ai , le fermier i retire une utilit individuelle ui (ai ). Mme si les fermiers ont une capacit de travail identique, cette fonction est propre chaque fermier (par exemple ils ne cultivent pas tous les mmes plantes, les sols nont pas le mme rendement. . .), et on admettra quil existe une chelle commune des utilits (par exemple des euros). 3.1 Avec des droits gaux resse lutilit globale produite. La CUF naturelle est W ( u ) = i ui . Noter linterchangeabilit des utilits individuelles : pour atteindre un haut niveau dutilit collective, un bas niveau dutilit produite par une ferme devra tre compens par un bon niveau dune autre. Un litre deau supplmentaire ira au fermier ayant la plus grande utilit individuelle marginale3 . Si lutilit individuelle reprsente ou est lie au salaire du fermier, le choix de cette CUF implique quun fermier sera amen se sacrier pour la communaut. galitarisme : Lutilit individuelle reprsente le revenu du fermier. La collectivit sintresse maintenant une rpartition quitable de lutilit produite par chaque fermier. Une fonction qui convient est W ( u ) = mini ui , car elle tend la fois galiser les revenus et les tirer vers le haut. Noter labsence dinterchangeabilit des utilits individuelles : un litre deau supplmentaire ira au fermier ayant lutilit la plus faible, mme si ce litre est plus productif en utilit dans une autre ferme4 .
3 En supposant que lutilit individuelle, fonction de la quantit deau reue nest pas dcroissante, et condition que les contraintes dadmissibilit soient satisfaites. 4 Notons que la fonction min a un inconvnient majeur, appel effet de noyade : les prols dutilit 3, 3, 3 et 3, 5, 10
Utilitarisme classique : La collectivit sint-
3 Exemples repres
Nous allons montrer comment, dans un mme contexte initial, plusieurs CUF peuvent se justier, lorsque les droits peuvent tre gaux ou ingaux. Le problme est le suivant : une collectivit de
51
3.2 Avec des droits ingaux On introduit des droits ingaux ei N, chaque ei correspondant au nombre de personnes qui habitent la ferme i.
Division avec utilitarisme classique : Lutilit
ingaux. Dans la suite de larticle, nous chercherons rendre compte de manire systmatique de ces diffrentes formes, et ventuellement en proposer de nouvelles.
4 Principe de duplication
Le principe de duplication est un moyen de rsoudre le problme de prise de dcision collective en prsence de droits ingaux. Lide est de remplacer chaque agent par autant de clones quil possde de droits (ou dun nombre de clones proportionnel ses droits si les droits ne sont pas des entiers), lutilit reue par chaque agent tant rpartie dune manire qui est discute plus loin entres ses clones. Lide est ensuite de se ramener un problme de dcision collective entre les m clones considrs avec des droits gaux. Le raisonnement vise confrer chaque agent un pouvoir de dcision gal ou proportionnel son droit5 . Ce principe est propos dans quelques travaux (voir [3]), mais il est toujours appliqu dans un contexte de division quitable de ressource, qui conduit la fonction mini ui /ei , ce qui nest pas toujours pertinent, comme nous lavons vu dans les exemples de la section 3. Nous proposons donc une formalisation du principe de duplication, autorisant une utilisation plus large que celle quon lui donne habituellement et faisant intervenir deux paramtres : la manire dont lutilit dun agent est rpartie entre ses clones, la CUF jouant sur la socit des clones. Dabord nous dnissons une fonction de rpartition, dont le rle est de faire correspondre lutilit ui dun agent i et son droit ei lutilit ri dun de ses clones :
reprsente le revenu de la ferme. Elle est divise entre chaque habitant individuellement. Chaque habitant reoit donc ui /ei . La collectivit sintresse au bien-tre collectif mesur par la somme de ce que reoivent tous les habitants. La CUF est donc W e(u)= i ui . i (ei (ui /ei )) = Division avec galitarisme : Cest le mme cas de gure, mais la collectivit veut rpartir quitablement lutilit individuelle reue par chacun des fermiers. Une CUF conve nable est alors W e ( u ) = mini (ui /ei ). Indivision avec utilitarisme classique : On change maintenant de point de vue sur lutilit individuelle. Lutilit ui caractrise la prosprit de la ferme i, et mesure en quelque sorte lagrment dy habiter, chaque habitant dune ferme jouissant de manire quivalente de la prosprit de sa ferme et de celle-ci seulement. Chaque habitant de la ferme i reoit donc lutilit ui de manire indivisible. Puis, la collectivit cherche maximiser lagrment total de tous les habitants, mesure comme la somme des utilits reues par les habitants. Lutilit collective est alors la somme pon dre W e(u)= i (ei ui ). Indivision avec galitarisme : Le point de vue sur lutilit est le mme que dans lexemple prcdent, mais la collectivit sintresse maintenant une rpartition quitable entre chacun des habitants individuellement. Lutilit collective conve nable est W e ( u ) = mini ui . Cette srie dexemples illustre la diversit des CUF possibles, selon le but poursuivi par la communaut et la nature des satisfactions des agents, en prsence de droits
sont quivalents au sens du min, alors que le second est collectivement prfrable. Lordre collectif leximin pallie cet inconvnient, mais pour simplier, nous ne lintroduirons pas ici.
5 Cette notion mrite encore dtre prcise et formalise, la manire des pouvoirs de vote dont la transcription dans un contexte utilitariste ne semble pas immdiate.
52
Dnition 1 (Fonction de rpartition) Une fonction de rpartition est une fonction : R N R. Deux fonctions de rpartition sont naturelles. Dune part la division ordinaire u def e = u/e, qui prend son sens dans le cas dune satisfaction devant tre ncessairement divise entre les clones, nous dirons lorsque les utilits individuelles sont premptives, et dautre part la simple rplicadef tion u e = u, qui convient dans le cas dune satisfaction qui ne spuise pas lorsquelle est partage (exemple de la prosprit en section 3). Dnition 2 (Principe de duplication) Soient un vecteur de droits e sur n agents, une CUF droits gaux W : Rm R, une fonction de rpartition , on dnit, par duplication, une CUF droits ingaux W e par : Rn R : W e u W ( u ) , avec e def = r1 , . . . , r1 , . . . , rn , . . . , rn , u e
e1 fois
oprateurs portent sur m oprandes. On notera que la CUF mini (ui /ei ) tend vers lgalit des rapports ui /ei et donc vers la proportionalit des utilits individuelles par rapport aux droits.
5 Proprits
Lintroduction de droits ingaux dans le domaine de la prise de dcision collective modie non seulement la notion de CUF, mais aussi les proprits raisonnables classiques qui permettent de caractriser ces fonctions dutilit. Nous essayons ici dabord dadapter la dnition des principales proprits des CUF an quelles prennent en compte les droits exognes ingaux, puis nous introduisons de nouvelles proprits directement lies la notion de droits exognes. 5.1 Proprits classiques tendues La proprit fondamentale des CUF classiques est la notion dunanimit, ou, en dautres termes, de compatibilit avec la relation de Pareto. Cette proprit peut sexprimer comme suit. Soient a et b deux dcisions collectives. Si k N, uk (b) uk (a), et si i N tel que ui (b) > ui (a), alors W ( u (b)) > W ( u (a)) : si lon peut amliorer le sort dun agent sans dtriorer celui des autres, on le fait. Lexpression de cette proprit ne change pas avec lintroduction de droits exognes ingaux. Outre lunanimit, la proprit danonymat est trs souvent requise. Elle traduit le fait que lutilit collective est indpendante de lidentit des agents, donc que la CUF est insensible toute permutation des composantes du prol dutilit. En prsence de droits ingaux, cette dnition doit tre adapte, car lidentit dun agent sexprime par le couple (utilit, droit) : Dnition 3 (Anonymat gnralis) Soit W e une CUF droits ingaux.
53
en fois
et ri = ui ei . numrons les quatre CUF droits ingaux qui rsultent des deux choix possibles introduits pour et pour W :
u e = u/e
def
(division)
X
iN
(rplication)
X
iN
ue = u
def
(utilitarisme cl.)
W =
def
def
P(m)
ui
(ei ui )
(galitarisme)
W = min(m)
min(ui /ei )
iN
min ui
iN
Nous avons indiqu dun mot-cl la caractristique importante de chaque fonction de rpartition (division / rplication), et de mme pour la CUF sur les clones (utilitarisme classique / galitarisme). Les notations (m) et min(m) rappellent que ces

W e satisfait la proprit danonymat gnralis si et seulement si u Rn et permutation de N , W e(u) = W e(1) ,...,e(n) ( u(1) , . . . , u(n) ).
5.2 Proprits relatives aux droits Lide intuitive lie la notion de droits exognes est que plus le droit dun agent est lev, plus il doit bncier de la dcision collective. Cette ide informelle peut se traduire de diffrentes manires. La proprit la plus simple que lon peut tirer de ce principe est que laugmentation du droit dun agent ne peut pas renverser une prfrence collective qui dj lavantageait. Par exemple, soient u = 4, 7, 4, 2 et v = 1, 5, 3, 8 . Supposons que, pour un vecteur de droits e , on ait W e(u) W e ( v ). Entre les deux prols, le prfr est celui qui avantage, entre autres, lagent 2. Si nous augmentons le droit de lagent 2 sans modier celui des autres agents, pour obtenir le vecteur e , nous ne pou vons avoir W e ( u ). Si tel e ( v ) W tait le cas, la collectivit prfrerait un prol dutilit qui dsavantage maintenant lagent 2, alors que son droit a augment. Dnition 5 (Conformit) Soient e et e deux vecteurs de droits tels que ek = ek pour tout k = i, et ei < ei , et soit W e une vrie la proCUF droits ingaux. W e prit de conformit si et seulement si pour toute paire de prols dutilit ( u , v ), on ( v ) et u > v ( u ) W a (W i i) e e ( v ) . W ( u ) W e e Lintrt principal de cette proprit porte sur la dcision collective optimale : si lon augmente le droit relatif dun certain agent, alors il ne peut pas nir avec une utilit moindre quavant son augmentation6 . Cette proprit nest pas sans rappeler le postulat du transfert relatif aux indices de pouvoir et aux procdures de votes pondres [4].
6 Dans toute la suite, les preuves seront omises et pourront tre trouves dans la version longue de larticle en http://www.cert.fr/dcsd/THESES/sbouveret/ ressources/MFI07/MFI07_long.pdf
La proprit suivante concerne lindpendance de lutilit collective vis--vis des agents non concerns (IUA pour Independance of Unconcerned Agents). Cela exprime le fait quun agent ne doit pas tre pris en compte pour le choix entre deux dcisions si son utilit individuelle entre ces deux dcisions reste la mme (il nest pas concern par la dcision). Nous proposons une proprit plus forte dans le cadre des droits ingaux : ni lutilit ni le droit de lagent ninuent sur le choix entre les deux dcisions. Dnition 4 (IUA gnralise) Une CUF droits ingaux W e satisfait la proprit dIUA gnralise si et seulement si pour tout quadruplet de prols dutilit ( u , v , u , v ) et toute paire de vecteurs de droits ( e , e ) tels que : pour un agent i : ui = vi et ui = vi , pour tout agent k = i : uk = uk , vk = vk , et ek = ek , nous avons : W e(v) e ( u ) W W e ( v ). e ( u ) W e , u et v sont des rpliques de e, u et v sauf pour lagent i. Entre u et v , lutilit de lagent i ne change pas ( ui = vi ), ni entre u et v , mme si son droit a pu changer. Dans ces condi tions, si collectivement on prfre u v sous e , alors on doit prfrer u v sous e . Si cette proprit nest pas vrie, alors le choix entre deux dcisions dpendra de lutilit ou du droit de lagent i, mme si cet agent est compltement indiffrent entre ces deux dcisions, ce qui intuitivement peut tre non souhaitable.
54
Proposition 1 Soient e et e deux vecteurs de droits tels que ek = ek pour tous k = i, et ei < ei , et soit = W e e une CUF. Nous notons a ( u ( a )) une dcision colargmaxaA W e lective optimale selon W e satisfait e . Si W la proprit de conformit, alors il existe une dcision collective optimale a e selon ) . ) u ( a telle que u ( a W i e i e e La proprit de conformit est une traduction possible de lide selon laquelle les droits ingaux ont un effet positif dans le partage. Cette ide deffet positif peut se traduire dune manire diffrente : toute chose tant gale par ailleurs, il vaut mieux choisir la dcision qui avantage, entre deux agents ayant des droits ingaux, lagent ayant un plus grand droit. Dnition 6 (Avantage aux droits levs) Soient u et v deux prols dutilit tels que ui = vj , uj = vi et v est gal au uk = vk k N \ {i, j } ( prol u dans lequel on a permut ui et uj ), avec ui > uj , et soit W e une CUF droits ingaux. Alors W e avantage les droits levs si et seulement si pour tout e , W e ( u ) ei ej . e ( v ) W Cette notion davantage aux droits levs nest pas quivalente la proprit de conformit, mme si elle traduit diffremment la mme ide intuitive, car il existe des CUF droits ingaux qui satisfont la proprit de conformit sans vrier la proprit davantage aux droits levs (la fonction somme non pondre, correspondant lutilitarisme avec division de la ressource, est un exemple dune telle fonction). Lexistence dun lien entre lavantage aux droits levs et la conformit, ventuellement li aux autres proprits (IUA gnralise, anonymat, unanimit), ou aux proprits analytiques des CUF (continuit) nest pas encore claire. Une dernire proprit souhaitable des
CUF prenant en compte des droits exognes ingaux est leur insensibilit une dilatation proportionnelle de lchelle commune dexpression de ces droits ingaux. En dautres termes, une CUF droits ingaux doit classer les dcisions de la mme manire, que le vecteur de droits soit e,2 e ou bien 100 e.
Dnition 7 (IDCD) Soit W e une CUF droits ingaux. W e est insensible une dilatation commune des droits (IDCD) si et seulement si k N, e vecteur de droits, et pour tout couple ( u , v ) de ( v ) ( u ) W prols dutilit, W e e Wk ( u ) W ( v ) . e k e
5.3 Application aux CUF introduites La proposition suivante caractrise les CUF droix ingaux introduites prcdemment laide des proprits dnies ci-avant. Proposition 2 Les fonctions somme, somme pondre, min et min pondr satisfont les proprits marques oui de la table 1, et ne satisfont pas les proprits marques non de cette mme table.
6 Applications
Dans cette section, nous appliquons le schma mthodique propos quelques situations microconomiques dans lesquelles apparaissent naturellement des droits exognes. Si le choix de la CUF et de la fonction de rpartition sont souvent assez naturels, dans certains cas il peut tre discutable. Notre point de vue nest pas normatif (nous ne cherchons pas imposer de solution) ; nous cherchons juste mettre en vidence le pouvoir descriptif du schma.
55

unanimit
anonymat gnralis
IUA gnralise
conformit
avantage aux droits levs
IDCD
ui u i i mini ui /ei mini ui
i ei
oui oui nona non a
oui oui oui oui
oui oui oui oui
oui oui oui oui
oui non oui non
oui oui oui oui
a Ce non-respect de la proprit dunanimit est li leffet de noyade de la fonction min, et non aux droits ingaux eux-mmes. Cet inconvnient est classiquement palli par lintroduction du prordre leximin la place de la fonction min.
TAB . 1 CUF droits exognes ingaux et leurs proprits.

Rpartition dun bien vital Une ONG doit rpartir une quantit de riz entre diffrents pays sinistrs par la famine. Les pays (agents) sont de tailles (droits) diffrents. Lutilit reue par un habitant est sa quantit de riz. La fonction de rpartition est ici la division. Prenant en compte le caractre de rpartition galitariste suggr par la nature vitale de la ressource, on conclut la CUF min ui /ei (allocation proportionnelle la taille des populations). Banqueroute (prsent en section 1) Le cas relve assez clairement de la rpartition dutilit par division dune part, et dautre part au point de vue galitariste sur la prfrence collective. Ce qui conduit la CUF mini ui /ei . Si lutilit se mesure directement en monnaie, maximiser cette fonction revient allouer lactif proportionnellement aux crances. Cest la solution classiquement propose pour ce problme, mais dautres se justient galement (voir par exemple [12, chapitre 4]). Constitution de comit (prsent en section 1) Lutilit reue par une circonscription est son nombre de reprsentants, et dans ce cas il y a une exigence galitariste sur la prfrence collective (galit de reprsentation pour chaque habitant). Pour ce qui est de la fonction de rpartition, la division semble la plus sense (un reprsentant partage son temps entre les habitants de sa circonscription), ce qui conduit encore la CUF mini ui /ei , cest--dire une allocation tendant vers la proportionalit du nombre de reprsentants par rap-
port aux populations, tendant vers, car la difcult de ce problme tient au fait que la proportionalit exacte peut rarement tre atteinte, du fait que le nombre de reprsentants est entier. Maximiser la fonction mini ui /ei revient alors une attribution des siges selon la mthode de J. Q. Adams, dite du plus petit diviseur (voir [2, appendix A, proposition 3.10], qui donne aussi dautres solutions pour ce problme). ploitation en commun dune ressource correspond intuitivement la division de la ressource entre les agents, et lquit suggre par la nature du problme implique de manire naturelle la CUF galitariste. Nous avons donc encore une fois affaire la CUF mini ui /ei (allocation proportionnelle la hauteur de linvestissement). Productivits diffrentes (prsent en section 1) Chaque agent est ici remplac par un ensemble de clones tous galement productifs, la production dun agent tant la somme de la production de ses clones (fonction de rpartition division). Le problme est utilitariste classique, car peu importe ce que produit chaque agent en particulier, seule la production totale compte, ce qui nous donne une CUF ui .7 Prix du kWh Une compagnie distributrice dlectricit doit xer un prix de vente du
Ressource commune avec diffrents investissements initiaux (prsent en section 1) Lex-
7 Les droits nont en ralit pas disparu, car ils apparaissent de manire cache dans les fonctions ui (ai ). On trouve un exemple analogue dans [7, page 21], trait sans laide des droits ingaux.
56
kWh dnergie lectrique pour les utilisateurs de son rseau. Ces utilisateurs sont runis en communes (les agents), et le prix de vente x pour une commune constitue une dsutilit identique ui (utilit ngative) pour tous les habitants de cette commune, donc la fonction de rpartition entre les clones dune mme commune est la rplication. La rpartition du cot doit tre galitariste, car il sagit dun bien public indispensable. La fonction dutilit considrer est donc mini ui : la taille de la commune (donc le droit exogne) nimporte pas. Infrastructures collectives Un nombre limit dinfrastructures collectives, plutt de loisirs, doit tre allou un certain nombre de villes (agents) ayant des populations de tailles diffrentes (droits). Soit ki le nombre dinfrastructures alloues la ville i. Lutilit de la dcision k pour la ville i est ui (ki ). Sagissant dun quipement de loisir, on peut mesurer lutilit collective par la somme des satisfactions de chaque habitant. Si lon admet que tous les habitants de la ville i jouissent dune manire gale de la prsence des ki thtres de la ville, alors lutilit de chaque habitant (clone) est aussi ui (ki ) (rplication). Selon ce raisonnement, la CUF quil convient de maximiser est i (ei ui ). Si maintenant lquipement collectif navait pas un caractre de loisir mais de bien vital comme un hpital , nous serions plutt dans le cas (galitarisme / rplication) et la CUF convenable serait mini ui . La radio n groupes (nos n agents) partagent un espace commun dot dun poste de radio pouvant diffuser n stations diffrentes. Les ei (droits) membres du groupe i sont tous amateurs de la station i, et de celleci seulement. Il faut donc dcider de la faon de partager le temps de diffusion du poste entre les n stations. Nous notons xi la fraction de temps de diffusion ddie la station i ( n i=1 xi = 1) : nous considrerons que lutilit de lagent/groupe i est gale xi . Ici lquit est primordiale, donc lgalitarisme simpose. En revanche
le choix de la fonction de rpartition est sujet deux interprtations, ce qui rend lexemple intressant. La premire interprtation est que lon partage du temps de satisfaction : un agent coutant sa station prfre pendant un temps xi sera satisfait hauteur de xi . Cest un cas de rplication, donnant la CUF mini ui = mini xi : on alloue un temps de diffusion gal pour chaque station, sans se soucier du nombre damateurs de la station i. La seconde interprtation est que lon partage le temps pendant lequel un groupe peut choisir sa station prfre, et dans ce cas, lutilit xi dun agent est divisible entre ses clones (chaque clone peut choisir sa station prfre pendant un temps xi /ei ) : la fonction de rpartition est la division, ce qui aboutit la CUF mini ui /ei = mini xi /ei . Maximiser cette fonction revient allouer un temps de diffusion proportionnel au nombre damateurs dune station. Cet exemple a t trait sans laide de droits exognes ingaux dans la littrature (voir [8, page 79]), de la manire suivante : les agents correspondent lensemble des individus impliqus dans le partage de la radio (nos clones), lutilit dun agent amateur dune station i tant la fraction xi . Dans ce contexte, la CUF utilitariste classique est difcilement justiable : elle suggre de ne diffuser que la station qui recueille le plus damateurs. La fonction galitariste est celle qui correspond notre premire solution, et rsulte en un partage qui galise le temps de diffusion de toutes les radios (xi = 1/n). [8] propose un compromis entre ces solutions plutt extrmes (soit le groupe le plus nombreux impose son choix pour toute la dure de la diffusion, soit on ne tient pas du tout compte du nombre damateurs de chaque station), en utilisant la CUF de Nash, qui scrit W ( u ) = ui . Maximiser cette fonction revient, dans le problme de la radio, rsoudre le problme doptimisation sous contrainte suivant : n n ei max x i=1 xi = 1. Ce i=1 xi , avec
57
problme doptimisation classique admet comme solution : xi = ei /n. Cette solution alloue un temps de diffusion proportionnel au nombre damateurs dune station, ce qui correspond exactement notre seconde solution (galitarisme, division). Notons que cette solution correspond au principe de la dictature alatoire : chaque agent impose son point de vue aux autres pendant une fraction 1/m du temps total.
on trouve, pour le cas ui ei = ui /ei :

def (n) Wp, ( u) = e ,div 1 n e1p up i i=1 i m
1/p
, p = 0,
n i=1
ui ei
ei 1/m
p=0
et, pour le cas ui ei = ui :

def (n) ( u) = Wp, e ,rep 1 m
7 CUF de compromis et droits ingaux

Lutilitarisme classique et lgalitarisme sont deux visions extrmes de la dcision collective8 . Il existe cependant des compromis entre ces deux extrmes, par exemple sous la forme de fonctions paramtres (voir [6]). Le but de cette section est de montrer comment le principe de duplication peut se marier avec lide de compromis, par exemple avec la famille de CUF introduite par Atkinson (cit par [1, chapitre 12] ; voir aussi [7, chapitre 2.6]), dnie pour tout p 1 (nous supposerons que ui > 0) :
def Wp(n) ( u) = 1 n
n p 1/p , i=1 ei ui n ei 1/m u ) , i=1 i
p = 0, p=0
On pourra trouver des formes plus agrables aux fonctions ci-dessus, en utilisant la proprit selon laquelle les CUF sont signicatives une transformation monotone croissante prs. Il est intressant de caractriser ces CUF laide des proprits introduites ci-avant. Nous avons la proposition suivante :
Proposition 3 Les CUF Wp, et e ,div vrient les proprits suivantes Wp, e ,rep pour tout p : unanimit, anonymat gnralis, IUA gnralise et conformit. Wp, e ,rep vrie de plus lIDCD pour tout p, mais Wp, e ,div ne vrie cette mme proprit que pour p < 1.
(
(n)
n p 1/p , i=1 ui 1/n n , i=1 ui )
p = 0, p=0
Lorsque p = 1, W1 est la moyenne (utili(n) tarisme classique) et Wp tend vers le min (n) lorsque p tend vers 9 , et W0 est la fonction de Nash. En appliquant le principe de duplication,
8 Par exemple lgalitariste pur prfre 10, 10, 10 9, 100, 100 . Lutilitariste inconditionnel prfre 1, 100, 100 66, 66, 67 et mme 2, 99, 99 . 9 Strictement parlant, W (n) possde lavantage de reprsenp ter lordre leximin lorsque p .
Il existe dautres familles de fonctions de compromis entre la somme et le min, linstar de la famille des OWA [11], quil est possible dutiliser comme base pour obtenir une autre gnralisation des CUF droits ingaux. Noter que les intgrales de Choquet ne conviendraient pas ici, car elles sont conues pour prendre en compte les interactions entre agents (ou critres), et ne sont donc pas compatibles avec la proprit danonymat. Une question naturelle reste encore en suspens : comment gnraliser la fonction de
58
rpartition, an dtablir des compromis naturels entre division et rplication10 ?
(faible), il sert juste dpartager les exaequo. Pour la mthode forte, la prise de dcision se droule selon les phases suivantes : On limite le problme aux agents les plus prioritaires, et on cherche toutes les dcisions maximisant la CUF. Si cet ensemble ne contient quun lment, cest la dcision optimale (on ne tient pas compte des autres agents). Sinon, on restreint lensemble des dcisions admissibles cet ensemble de dcisions optimales pour la premire phase, et on maximise nouveau la CUF, en incluant cette fois-ci les agents situs au deuxime niveau de priorit. On rafne la slection chaque tape en incluant les agents de priorit directement infrieure, jusqu obtenir une dcision unique. Pour la mthode faible, tous les agents comptent ds la premire phase : On cherche toutes les dcisions maximisant la CUF avec tous les agents. Sil reste des ex-aequo, on enlve les agents les moins prioritaires, on limite lensemble des dcisions admissibles lensemble des dcisions optimales prcdentes et on cherche maximiser la CUF. On rafne la slection chaque tape en excluant les agents de priorit la plus basse, jusqu obtenir une dcision unique. La premire mthode est pertinente uniquement dans les problmes pour lesquels les premires phases laissent de nombreuses dcisions ex-aequo. Lexemple typique de tels problmes est un problme de partage dans lequel les agents ne convoitent quune petite partie de la ressource : les agents les plus prioritaires stant partags la partie de la ressource quils convoitent, le reste de la ressource leur est indiffrent. La deuxime mthode est pertinente dans les problmes pour lesquels les prfrences des agents sont trs diffrentes, et pour lesquels il existe un certain nombre de dcisions optimales
59
8 Droits ingaux ordinaux

Si, dans de nombreux problmes tels que ceux prsents ici, le vecteur de droits ingaux apparat de manire naturelle, en revanche, dans certains autres problmes, il peut savrer difcile dexprimer ces diffrences davantage sous forme numrique. Ainsi par exemple, dans un comit, lavis dun agent ayant plus dexprience ou plus danciennet comptera plus que lavis dun autre agent, sans quil ne soit vraiment possible premire vue de quantier cet avantage. Dans ce contexte, une ventuelle transcription numrique de lordre de priorits pose autant de problmes philosophiques que la transcription numrique dun ordre de prfrences : quel sens donner dventuels droits numriques, comment attribuer ces droits aux agents. . .Nous prsentons ici brivement quelques pistes de rexion sur la prise en compte de droits exognes sous la forme dun ordre de priorit entre les agents, dans un contexte utilitariste. Nous considrerons dans toute la suite quun ordre de priorit est un prordre total sur les agents : tous les agents sont ordonns, mais on admet que plusieurs agents se situent au mme niveau de priorit. Sil parat difcile dutiliser un ordre de priorit pour prendre une dcision collective en une seule phase, comme avec une CUF droits ingaux, en revanche, on peut envisager des mthodes de prise de dcision plusieurs phases induites par lordre de priorit. Deux mthodes sont intuitives : dans la premire mthode (forte), lordre de priorit est prdominant dans le processus de dcision collective ; dans la seconde
10 Dans lexemple des infrastructures collectives (thtres), nous avons choisi la rplication comme fonction de rpartition : nous supposons que le fait dexister apporte une utilit non divise chaque habitant. Si maintenant le thtre est trop petit, la fonction de rpartition tend vers la division (tout le monde ne peut en proter en mme temps), avec des compromis possibles.
quil est impossible de dpartager et qui avantagent toutes des agents diffrents. On peut envisager des mthodes intermdiaires de dcision entre ces deux procds extrmes. Nous proposons par exemple de limiter lensemble des dcisions admissibles lors des premires phases, an de permettre aux agents les moins prioritaires dinuer plus sur le processus de dcision. Dans le cadre du partage de ressource commune, cela peut se traduire par la limitation de la quantit de ressource disponible pour le partage lors de la premire phase, et laugmentation progressive de cette limite jusqu partager toute la ressource lors de la dernire phase. [2]
[3]
[4]
[5]
9 Conclusion
Cet article constitue le point de dpart dune rexion gnrale sur la prise en compte de droits exognes ingaux. Nous avons propos un cadre gnral pour btir des CUF prenant en compte des droits exognes ingaux. De plus, nous avons introduit un certain nombre de CUF droits ingaux, et caractris ces fonctions laide de proprits nouvellement introduites. Nous avons en outre propos quelques pistes pour la prise en compte de droits ingaux sous forme dordres de priorit. Il reste de nombreux travaux accomplir, notemment en ce qui concerne la recherche de proprits des CUF droits ingaux, du lien entre ces proprits, et de la caractrisation des CUF laide de ces proprits. En outre, les pistes introduites dans le domaine des droits ingaux ordinaux restent entirement explorer.
Remerciements
[6]
[7] [8] [9] [10] [11]
Nous remercions Jrme Lang pour nos discussions communes stimulantes autour des problmes de partage.
[12]
Choice and Welfare, volume 1. Elsevier, 2002. M. L. Balinsky and H. Peyton Young. Fair representation : meeting the ideal of one man one vote. Brookings Institution Press, second edition, 2001. S. J. Brams and A. D. Taylor. Fair Division : From Cake-cutting to Dispute Resolution. Cambridge University Press, 1996. D. S. Felsenthal and M. Machover. The Measurement of Voting Power : Theory and Practice, Problems and Paradoxes. Edward Elgar, 1998. M. Lematre, Grard Verfaillie, and Nicolas Bataille. Exploiting a Common Property Resource under a Fairness Constraint : a Case Study. In Proc. of IJCAI-99, pages 206211, Stockholm, Sweden, 1999. J.-L. Marichal. Aggregation Operators for Multicriteria Decision Aid. PhD thesis, Facult des Sciences de Lige, 1999. H. Moulin. Axioms of Cooperative Decision Making. Cambridge University Press, 1988. H. Moulin. Fair division and collective welfare. MIT Press, 2003. J. Rawls. A Theory of justice. Belknap, 1971. A. Sen. Inequality Reexamined. Oxford University Press, 1995. R. Yager. On ordered weighted averaging aggregation operators in multicriteria decision making. IEEE Transactions on Systems, Man, and Cybernetics, 18 :183190, 1988. H. P. Young. Equity in Theory and Practice. Princeton University Press, 1994.
Rfrences
[1] K.J. Arrow, A.K. Sen, and K. Suzumura, editors. Handbook of Social
60
Logique dynamique pour le raisonnement stratgique dans les jeux extensifs

Cdric Dgremont degremont@hotmail.com Jonathan A. Zvesper jonathan@illc.uva.nl
Institute for Logic, Language and Computation Plantage Muidergracht 24, 1018TV Amsterdam, Netherlands Rsum : Cet article poursuit lanalyse logique modale dynamique de la rationalit procdurale dans les jeux propose par van Benthem [5]. Nous modlisons les jeux extensifs en utilisant une logique des prfrences et proposons une analyse de processus analogue linduction rebours. Ceci nous conduit distinguer deux types de rationalit : la rationalit de la dcision et celle des prfrences. A ces deux types de rationalit correspondent des tranformations de jeux, pour lesquels nous donnons des contreparties syntaxiques dans une logique modale. Dans le modle nal auquel nous parvenons par les transformations dun jeu non gnrique, il peut subsister des chemins qui nappartiennent aucun quilibre parfait. Plus gnralement la nature des solutions que notre approche peut induire est incompatible avec la nature retrospective des concepts de la thorie des jeux. Nous terminons par quelques remarques sur lutilit dune telle approche modale pour lanalyse des jeux en information imparfaite et en rationalit limite. Mots-cls : Jeux extensifs, rationalit, logique modale, logique dynamique, induction rebours Abstract: This paper continues the dynamic modal logic analysis provided by van Benthem [5] of procedural rationality in games. Specically we look at extensive games, and use preference logic to provide a closer analysis of backward induction type algorithms. This results in distinguishing two kinds of rationality : decision rationality and preference rationality. To these two kinds of rationality correspond game transformations, for which we give syntactic counterparts in a modal logic. In the nal model arrived at through transformations of a nongeneric game, there can be paths which are in no subgame-perfect equilibrium. More generally the nature of solutions that our approach can induce is incompatible with the retrospective nature of the usual concepts of game theory. We end the paper with some remarks on potential uses of such a modal logic analysis to the cases of imperfect information or where rationality is bounded. Keywords: Extensive games, rationality, modal logic, dynamic logic, backward induction
Introduction
Les jeux extensifs reprsentent des situations dinteraction dans lesquelles les agents, ou joueurs, prennent des dcisions de manire squentielle. Leur raisonnement stratgique, notamment propos de la rationalit des autres joueurs, est un aspect important de ltude de tels jeux. Nous proposons une analyse logique qui prend en charge la description des jeux extensifs et la modlisation des actions cognitives effectues par les joueurs lorsquils raisonnent stratgiquement. Une importante littrature sintresse la modlisation des jeux en logique modale ([13] pour une vue densemble) et en particulier des jeux extensifs [6]. Bonanno [10] est sans doute un des premiers utiliser la logique temporelle pour analyser les concepts de solutions des jeux extensifs, linstar de la logique epistemique pour les jeux stratgiques ([24] ; pour une vue densemble : [3]). Le concept dquilibre partfait en sous-jeux a notamment fait lobjet dune analyse modale par Bonanno [10], qui identie une partie dun jeu extensif gnrique1 avec son seul quilibre parfait. Plus rcemment [12] a montr comment on pouvait exprimer ce mme concept, mais les outils utiliss ne sont spciquement modaux. Linduction rebours, introduite par [15], est probablement lalogrithme de solution le plus important pour lanalyse des jeux extensifs. Elle en identie les qui1 voir dnition 2.
61
Logique ___________________________________________________________________________ dynamique pour le raisonnement startgique [...]
libres parfaits en sous-jeux selon un processus itratif, consistant liminer les actions non-optimales des derniers joueurs agir, puis liminer en fonction celle des joueurs agissant juste avant, et ainsi de suite. van Benthem [5] explore lanalogie entre limination itre de partie du jeu incompatible avec la rationalit des joueurs et restrictions de modles pistmiques par des annonces publiques, se focalisant en particulier sur les jeux stratgiques. [5] a notamment montr comment, en utilisant un concept de rationalit globale, obtenir la solution de linduction rebours. Notre analyse poursuit lexploration de lanalogie entre annonces publiques et concept de solution de jeux extensifs. Nous modions lgrement cette dernire perspective, en cherchant dnir un concept de rationalit locale, naturellement exprimable dans un langage modale relativement simple2 capable dexprimer les prfrences (cf. [8]) puis recherchant quels prols de stratgies peuvent encore tre construits partir des seules artes pargnes par llimination itre des tats irrationnels, cest--dire supposant que le dernier coup jou ne respectait pas le critre de rationalit choisi. La contribution conceptuelle principale de ce papier est la distinction entre deux aspects du raisonnement stratgique effectu par les algorithmes de solution fonctionnant selon un processus itratif tel que celui de linduction rebours. Nous distinguons entre la procdure dlimination des tats localement irrationnels et la procdure par laquelle les prfrences sont tendues de manire causalement cohrente des noeuds terminaux vers la racine. La transformation de modles que [5] considre prend la forme dune annonce publique qui rduit le modle une de ses parties. Ce que [10] dnit statiquement devient la partie du modle rsultant des annonces itres. Nous analyserons lli2 PDL avec intersection et converse mais sans test ni itration.
mination des tats de la mme faon, alors que la gnralisation des prfrences larbre supposera de rendre certains points comparables qui ne ltaient pas pralablement. De telles ides pour modliser le changement de prfrences ont t notamment proposes par [4]. Dans 1, nous prsentons les jeux extensifs nis en information parfaite comme des structures sur lesquelles il est naturel dinterprter un langage modal. Plus prcisment, nous dnirons un langage qui peut exprimer des notions de rationalit dans les jeux, comme nous le montrons dans 2. Nous dnissons ensuite dans 3 une logique modale dynamique avec une expressivit sufsante. Nous ne chercherons pas ici fournir un systme de preuve complet pour une telle logique, mais plutt dillustrer le pouvoir expressif du langage relativement simple que nous prsentons. Aprs avoir expliqu dans 4 quels types dactions cognitives nous visons ici, nous montrons comment le langage modal dynamique permet dexprimer cellesci dans 5 (via la logique des annonces publiques) et 6. Dans 7 nous suggrerons quelques pistes pour tendre cette analyse aux jeux en information imparfaite et au cas des agents ayant des ressources cognitives limites.
1 Structures modales
Dans cette section nous prsentons les jeux extensifs en information parfaite comme des structures sur lesquelles il est naturel dinterprter un langage modal. Nous dnissons un jeu G comme un tuplet de la forme W, N, A, ()aA,iN , (
ia z i )iN
o W est un ensemble ni non-vide dtats, N est un ensemble ni de joueurs, ia et A est un ensemble ni dactions. W W pour chaque a A et i N dnit les transitions possibles entre tats :
62
wv signie qu ltat w, le joueur i peut prendre laction a pour arriver ltat v . Soit = iN , = aA et = i iN pour chaque i N et a A. Soit i (w) := {i N |v W : wv } les contrleurs de ltat w. Nous supposerons que les actions sont dterministes et qu chaque tat un seul joueur joue, cest--dire que si a = b ou i = j alors jb ia ( ) = . Ceci implique que chaque tat a au plus un contrleur.
z i exprime les prfrences du joueur i. Suivant la tradition en thorie des jeux nous restreindrons dans un premier temps les prfrences sur les issues possibles, qui correspondent dans notre prsentation aux tats terminaux Wz := {w W |(w) = }, cest--dire aux tats sans contrleur. Nous stipulons pour chaque i N que z i Wz Wz est une relation bien fonde, transitive et irrexive. w z i v signiant que i prfre strictement ltat terminal w ltat terminal v . a ia i ia
2 L u 0, 0 s
ia
1 A
r B t 1, 2
R v 2, 1
F IG . 1 Un jeu extensif 1. les prfrences des joueurs sont cohrentes, la fois de manire statique habituelle ( savoir elles sont supposes tre transitives et, dans leur version stricte, irreexives.) mais aussi de faon causale : les situations conduisant des situations prfres sont galement prfres. 2. les joueurs choisissent toujours une des options conduisant une de leurs issues prfres. 3. le raisonnement des joueurs est correct - ils ne font pas derreurs - et complet au sens o ils nont de limites computationnelles en temps ou en espace. 4. les joueurs mettent jour leurs croyances de faon rationnelle. Dans linterprtation dductive de la thorie des jeux et de ses concepts de solution, les joueurs cherchent dduire les actions rationnelles de leurs opposants partir des prfrences de leurs opposants et de lanalyse du raisonnement de leurs opposants propos de leurs propres actions rationnelles.([16], p. 377). On pourrait dfendre lide que la procdure par laquelle les joueurs liminent de faon itre les parties du jeu incompatibles avec lhypothse de la rationalit des autres joueurs peut tre vu comme un processus de rvision des croyances. Durant le processus de rduction du jeu, un joueur rvise sa reprsentation du jeu. A la suite de [5] nous dfendons prcisment lide que ce processus peut tre captur dans le style dynamique epistemique (au sens de
63
Il est immdiat de voir comment de telles structures correspondent des jeux extensifs en information parfaite. Dans lexemple de jeu de la gure 1 (cf. [17] p. 96), nous avons tiquet chaque noeud avec une lettre. Ces lettres r, s, t, u, v sont les tats de nos modles. Le jeu G correspondant la gure 1 est le suivant : W = {r, s, t, u, v } ; N = {I, II } ; A = IA IB II L II R {A, B, L, R} ; r s, r t, s u, s v ; z z z z v I t I u ; t II v II u.
2 Aspects de la rationalit
Nous considrons que dans un jeu extensif, quatre aspects distincts de la rationalit des joueurs importent au raisonnement stratgique. Plus prcisment, faire lhypothse de la rationalit des joueurs, cest supposer que :
[11]). Nanmoins nous rservons la question de la rvision des croyances aux jeux en information imparfaite dans lesquels les joueurs peuvent avoir des ensembles dinformation diffrents et peuvent ainsi ne pas partager la mme information au dbut du jeu. Nous dfendons lide que la rationalit des agents couvre ces quatre aspects. La dernire sorte de rationalit sera lobjet de recherche ultrieure. Pour le moment nous nous concentrerons sur les jeux en information parfaite. Nous considrerons galement pour commencer que les capacits cognitives ou computationnelles des agents sont illimites. Enn appelons les deux autre sortes de rationalit : rationalit de la dcision et rationalit des prfrences. Les agents prennent des dcision de faon cohrente avec des prfrences cohrentes. Dans un premier temps la rationalit des prfrences se dnira par une faon canonique dinduire une relation de prfrence pour chaque joueur qui stend lensemble des tats contenus dans larbre du jeu, partir des prfrences sur les tats terminaux. Une fois les prfrences tendues tous les tats (plutt quaux seuls tats terminaux) il devient facile de dnir un langage modal dans lequel nous pouvons exprimer certains aspects du raisonnement stratgique, et notamment le fait que la dernire action prise par un joueur ait t une dcision optimale. Nous dcrirons cette mthode canonique et rechercherons comment nous pouvons dnir une notion de rationalit de laction, compose des deux aspects mentionns. Plus prcisment nous montrerons comment la rationalit de laction rduit un jeu son noyau rationnel, de faon comparable linduction rebours, bien que ne concidant pas avec cette dernire. Ainsi suivant [5] nous proposons un cadre dans lequel les actions cognitives constituant le raisonnement stratgique
64
des joueurs sont des citoyens de premire classe. A la suite de [5], nous explicitons ces actions dans le style des actions changeant le modle de la logique des annonces publiques [19]. Dans un premier temps ltape de raisonnement que nous considrerons est llimination des tats qui ne peuvent tre atteints que si un joueur a agi de faon irrationnelle. La faon canonique et rationnelle dinduire les prfrences, comme nous le notons dans 6 prend en charge une partie du raisonnement constituant la procdure de rduction du jeu. Puisque que nous cherchons mettre au premier plan le raisonnement stratgique des joueurs, nous chercherons rendre compte de laction par laquelle les prfrences sont induites des noeuds terminaux vers les autres dans un style dynamique de changement de modles.
3 Langage modal dynamique

Nous dnissons un une logique dynamique dans lesprit de [18]. Ainsi xant un ensemble A dactions et N de joueurs, nous dnissons rcursivement lensemble des actions ACT : ACT ::= A | N | N | | ACT ACT | ACT ACT | ACT c |ACT ; ACT, A chaque action correspond une modalit dans le langage L. Nous supposons un ensemble dnombrable de lettres propositionnelles : L ::= | | L | L L | ACT L. Nous utilisons les abrviations habituelles. Nous interprtons ce langage sur un jeu G de la forme W, N, A, ()aA,iN , (
ia z i )iN
accompagn dune valuation V : (W ). Comme nous lavons mentionn, nous tendons la relation de prfrences
au-del des noeuds terminaux. Nous dnissons pour chaque joueur i la nouvelle relation de prfrence tendue W W inductivement comme la plus petite relation contenant z i et clos sous les rgles suivantes : 1. ((x : w x) & x (w x x i v )) w i v 2. ((x : w x) & x (w x v i x)) v i w 3. (x : (wx & x i v )) w i v Expliquons le processus dinduction des prfrences. Fixons un joueur i. Nous commenons par les tats terminaux, z cest--dire avec i := i . Puis nous tendons la relation aux tats nonterminaux. Dans la prcondition de chacune des rgles de clture nous spcions x : w x, de telle sorte quelles ne sappliquent un tat w que si ce nest pas un point terminal. Lide est de slectionner deux tats arbitraires w and v et de voir sils peuvent tre compars tant donnes les prfrences dj explicites. La rgle 3 est la plus courte et sans doute la plus simple, elle nonce que si un tat w cest i de jouer et quune des actions que i peut accomplir en w le conduit un tat quil (i) prfre v , alors i prfre w v . Les deux autre conditions sont trs similaires, nous nexpliquons donc que la premire. Elles sappliquent mme si ce nest pas i de jouer en w. Dans ce cas, la rgle nonce que i prfrera w v si tous les successeurs possibles de w sont prfres v par i. Nous reviendrons cette opration dinduction des prfrences 6. Nous pouvons donc maintenant assigner chaque action ACT une relation R : R = a Ra = i Ri = R i = i R = R R R = R R R c = {(v, w)|wR v } R ; = {(v, w)|x : vRxRw}
i
Supposant une fonction de valuation V : (W ), linterprtation de L est standard pour la logique modale : w w w w w p ssi ssi ssi ssi w V (p) w et w w v : wR v et v
4 Actions cognitives dans le raisonnement stratgique

Nous passons maintenant la reprsentation du raisonnement stratgique des joueurs, amenant au premier plan les tapes de ce raisonnement, que nous appelons des actions cognitives (suivant plus ou moins le sens de [7]). Reprenant lide propose pour la premire fois par [5], nous utiliserons les ressources de la logique des annonces publiques (PAL) pour modliser les actions cognitives. Une annonce publique est une opration changeant le modle, le restreignant lun de ses sous-modles. Une annonce publique dune formule assigne un modle M lun de ses sous-modles M , dni comme le modle dont le domaine est lensemble des tats w M tels que M, w , et dont les relations et valuations sont les restrictions correspondantes celle de M ce domaine. Syntactiquement, dans PAL il existe une modalit [!] pour chaque formule du langage en question, dont la smantique est la suivante : M, w (si M, w [!] ssi ). alors M , w
Selon linterprtation dductive des concepts de solution dans les jeux extensifs, le raisonnement stratgique des joueurs est le processus par lequel dans un jeu jou une seule fois les joueurs raisonnent au sujet des choix des autres joueurs sous lhypothse de leur rationalit. Ce raisonnement peut-tre
65
analys et rduit une srie de plus petites actions cognitives, qui peuvent tre conues comme des annonces par lesquelles les noeuds du jeu qui sont incompatibles avec la rationalit des joueurs sont limins. Plus prcisment, et telle est lide cruciale de [5], si I conclut que II ne choisira pas une certaine action parce quelle est rationnelle, ceci peut tre reprsent comme une annonce publique vridique de la forme, la joueuse II est rationnelle. Puisque que nous supposons que le processus de raisonnement de chaque joueur fait partie de la rationalit mme dun joueur, nous supposons en fait que ce raisonnement est connaissance commune entre les joueurs. En effet si le joueur I tait le seul faire ce raisonnement, nous devrions considrer la reprsentation que chaque joueur se fait du jeu et le modle rsultant ne serait pas appropri pour prsenter le raisonnement commun des joueurs au sujet du jeu. Pour rsumer, liminer un point du modle revient dire quaucun des joueurs ne le considre plus. Il faudrait donc parler dune action cognitive commune, dont la lgitimit repose sur la connaissance commune de la rationalit des joueurs (dans les quatre sens mentionns dans 2). Labandon de lhypothse dun raisonnement commun doit avoir lieu lorsque nous acceptons non seulement linformation imparfaite (des ensembles dinformation diffrents), mais si nous acceptons que les joueurs puissent ne pas savoir ce que les autres savent et ignorent. Dans ce cadre plus gnral, une analyse plus subtile des actions cognitives pourrait tre propose, permettant par exemple de modliser le cas o un joueur accomplit une certaine tape dans son raisonnement mais nest pas sr que les autres lont accomplie aussi. Prendre en compte des types dactions plus complexes pourrait par exemple permettre de proposer une nouvelle analyse des jeux de d-synchronisation [1]. Mais nous laissons ces considrations des recherches futures, pour lesquelles notre analyse des
66
jeux en information parfaite pourra fournir une fondation.
5 Rationalit de la dcision et induction rebours

Nous nous intressons maintenant la partie du jeu stable sous lannonce itre de rationalit. Plus prcisment, nous nous intressons aux chemins terminaux survivant lannonce itre de rationalit. On pourrait apprcier une dnition de la rationalit tels que les noeuds terminaux accessibles aprs litration de lannonce lui correspondant serait prcisment les quilibres parfait en sous-jeux du jeu. Mais plutt que de chercher la notion modale de rationalit correspondante, inversons la perspective et demandons : questce quune notion modale naturelle de rationalit, et (via son annonce itre) quel concept de solution induit-elle ? 5.1 Quelle rationalit ? De nombreux concepts de rationalit peuvent tre envisags. Comme nous sommes intresss par les perspectives que la logique modale peut apporter lanalyse du raisonnement stratgique dans les jeux extensifs, nous sommes particulirement intresss par la question suivante : Y a-t-il une manire naturellement modale dexprimer la rationalit dune dcision ? Pour inspirer et motiver notre rponse cette question, nous considrerons deux slogans tirs de deux manuels, lun de logique modale, lautre de thorie des jeux. S LOGAN 1 (L OGIQUE MODALE ) Les langages modaux fournissent une perspective interne et locale sur les structures relationnelles.[9]
Le second est propos pour caractriser lhypothse crucial de la thorie du choix rationnel : S LOGAN 2 (C HOIX RATIONNEL ) Lors quil prend une dcision, un agent choisit une action qui est au moins aussi bonne, daprs ses prfrences, que nimporte quelle autre action disponible.[16], p. 6 Essayons de rendre le second slogan dans lesprit du premier, cest--dire en prenant la rationalit dans un sens local, en restreignant lattention de la formule exprimant la rationalit au dernier coup dun joueur. Lavantage de cette notion locale de rationalit est quelle autorise une caractrisation modale simple. our la clart de lexposition, nous dnissons la rationalit de la dcision comme la ngation de lirrationalit de la dcision. Un joueur i est considr comme venant de prendre une dcision irrationnelle au point w si i contrle lunique prdcesseur de w, disons v , et quen v , i pouvait prendre une action quil aurait emmen (en un seul pas) dans un tat u quil (i) prfre w. Cest-dire si i vient de faire quelque chose quon pourrait lui faire regretter laide dune explication trs simple. Cest un concept extrmement locale dirrationalit : dans le jeu prsente dans la gure 2, le joueur I nest irrationnel aucun des points terminaux. Nanmoins, si pour commencer il va gauche, alors au noeud intermdiaire, il est irrationnel.
I
Cette localit suggre une limitation au raisonnement des joueurs, une question que nous aborderons rapidement dans 7. Nous pouvons dnir la notion dirrationalit de la dcision de i avec la L-formule suivante : (ic ; i)
i c
La ngation nous donne notre concept de rationalit de la dcision rati : rati :=df [(ic ; i)
i c
rati peut tre lu de la faon suivante il nest pas possible ([]) que i prenne une action (i) au point prcdent (ic ) et que cela le conduise () un tat quil prfre au point actuel ( i c ). 5.2 Quel concept de solution ? Une annonce de la rationalit dun joueur rduira (potentiellement) la taille du jeu, liminant les tats dans lequel un joueur a jou de faon irrationnelle. Etant donn la notion (cest--dire lensemble doprations) dinduction des prfrences que nous avons stipules pour nos modles ; litration des annonces de la rationalit de tous les joueurs peut conduire une srie de rduction. Par exemple, prenons le jeu donn par la gure 1. Observons quen u, ratII nest pas satisfait : il y a un tat, savoir v , tel que uR(II c ;II ) II c v . Aprs une annonce de ratII , nous obtenons le sous-jeu dcrit par la gure 3. Etant donn la faon dont les prfrences sont stipules dans nos modles, il suit que le joueur I prfre dsormais s t. Ds lors une annonce de rationalit additionnelle, savoir [!ratI ], et nous obtenons le sous-jeu dcrit dans la gure 4. Dans ce cas nous avons obtenu, via une squence dannonces publiques, un jeu
67
a II L 2, 0 R 1, 0
3, 1
F IG . 2 Un jeu illustrant la localit de notre notion dirrationalit de la dcision.

1 A 2 R v 2, 1 s r B t 1, 2
cest--dire si i N ,w, w Wz w = z w (w z i w w i w ). FAIT 3 Un jeu gnrique ne contient quun seul quilibre parfait en sous-jeux. D FINITION 4 ([5]) Lassertion de rationalit momentane (MR) nonce qu chaque tape dune branche dans le modle actuel, celui qui doit jouer, na pas choisi une action dont toutes les continuations nissent plus mal pour lui que toutes celles suivant une autre action. Nous obtenons comme corollaire le rsultat suivant prouv par [5]. C OROLLAIRE 5 ([5]) Sur les arbres de jeux extensifs (en information parfaite) gnriques nis, lannonce itre de MR conduit exactement la solution de linduction rebours. Mais revenons au concept de solution que nous obtenons. On pourrait opposer quil sagit l dun concept de solution faible. En effet dans lexemple de la gure 2, {{a}, {R}} nest pas un quilibre parfait en sous-jeux. Nanmoins ce prole de stratgie demeure dans notre procdure. Nous dfendons lide que le concept dquilibre parfait en sous-jeux (comme plus gnralement celui dquilibre de Nash) est rtrospectif par nature. Un tel concept nous indique que si la stratgie de II en s est de jouer R, alors le joueur I sen serait mieux sorti sil avait choisi b. Le concept de solution que nous obtenons fonctionne lui de faon prospective et prescriptive. En ce sens une prescription rpond certaines contraintes de cohrence. Vous pouvez galement dire I quil doit jouer b et ne pas jouer a, vous obtiendriez un concept de solution tout aussi prescriptif mais plus fort, savoir la maximisation du minimum. Mais si vous admettez laction a comme une chose que I pourrait rationnellement faire, alors la cohrence de la
F IG . 3 Le jeu de la gure 1 aprs une tape de rduction.

1 A 2 R v 2, 1 s r
F IG . 4 Le jeu de la gure 1 aprs deux rductions. contenant comme unique chemin terminal le seul chemin terminal qui peut tre construit en utilisant les actions contenues dans lunique quilibre parfait en sousjeux de jeu original. En fait cette concidence ne se vrie pas dans le cas gnral. Mais nous avons le rsultat suivant : P ROPOSITION 1 . Un chemin maximal dans le jeu G survit litration de lannonce de rationalit commune des joueurs ( iN rati ) ssi il est compos dartes contenues dans lunion des quilibres parfaits en sous-jeux du jeu G . Preuve. De gauche droite, la preuve est par induction sur la longueur du sous-jeu dans lequel une action qui nest contenue dans aucun quilibre parfait en sous-jeux apparat et par rduction labsurde.
D FINITION 2 Un jeu en information parfaite est gnrique si aucun joueur nest indiffrent entre deux noeuds terminaux,
68
prescription ne permet de traiter lissue t comme irrationnelle. Il est noter que cette situation est plus gnrale. Ds que nous sortons des jeux gnriques pour traiter le cas des jeux extensifs en information parfaite, aucun concept de solution qui nest pas clos sous les futurs rationnels ne peut tre modlis par une annonce itre de rationalit. Plus prcisment si un concept de solution qui nadmet pas tous les prols de stratgies qui peuvent tre construits sur la base des chemins maximaux survivant litration de lannonce de rationalit, alors celui-ci nest pas exprimable avec lappareil modale dynamique que nous proposons. En particulier nous ne pouvons pas obtenir dans le cas gnral la solution de linduction rebours. Comme nous lavons dj mentionn, une bonne partie de ce rsultat est secrtement encod dans notre dnition de la faon dont les prfrences sont induites des noeuds terminaux vers les autres. Etant donn que notre objectif est dexpliciter les actions cognitives composant le raisonnement stratgique des agents, il est raisonnable de demander que ce type daction cognitive, rendant nos prfrences causalement cohrente, soit modlis par une action dans une logique dynamique, linstar de ce que nous avons fait pour la rationalit de la dcision. Ce que nous faisons dans la section suivante.
ler la solution du jeu. Nous altrons donc la smantique et prenons une perspective plus gnrale, abandonnant lhypothse selon laquelle les prfrences sont automatiquement induites de faon canonique chaque fois que nous passons dun modle une de ses parties. Nous nirons pas ici jusqu considrer des prfrences qui ne sont pas nettes (cf. [17] p. 4) : nous nautorisons pas limprcision des prfrences, ni prfrences intransitives ou symtriques. Nous supposons des joueurs dont les prfrences sont statiquement cohrentes. Mais nous abandonnons ici lide que les prfrences sont automatiquement spcies sur tout larbre an de mettre en avant le processus de raisonnement par lequel les joueurs - en analysant la structure du jeu - peuvent dcider quelles options intermdiaires sont prfrables, tant donn leurs prfrences sur des noeuds plus proche de lissue du jeu. Ce processus doit conduire des prfrences causalement cohrentes. Il sagit par exemple dexclure comme irrationnel quun joueur dchecs prfre prendre la reine de son adversaire ( un autre coup), alors que cela le conduit un noeud duquel son adversaire possde une stratgie de victoire. Un modle sera dote dune relation i qui avant toute action cognitive ne sera pas diffrente de z i , exactement comme les modles traditionnels de la thorie des jeux. Pour chaque proprit P que nous utilisons pour dnir i et chaque joueur i N nous considrons une action rationalisant les prfrences du joueur i dune certaine faon, comme une opration OiP de (W W )n vers W Q lopration correspondant W . Soit OI ((x : w x) x (w x x I v )) w I v . Par abus Q (M) pour de langage nous crirons OI ia W, N, A, ()aA,iN , I {(w, v ) W W : x W ((w x) x
69
6 Prfrences
Notre procdure de rduction du jeu son noyau rationnel, telle que nous lavons dcrite, tire prot de ce que nous avons dcrit comme la rationalit des prfrences. Ainsi un aspect du processus de raisonnement est effectue en silence par les contraintes qui dnissent les relations de prfrences gnralises larbre. Ceci ne rend pas justice ce processus autonome comme tant dgale importance pour iso-
W (w x x I v ))}, ( i )iN I . Intuitivement une telle opration rendra comparables de noeuds de larbre entre lesquels un joueur tait pralablement indiffrent, selon des maximes du type prfre les moyens qui te mnent tes ns. Dans notre cas, lordre dans lequel nous appelons les diffrentes oprations de rationalisation des prfrences est sans importance. Pour simplier dnissons donc une opration unique pour toutes les oprations et tous les joueurs que nous notons RP . R EMARQUE 6 Laxiome de rduction suivant donne la cl de nanalyse compositionnelle dans la syntaxe de lopration RP : [ratP refi ] i ( i [ratP refi ] ( [] i [ratP refi ]) c (c ; )] c i ([ i [ratP refi ]) i; i [ratP refi ]) La formule est correcte par rapport la clause smantique suivante : G , V, w [ratP ref ] RP (G ), V, w
iN [ratP refi ]
P ROPOSITION 7 . Un chemin maximal dans le jeu G survit lapplication itre des oprateurs RP et RD ssi il est compos dartes contenues dans lunion des quilibres parfaits en sous-jeux du jeu G . Enn, il serait conceptuellement plus correct de voir ces oprations comme la mise en oeuvre de normes de rationalit plutt - comme le parallle avec les annonces publiques pourrait le suggrer que comme laction de rvler que les joueurs sont rationnels. Elles conseillent aux joueurs dviter certaines dcisions, de mme ces normes indiquent quels tats intermdiaires les joueurs devraient prfrer atteindre. La mise en oeuvre de ces normes de rationalit est prcisment ce queffectuent les actions cognitives qui constituent le raisonnement stratgique. Une approche plus gnrale consisterait libraliser les prfrences des joueurs, autorisant des incohrences causales. Autorisant par exemple quun joueur i prfre touts les successeurs de s ceux de t mais prfre t s. Nanmoins le processus de rationalisation ne serait plus une simple expansion et nous ferions face diffrentes faons de rationaliser ces prfrences. Donner la priorit aux prfrences entre noeuds plus proches des noeuds terminaux pourrait permettre dobtenir un concept de solution ayant un comportement rgulier, mais nous laissons cette question dautres recherches.
o [ratP ref ] :=
Cette remarque est rendue naturelle par le fait que le premier disjoint corresponde la relation initiale alors que chacune des autres clauses correspond une des rgles que nous utilisons pour dnir i partir de z i dans 3. An de voir que ces deux actions cognitives (lune rationalisant les prfrences, lautre les dcisions) peuvent cohabiter, lordre dapplication de ces deux actions ne doit pas importer (ce qui pourrait tre le cas si nous avions choisi les versions faibles de nos oprations). De ce fait suit la version explicite de notre prcdente proposition. Dnissant RD := M M iN rati , nous obtenons :
70
7 Information imparfaite et rationalit limite

Nous nous sommes concentrs sur les actions cognitives, car il est clair quelles transforment la reprsentation que les joueurs se font du jeu. Parfois toute linformation nest pas disponible au dbut du jeu pour tous les joueurs. Une lecture (quivalente la lecture classique) des jeux en information imparfaite repose dans lide
quil faut parfois attendre que le jeu soit jou pour obtenir certaines informations prcieuses. Prenons lexemple de la gure 5. Dans ce jeu, le joueur II peut limi1, 1 1, 1 1, 1 1, 1
call
put II call raise I N put II
call II call lower I put II call 1, 1
put
call 1, 1
put 1, 1
put 1, 1
dans la reprsentation du jeu, de nouvelles questions apparaissent : quelle information peut rvler les prfrences dun joueur, le joueur i a-t-il une stratgie rationnelle qui ne rvle pas linformation quil possde, etc. Nanmoins cette lecture dun jeu en information imparfaite est quivalente celle utilisant des stratgies conditionnelles. Son principale intrt est dintroduire lide que la temporalit des actions cognitives et des actions en gnral est la mme, mme si, ayant faire des agents idaux, on peut aussi bien considrer les stratgies comme dnies pralablement toute action effective. Or lconomie et la thorie des jeux classiques supposent habituellement des agents ou des joueurs ayant des capacits cognitives (ou computationnelles) illimites. Il serait dailleurs plus exact de dire que ces thories ne supposent rien du tout, puisque le calcul ny est mme pas considr comme un processus consommant des ressources. Sur le plan descriptif, les thories prdisent des rsultats contredits par lexprience3 . Sur le plan normatif, les prescriptions correspondantes peuvent trs bien se rvler largement sous-optimales. Suivant le travail fondateur de Simon [22] nous proposons de chercher une thorie plus exacte de la faon dont les vrais tres humains prennent de vraies dcisions dans un monde qui leur fournit rarement les donnes et les ressources cognitives qui seraient exiges pour appliquer, littralement, les thories des manuels [23], cest-dire les thories qui ne prennent pas le processus de raisonnement au srieux ou le fait que les agents aient des capacits cognitives limites. Analysant les jeux en information parfaite, nous avons nous aussi suppos que le raisonnement tait men bien une fois pour toutes, isolant les proles de stratgies res3 Ainsi lunique quilibre parfait en sous-jeux du dilemme des prisonniers rpt de faon nie, savoir trahir lautre chaque tour, est fortement invalide par le comportement des sujets exprimentaux (cf. e.g.[2]).
F IG . 5 Un jeu en information imparfaite. ner certains tats irrationnels, voire gure 6. Nanmoins jusqu ce que I joue, le
1, 1 1, 1
call
put II call raise I N put II call 1, 1 put 1, 1 lower I
F IG . 6 Le jeu de la gure 5 aprs une annonce de rationalit joueur II ne peut plus rduire larbre du jeu et xer une stratgie. Nous interprtons les jeux en information imparfaite et incomplte comme des jeux dans lesquels linformation fournie par les actions effectives des joueurs nest pas redondante. Nous pouvons tendre linterprtation des actions cognitives constituant le raisonnement stratgique en termes dactions dynamiques changeant le modle. Gnralisant le processus par lequel linformation est pris en compte par les joueurs
71
pectant certaines contraintes de rationalit. Une fois ce raisonnement achev les agents agiraient en suivant un des chemins terminaux restants. Mais il est clair que les agents rels ne procdent pas ainsi (cf. [20]) : dj dans lAntiquit, Aristote soulignait le fait que la dlibration ne doit pas durer indniment. Plus concrtement, imaginez que vous tes devant une carte du mtro parisien Chtelet essayant de calculer la faon la plus rapide de parvenir La rue de Tanger. Comme vous tes dj en retard, votre fonction dutilit est donne par u(t) = (ttanger t0 )2 . Il est hautement improbable4 que vous vous en sortiriez mieux en commenant par calculer litinraire optimal et commenciez seulement ensuite vous dplacer. Tout ceci pour indiquer que le temps de la rexion, pendant lequel vous excutez des actions cognitives, et le temps de laction, pendant lequel vous agissez est bien le mme. Tout ceci tait folklorique. Mais quest-ce que la logique modale peut avoir dire au sujet de la prise de dcision en rationalit limite ? Dautres rponses visent les logiques pistmiques [21] ou les logiques de laction [14]. Or, revenons nos oprations RD et RP ; nous avons pour le moment admis que les agents pouvait itrer lexcution de lune des deux oprations sans limite avant dagir. Autrement dit les agents peuvent excuter (RD RP )n o n , R1 := R,Ri+1 := Ri ; R, avant de prendre la moindre dcision. Intgrer la limitation cognitive en termes de temps allou au calcul entre chaque dcision pourrait en premire approche tre captur en disant que dans la clause prcdente, n ne peux pas dpasser un k certain ni, indice des capacit cognitives de lagent. Nimporte quelle action survivant toutes les compositions de k oprations de rationalisation serait acceptable selon le concept de solution correspondant.
4 Mme en faisant lhypothse que vous connaissez le temps que vous aurez encore marcher partir des diffrentes stations darrive, le temps que le mtro met pour parcourir une interstation etc.
Il ne sagirait pas disoler un sousensemble ou un super-ensemble des quilibres classiques, mais analyser limpact de la limitation des ressources (en termes dactions cognitives excutables entre chaque tour) sur les concepts de solutions. Bien entendu la complexit des diffrentes oprations doit tre analyse, pondrant ainsi le nombre de ressource que son excution requiert. Il serait mme encore mieux, dintgrer, par exemple dans un langage pistmique, les pas effectifs que requiert lopration (vrication, stockage, dduction). Par la suite il serait intressant de comparer les performances de ces diffrentes sous-oprations cognitives sur diffrentes classes de jeux bien connues de la littrature.
8 Conclusion
Nous avons prsent une logique modale pour raisonner sur les jeux extensifs noncoopratifs. Nous utilisons les modalits correspondant aux relations de prfrences et aux actions pour caractriser ce que nous appelons la rationalit de la dcision. Nous avons galement discut la rationalit des prfrences et avons montr comment ces deux notions sont lies. Nous avons galement montr comment des oprations des logiques modales dynamiques peuvent tre utiliss pour modliser les actions cognitives constituant le raisonnement stratgique. Nous avons vu que cette approche conduit des concepts de solution dune nature plus prospective que ceux la littrature principale en thorie des jeux. Nous avons galement suggr quune notion moins globale daction cognitive pourrait permettre daborder la question de concepts de solutions pour des agents cognitivement limites, suggrant un nouveau rapprochement entre la logique modale et la thorie des jeux en rationalit limite.
72
Rfrences
[1] W Brian Arthur. Inductive reasoning and bounded rationality. Amer. Econ. Rev., 84(2) :40611, 1994. [2] Robert Axelrod. The Evolution of Cooperation. Basic Books, 1985. [3] Pierpaolo Battigalli and Giacomo Bonanno. Recent results on belief, knowledge and the epistemic foundations of game theory. Research in Economics, 53 :149225, 1999. [4] J. van Benthem and F. Liu. Dynamic logic of preference upgrade. To appear in the Journal of Applied NonClassical Logic, 2007. [5] Johan van Benthem. Rational dynamics and epistemic logic in games. to appear in International Journal of Game Theory. [6] Johan van Benthem. Extensive games as process models. JoLLI, 11(3) :289313, 2002. [7] Johan van Benthem. Cognition as interaction. ILLC, PP-2005-10, 2005. [8] Johan van Benthem, Sieuwert van Otterloo, and Olivier Roy. Preference logic, conditionals, and solution concepts in games. ILLC, PP2005(28), 2005. [9] Patrick Blackburn, Maarten de Rijke, and Yde Venema. Modal Logic. Cambridge, 2001. [10] Giacomo Bonanno. Branching time, perfect information games, and backward induction. Games and Economic Behavior, 36 :5773, 2001. [11] H. P. van Ditmarsch, W. van der Hoek, and B. P. Kooi. Playing cards with Hintikka : An introduction to dynamic epistemic logic. Austral. Journ. of Logic, 3 :108134, 2005. [12] Paul Harrenstein, John-Jules Meyer, Wiebe van der Hoek, and Cees Witteveen. A modal characterization of [13]
[14]
[15] [16] [17] [18]
[19]
[20] [21] [22]
[23] [24]
Nash equilibrium. Fundamenta Informaticae, 57(2-4) :281321, 2003. Wiebe van der Hoek and Marc Pauly. Modal logic for games and information. In Patrick Blackburn, Johan van Benthem, and Frank Wolter, editors, The Handbook of Modal Logic. Elsevier, 2006. Zhisheng Huang, Michael Masuch, and Lszl Plos. ALX, an action logic for agents with bounded rationality. Articial Intelligence, 82 :75 127, 1996. John von Neumann and Oskar Morgenstern. Theory of Games and Economic Behavior. Princeton, 1944. Martin J. Osborne. An Introduction to Game Theory. Oxford, 2004. Martin J. Osborne and Ariel Rubinstein. A Course in Game Theory. MIT Press, 1994. Solomon Passy and Tinko Tinchev. An essay in combinatory dynamic logic. Information and Control, 93(2) :263332, 1991. Jan A. Plaza. Logics of public communications. In M. L. Emrich, M. S. Pfeifer, M. Hadzikadic, and Z. W. Ras, editors, Proceedings of the 4th International Symposium on Methodologies for Intelligent Systems, pages 201216, 1989. John L. Pollock. Rational decisionmaking in resource-bounded agents. Ariel Rubinstein. Modeling Bounded Rationality. MIT Press, 1997. Herbert Simon. Theories of decisionmaking in economics and behavioral science. Amer. Econ. Rev., 49 :253 283, 1959. Herbert Simon. Theories of Bounded Rationality vol. 3 : Empirically Grounded Economy. 1997. Robert Stalnaker. On the evaluation of solution concepts. Theory and Decision, 37 :4973, 1994.
73
Rle de la Face et de lUtilit dans lInterprtation dnoncs Ambigus Question/Requte Incomprhension/Dsaccord

V. Demeure demeure@univ-tlse2.fr J.F. Bonnefon bonnefon@univ-tlse2.fr . Raufaste raufaste@univ-tlse2.fr
Universit de Toulouse CLEE (Cognition, Langues, Langage et ergonomie); UTM, EPHE, CNRS; Maison de la recherche, Universit de Toulouse le Mirail, 5 alle Antonio Machado, 31058 Toulouse cedex 9, FRANCE Rsum : De nombreux noncs prsentent une ambiguit en ce quils peuvent tre interprts diffrement selon que lon choisisse leur signication directe ou indirecte. Nous nous penchons ici sur linterprtation de deux de ces types dnoncs : les noncs pouvant tre interprts comme (a) des questions directes ou des requtes indirectes (e.g., Est-ce quil reste du caf ?) et (b) des demandes de prcision indirectes ou des dsaccords indirects (e.g., Jai peur de ne pas vous suivre.) Les prdictions de deux approches de linterprtation dnoncs ambigus sont ici combines et testes : (a) lapproche Gestion de la Face qui tudie plus particulirement le rle des variables interpersonelles telles que le statut, la distance affective ou la perte de face potentielle ; et (b) lapproche Utilitariste centre sur les buts poursuivis par le locuteur au moment de lnonciation. Nos rsultats soutiennent les prdictions, jusque l non testes, de lapproche Utilitariste et offrent de nouvelles perspectives lapproche Gestion de la Face. Mots-cls : noncs ambigus, utilit, politesse Abstract: Many statements are ambiguous in that sense that they can be interpreted differently as a function of whether one considers their direct meaning or their indirect meaning(s). In this article, we examine two of these ambiguities : The direct question/indirect request ambiguity (e.g., Is there any coffee left ?) ; and the indirect disagreement/indirect request for explanation ambiguity (e.g., I dont follow you). We combine and test predictions of two approaches of the interpretation of such ambiguitiesthe Face Management approach, which focuses on interpersonal variables such as status, affective distance or potential face threat ; and the Utilitarian Relevance approach, which focuses on the speakers goal at the time of the enunciation. Results wholly support the untested predictions of the Utilitarian Relevance approach, and offer new perspectives on the Face Management approach. Keywords: Ambigus statement, utility, politeness
En tant que locuteur, nous nexprimons pas toujours directement ce que nous voulons dire. Autrement dit, il y a parfois un dcalage entre notre intention communicative et le sens littral de la phrase que nous choisissons dnoncer (c.a.d. une indirection). Face ce type dnoncs que nous qualierons dambigus, comment le destinataire parvient-il interprter ce que nous avons voulu dire ? Dans la premire partie de ce travail nous prsenterons les rponses qui ont t apportes, jusqu aujourdhui, cette question. Nous verrons que paralllement lapproche Gestion de la Face, plusieurs approches bases sur la notion de pertinence ont t dveloppes. Nous examinerons ensuite linterprtation de deux types dnoncs ambigus : a) un type dnonc pouvant tre interprt soit comme une question directe soit comme une requte indirecte (expriences 1 et 2) et b) un type dnonc pouvant tre interprt soit comme une demande dexplication indirecte soit comme un dsaccord indirect (expriences 3 et 4) en testant conjointement les prdictions des approches de Gestion de la Face et de Pertinence Utilitariste.
1 LApproche Gestion de la Face

Une approche gnrale de linterprtation dnoncs ambigus consiste assumer que les facteurs jouant un rle dans la produc75
Rle ___________________________________________________________________________ de la face et de l'utilit dans l'interprtation d'noncs ambigus [...]
tion de ce type dnoncs sont les mmes que ceux intervenant dans leur interprtation [6]. Commenons alors par nous pencher sur les facteurs pouvant conduire la production dnoncs ambigus. La Thorie de la Politesse [1] dveloppe lide selon laquelle un locuteur, durant une conversation, tente de prserver la face de son auditeur. Prserver la face de quelquun implique de (a) le laisser libre de ses actions (prservation de la face ngative) ; et (b) lui donner limage de quelquun dapprci et dapprouv par les autres (prservation de la face positive) [3]. Il nest toutefois pas toujours possible pour le locuteur dviter de menacer la face de lauditeur. Il peut par exemple devoir faire une requte menaant ainsi la face ngative de lauditeur. Il peut galement tre en dsaccord avec ce que viens de dire son interlocuteur, et donc menacer sa face positive. Dans ces cas l, le locuteur tentera de limiter au maximum la menace de face au moyen de diffrentes stratgies de politesse. Nous nous intresserons ici la stratgie juge comme la plus polie de toutes [1] : lindirection. Elle permet de rduire la menace de face en ce sens quelle laisse lauditeur le choix de linterprtation. Prenons lexemple dune personne voulant que son interlocuteur ouvre une fentre. En disant Vous ne trouvez pas quil fait chaud ici ? au lieu de Ouvrez la fentre, il laisse lauditeur libre dinterprter lnonc comme une simple remarque sur la temprature ou une requte indirecte, protgeant ainsi sa face ngative en prservant sa libert daction. De mme, lindirection permet de prserver la face positive du locuteur. Prenons lexemple du dsaccord qui constitue une menace pour la face positive. Si quelquun souhaite exprimer son dsaccord avec la conclusion des travaux que vous venez de prsenter, vous lui serez sans doute reconnaissant sil annonce Jai peur de ne pas vous suivre plutt que Je ne suis absolument pas daccord avec vous !. En effet, il vous laisse ainsi lopportunit (ainsi
76
quau reste de lassemble) dinterprter lnonc comme une demande dexplication (je crois que je nai pas trs bien compris ce que vous vouliez dire, pouvez vous expliquer votre ide ?), beaucoup moins menaante pour votre face positive. Maintenant que nous nous sommes penchs sur les motivations qui peuvent pousser un locuteur utiliser lindirection, intressons nous plus prcisement la faon dont un auditeur interprtera un tel nonc. La conception de lindirection comme stratgie de prservation de la face a un impact direct sur linterprtation dnoncs ambigus. En effet, tant tour tour locuteur et auditeur, chaque individu est amen utiliser les stratgies de politesse et donc lindirection. En position dauditeur, un individu sait donc que si le locuteur met un nonc ambigu, cest trs certainement parce quil veut lui transmettre quelque chose de menaant. Ainsi, lauditeur cherchera linterprtation de lnonc la plus menaante pour sa propre face dans le contexte de la conversation. Ltude mene par [8] teste cette hypothse en prsentant aux participants de courts changes comprenant une question et une rponse ne rpondant pas explicitement la question (e.g., Question : Quas-tu pens de ma prsentation ? Rponse : Cest difcile de faire une bonne prsentation). Les rsultats montrent clairement que les participants jugent quune telle rponse vhicule un sens menaant pour la face du destinataire. En plus de cette tendance gnrale, trois facteurs relatifs au contexte dnonciation ont t identis comme pouvant accentuer cette propension aller vers linterprtation la plus menaante [1] : la Distance sociale entre le locuteur et lauditeur (D), le Pouvoir relatif de lauditeur sur le locuteur (P), et le niveau (Rang) de menace de lacte dun point de vue culturel (R). Nous avons choisi de nous inspirer de ces variables en leur apportant toutefois certaines
modications prsentes ci-dessous. 1.1 Le pouvoir relatif de lauditeur sur le locuteur La question qui se pose ici est la suivante : un auditeur interprtera-t-il un nonc de la mme faon si il est produit par un locuteur ayant le mme statut/pouvoir que lui, et si le locuteur a un statut/pouvoir plus bas ? Toutes choses gales par ailleurs, un locuteur doit tre plus poli lorsquil sadresse un auditeur ayant plus de pouvoir que lui [1]. Selon la thorie de la politesse, un nonc indirect mis par un locuteur de bas statut devrait tre interprt comme vhiculant un sens plus menaant lorsque le locuteur un statut lev que lorsquil a un statut gal celui de lauditeur. Plus prcisement, nous faisons lhypothse que, lorsque lauditeur a un statut suprieur celui du locuteur, un nonc ambigu sera plus interprt : (a) comme une requte dans le cas dnoncs ambigus Question/Requte et (b)comme un dsaccord dans le cas dnoncs ambigus Incomprhension/ Dsaccord. 1.2 La personnalit de lauditeur Nous adaptons ici la variable R de [1]. Cette tude nayant pas de vise interculturelle, nous avons choisi de nous pencher sur les diffrences individuelles plutt que culturelles. Plus prcisment, nous nous demandons si un mme nonc ambigu sera interprt de la mme faon lorsquil est adress un auditeur ouvert desprit et lcoute des autres, et lorsquil est adress un auditeur trs susceptible qui aime imposer son point de vue. Nous faisons lhypothse quun nonc ambigu Question/Requte sera plus souvent interprt comme une requte lorsque
lauditeur est trs susceptible et aime imposer son point de vue, que lorsquil est ouvert desprit et lcoute des autres1 .
1.3 La distance affective entre lauditeur et le locuteur
La thorie de la politesse postule que la ncessit dtre poli augmente avec la distance entre les interlocuteurs. Elle ne distingue toutefois pas la distance sociale (les interlocuteurs se connaissent-ils ou non ?) et la distance affective (les interlocuteurs sapprcient-ils ou non ?). Cette confusion est probablement lexplication des rsultats mitigs dgags des diffrentes tudes testant cette variable (voir [12] pour une discussion ce sujet). Ltude de [11] fournit des rsultats plus clairs concernant limpact de la distance affective sur linterprtation dnoncs ambigus. Manipulant indpendamment les distances sociale et affectives, [11] montrent que les participants tendent interprter de faon plus menaante un nonc ambigu lorsquil est destin un auditeur que le locuteur naime pas. En particulier, lorsquun nonc peut tre interprt littralement comme un compliment, et indirectement comme un sarcasme, les participants tendent linterprter indirectement si les interlocuteurs ne saiment pas. Nous faisons donc lhypothse quun nonc ambigu Incomprhension/ Dsaccord sera plus interprt comme un dsaccord lorsque le locuteur et lauditeur ne sapprcient pas2 .
1 La prdiction serait la mme pour lambiguit Incomprhension/Dsaccord mais ne sera pas teste ici. 2 La prdiction serait la mme pour lambiguit Question/Requte mais ne sera pas teste ici.
77
2 La reformulation Utilitariste de la Pertinence

la suite de lapproche Gricenne [4] dont lassomption cruciale pour linterprtation dnoncs ambigus (linterprtation indirecte dun nonc nest construite que dans les cas o linterprtation littrale est juge insatisfaisante), na pas t soutenue exprimentalement de faon concluante [2], lapproche post-Gricenne [13] qui regroupe les diffrents aspects du Principe de Coopration sous le principe central de Pertinence, sapplique avec succs dans de nombreuses situations de communication. Toutefois, centre essentiellement sur la quantit dinformation que lauditeur peut tirer de linterprtation de lnonc, cette approche nous semble plus mme de traiter de linterprtation de rponses que de linterprtation de questions ou dincomprhension. De la mme faon, caractriser une requte ou un dsaccord en considrant uniquement la quantit dinformation quelle/il pourrait apporter lauditeur semble inappropri. Ce qui semble crucial dans linterprtation dune requte ou dun dsaccord est en lien avec les intrts, les motivations du locuteur plutt quavec ltat des connaissances de lauditeur. Une rcente volution de la thorie de la Pertinence [14] amorce lide selon laquelle il est important que lauditeur garde lesprit que le locuteur ne peut pas vouloir signier quelque chose qui va lencontre de ses prfrences. La reformulation utilitariste de la pertinence va plus loin en postulant que ce sont les buts et prfrences du locuteur qui guident linterprtation. Plusieurs reformulations utilitariste de la pertinence ont rcemment merg de manire indpendante chez plusieurs auteurs. Toutes ces approches ont en commun le fait quelles dnissent la pertinence dun nonc en fonction des buts et prfrences du locuteur plutt que des effets pistmiques sur lauditeur. Lide centrale rside dans le postulat que lauditeur va
78
considrer les buts du locuteur et choisir linterprtation de lnonc qui est la plus mme de laider atteindre ces buts. Cette ide a t dveloppe dans diffrents champs de recherche. Elle est au coeur du modle du Plan dAction Conversationnel [5]. Elle forme aussi la base des smantiques des lois dontiques dnies par [9]. Elle justie lheuristique utilitariste que [10] supposent tre loeuvre dans linterprtation de plusieurs actes de langage. Enn, elle a t formalise dans une thorie de la pertinence communicative inspire de la thorie des jeux [15]. Selon [15], communiquer cest tenter dinuencer autrui, et chaque nonc est produit pour atteindre les buts du locuteur. La pertinence dune interprtation est dnie ici comme lutilit espre pour le locuteur que lnonc soit interprt en ce sens. De ce point de vue, il devient simple de comparer la pertinence des deux interprtations possibles dun nonc ambigu question/requte ou incomprhension/dsaccord. La pertinence dune question ou dune incomprhension est, pour le locuteur, lutilit moyenne des diffrentes rponses possibles que lauditeur peut donner cette question ou incomprhension. La pertinence dune requte est lutilit moyenne, pour le locuteur, des actions que lauditeur peut effectuer en rponse. Enn, la pertinence dun dsaccord est lutilit moyenne, pour le locuteur, des consquences du dsaccord. Nous faisons lhypothse que lauditeur choisira linterprtation ayant la plus grande pertinence dnie en ces termes.
3 Objectifs
Notre objectif principal est de tester conjointement les prdictions de lapproche Gestion de la Face et de lapproche Utilitariste sur deux types dnoncs ambigus trs diffrents : une ambiguit question directe/requte indirecte, et une ambi-
guit incomprhension indirecte et dsaccord indirect. Lapproche utilitariste conduit lhypothse que : (a) linterprtation question (resp. requte) est comparativement plus frquente lorsque la rponse cette question (resp. lexcution de cette requte) est plus utile au locuteur ; (b) linterprtation incomprhension (resp. dsaccord) est comparativement plus frquente lorsque lobtention de lexplication (resp. le fait de marquer son dsaccord) est plus utile au locuteur. Lapproche Gestion de la Face, conduit lhypothse que : (c) les interprtations requte et dsaccord seront comparativement plus frquentes lorsque lauditeur est de plus haut statut que le locuteur ; (d) linterprtation requte est comparativement plus frquente lorsque lauditeur est trs susceptible et aime imposer son point de vue ; (e) linterprtation dsaccord est comparativement plus important lorsque les interlocuteurs ne sapprcient pas.
Avez-vous la carte de lpicerie ?
A
Piscine
picerie
Employ
B
Mairie
Mairie
Patron
Parc
F IG . 1 Exemple dune situation de jeu. Le statut du coquipier est plus haut, lutilit de lchange est basse, et lutilit davoir linformation est basse.
4 Exprience 1
4.1 Mthode Soixante tudiants volontaires (30 hommes et 30 femmes tous gs dune vingtaine danne et de langue maternelle franaise) de luniversit de Toulouse le Mirail ont particip ltude. Les participants commencent par lire les rgles dun jeu simple servant de base lexprience (et permettant une manipulation orthogonale rigoureuse des utilits). Il leur est demand dimaginer que ce jeu est utilis dans le cadre dun sminaire dentreprise dans le but de faciliter la cration de liens entre les salaris. Rgles du jeu. Le plateau de jeu montre 4 emplacements dune ville imaginaire, le but du jeu est de contrler 3 des 4 emplacements. Deux quipes de deux
joueurs reprsentant des familles de maeux saffrontent pour le contrle de la ville. Chaque joueur dispose de 2 cartes quil cache tous les autres joueurs. Le jeu de carte complet se compose de 17 cartes : 8 cartes portant le noms des emplacements de la ville (soit 2 cartes pour chaque emplacement) ; 8 cartes arme et une carte police. Pour quune quipe prenne le contrle dun emplacement (quil soit dj contrl ou non par lquipe adverse), un des joueurs de cette quipe doit poser simultanment la carte portant le nom de cet emplacement et une carte arme. La carte police sert quant elle bloquer dnitivement laccs un lieu aux deux quipes, elle peut tre pose uniquement sur un emplacement libre. Avant de jouer, le joueur qui a la main peut demander son coquipier sil a une carte donne en main, ou sil est daccord pour lui changer une carte donne contre une autre carte. Une fois linformation ou la carte obtenue, le joueur peut choisir de jouer ou de passer son tour. Une fois familiariss avec les rgles du jeu en ayant tudi un exemple, les participants se voient prsenter 8 situations de jeu construites selon un plan factoriel complet 2 2 2 . Dans chaque situation, un
79
joueur de lquipe A (un employ homme) demandait son coquipier : Avez-vous la carte de lpicerie ?. Les trois variables indpendantes sont le Statut du coquipier (plus haut vs gal), lUtilit de lchange (haute vs basse) et lUtilit davoir linformation (haute vs basse). Le Statut du coquipier est plus haut lorsque le coquipier est identi comme un patron et gal lorsquil est identi comme un autre employ. LUtilit de lchange est haute lorsque le joueur nest pas en mesure de prendre le contrle dun emplacement avec les cartes quil possde mais serait en mesure de prendre lpicerie sil obtenait cette carte. Elle est basse si le joueur est dj en mesure de prendre le contrle dun emplacement avec les cartes quil a en main. LUtilit davoir linformation est haute si cette information peut aider le joueur prendre une dcision concernant ce quil va jouer. Elle est basse si linformation ne peut pas aider le joueur dans son choix. Le plateau montrait toujours que lquipe A contrlait la piscine, lquipe B contrlait le parc et quaucune quipe ne contrlait lpicerie et la mairie (voir gure 1). La procdure entire durait environ 15 minutes. LUtilit de lchange et lUtilit davoir linformation sont manipules au travers des cartes dtenues par le joueur3 . Mairie & Arme. Avec ces cartes, le joueur peut prendre le contrle de la mairie : lutilit de lchange est donc basse. De plus, savoir si son coquipier possde ou non la carte de lpicerie naura pas de consquence sur son choix de jeu : lutilit davoir linformation est donc basse. Arme & Arme. Avec ces cartes, le joueur ne peut pas prendre le contrle dun emplacement mais il le pourrait
pr-test a montr que la perception de lutilit de lchange et de linformation variait conformment la manipulation des variables.
3 Un
en changeant une de ses cartes arme contre la carte de lpicerie : lutilit de lchange est donc haute. Savoir si son coquipier possde ou non la carte de lpicerie naura pas de consquence sur son choix de jeu : lutilit davoir linformation est donc basse. picerie & Arme. Avec ces cartes, le joueur peut prendre le contrle de lpicerie : lutilit de lchange est donc basse. Par contre, savoir si son coquipier possde lautre carte de lpicerie peut laider dcider sil peut prendre le contrle de lpicerie tout de suite sans risquer de se faire reprendre cet emplacement par lquipe adverse : lutilit davoir linformation est donc haute. Police & Arme. Avec ces cartes, le joueur ne peut pas prendre le contrle dun emplacement mais il le pourrait en changeant une de ses cartes arme contre la carte de lpicerie : lutilit de lchange est donc haute. De plus, savoir si son coquipier possde ou non la carte de lpicerie peut laider savoir sil doit ou non bloquer lpicerie en jouant sa carte police : lutilit davoir linformation est donc haute Aprs avoir pris connaissance dune situation, les participants jugent si le joueur veut changer la carte (fait une requte) ou demande simplement linformation son coquipier (pose une question). Ils rpondent la question Selon vous, que veut le joueur ? en cochant une des 5 rponses possibles : Je suis sr(e) quil veut la carte (cod -2), Il veut probablement plus la carte que linformation (cod -1), Je narrive pas me dcider (cod 0), Il veut probablement plus linformation que la carte (cod +1), Je suis sr(e) quil veut linformation (cod +2). 4.2 Rsultats et Discussion Les rsultats ont t analyss laide dune ANOVA mesure rptes 2 2 2. Les rponses moyennes des participants pour chaque combinaison des
80
TAB . 1 Interprtation de lnonc dans lExprience 1. Les scores ngatifs indiquent que lnonc a t interprt comme une requte, les scores positifs indiquent quil a t interprt comme une question.
Utilit de linformation : Basse lchange : Basse lchange : Haute linformation : Haute lchange : Basse lchange : Haute Statut du coquipier Egal Plus haut
.05, 2 = .03. Linterprtation moyenne est de +0.1 (0.7) que le coquipier a un statut plus lev, et seulement 0.2 (0.7) lorsque le coquipier est de mme statut que le locuteur. Deux explications peuvent tre avances concernant ce dernier rsultat. Premirement, il est possible que lorsque le coquipier est de statut suprieur, une requte pour un change de carte soit trop menaante, mme exprime indirectement. Dans ce cas, il serait inconcevable pour les participants que le locuteur fasse cette requte, mme indirectement. Une seconde explication pourrait tre avance en rfrence aux rsultats obtenus par [7]. Il a en effet t mis en vidence que les participants choisissaient plus souvent linterprtation requte lorsque le locuteur tait de statut suprieur lauditeur. Ce rsultat sexpliquerait par un effet de taux de base li au statut : dans la mesure o il est plus frquent pour un suprieur de donner des ordres ses subordonns, les participants tendraient interprter un nonc ambigu produit par un suprieur comme un ordre (une requte). De la mme faon, un effet de taux de base pourrait expliquer notre rsultat : puisque, de faon gnrale, les subordonns questionnent davantage leur suprieur quils ne lui donnent des ordres (requte), linterprtation question paratrait plus probable aux yeux des participants. Lexprience 2 permet de tester ces deux explications concurrentes. Dans la seconde exprience, nous manipulons la menace de face pour lauditeur en manipulant de faon orthogonale sa personnalit et son statut. Considrons le cas dun auditeur de haut statut connu pour avoir une aversion particulire recevoir des ordres. Selon notre premire explication, un nonc ambigu question/requte adress cette personne aura trs peu de chance dtre interprt comme une requte. En effet, si le seul statut de cette personne rendait dores
81
+0.3 (1.5) 1.1 (1.3) +0.8 (1.2) 0.6 (1.5)
+0.6 (1.3) 0.8 (1.6) +1.0 (1.2) 0.3 (1.5)
trois variables indpendantes sont donnes Table 1. LANOVA rvle trois effets simples et aucun effet dinteraction dtectable. Les donnes supportent les prdictions de lapproche Utilitariste. Lorsque lutilit de lchange est haute, les participants interprtent plus lnonc comme une requte, F(1, 59) = 47.9, p < .001, 2 = .35 (nous reportons tout au long de larticle des 2 semi-partiels qui sont plus conservateurs et plus adapts lANOVA mesures rptes. Ils reprsentent une part de variance explique). Linterprtation moyenne est de 0.7 (cart type=1.0) lorsque lutilit de lchange est haute, et +0.7 (0.8) lorsque lutilit de lchange est basse. Une utilit davoir linformation haute encourage les participants interprter lnonc comme une question, F(1, 59) = 10.0, p = .002, 2 = .08. Linterprtation moyenne est de +0.2 (0.7) lorsque lutilit davoir linformation est haute et seulement 0.3 (0.8) lorsque lutilit davoir linformation est basse. En totale contradiction avec les prdictions de lapproche Gestion de la Face, lorsque le coquipier a un statut plus lev, les participants tendent interprter lnonc comme une question, F(1, 59) = 4.6, p <
et dj linterprtation requte trop menaante, sa personnalit ne ferait quempirer les choses. Au contraire, si lon considre la seconde explication, le statut et la personnalit devraient avoir des inuences antagonistes : le statut encourageant, travers leffet de taux de base, une interptation question ; et la personnalit encourageant, selon lapproche Gestion de la Face, une interptation requte.
TAB . 2 Interprtation de lnonc dans lExprience 2. Les scores ngatifs indiquent que lnonc a t interprt comme une requte, les scores positifs indiquent quil a t interprt comme une question.
Statut du coquipier Egal Plus haut
5 Exprience 2
5.1 Mthode Soixante tudiants volontaires de luniversit Jean-Franois Champollion Albi ont particip ltude. Lchantillon tait compos de 17 hommes et 43 femmes gs de 18 27 ans (moyenne=20.3, cart type=2.1) tous ayant pour langue maternelle le franais. Le matriel et la procdure taient sensiblement les mmes que pour lexprience 1. Le plateau de jeu, les rgles et lnonc interprter ne changeaient pas. Huit situations de jeu construites selon un plan factoriel complet 2 2 2 taient prsentes aux participants. Le Statut du coquipier (plus haut vs gal) tait manipul de la mme faon que dans lexprience 1. La personnalit du coquipier (rigide vs exible) tait manipule la fois visuellement grce une image, et verbalement laide dune description accompagnant limage4 (voir Figure 5.1). Finalement, deux situations de jeu diffrentes ont t utilises des ns de contrle. Dans la premire situation, lutilit de lchange et lutilit davoir linformation sont toutes deux hautes (le joueur possde les cartes Police et Arme) ; dans la seconde situation, lutilit de lchange et lutilit davoir linformation sont toutes
4 Un pr-test men sur cette variable a permis de sassurer que la menace de face lie aux deux interprtations de lnonc tait perue comme plus importante pour lauditeur rigide
Utilits : Basse Coquipier Flexible Coquipier rigide
+0.3 (1.3) +0.1 (1.5) 0.3 (1.4) 0.9 (1.2)
+0.6 (1.3) +0.3 (1.5) 0.0 (1.3) 0.8 (1.2)
Utilits : Haute
Coquipier Flexible Coquipier Rigide
deux basses (le joueur possde les cartes Mairie et Arme). Les utilits ayant toutes deux la mme valeur (haute ou basse), cette variable est appel Valeur des utilits en conit (haute vs basse). De mme que dans lexprience 1, les participants jugeaient, pour chaque situation, si le joueur faisait une requte pour un change ou demandait simplement une information. 5.2 Rsultats et Discussion Les rsultats ont t analyss au moyen dune ANOVA mesures rptes 2 2 2. Les rponses moyennes des participants pour chaque combinaison des trois variables indpendantes sont donnes Table 2. LANOVA rvle trois effets simples et aucun effet dinteraction dtectable. Conformment aux prdictions de lapproche Gestion de la Face (ainsi qu lexplication base sur un effet de taux de base li au statut), les participants tendent interprter lnonc comme une requte lorsque le coquipier a une personnalit rigide, F(1, 59) = 8.62, p = .005, 2 = .08. Linterprtation moyenne est de +0.2 (0.6) lorsque le coquipier a une personnalit
82
employ trs ouvert, lcoute des autres. Il attache de limportance lopinion et aux ides dautrui
employ trs susceptible, qui dteste recevoir des ordres. Il aime contrler le droulement des choses et imposer son point de vue
Patron trs ouvert, lcoute des autres. Il attache de limportance lopinion et aux ides dautrui
Patron trs susceptible, qui dteste recevoir des ordres. Il aime contrler le droulement des choses et imposer son point de vue
F IG . 2 Images et dscriptions utilises dans lExprience 2 pour manipuler la personnalit du coquipier. De gauche droite : employ exible, employ rigide, patron exible et patron rigide.
exible et seulement 0.3 (0.8) lorsque le coquipier a une personnalit rigide. Inversement, et comme dans lexprience 1, une tendance vers linterprtation question est observe lorsque le coquipier est de plus haut statut F(1, 59) = 3.7, p = .058, 2 = .03. Linterprtation moyenne est de 0.0 (0.7) lorsque le coquipier a un statut suprieur et seulement 0.2 (0.6) lorsque le coquipier a un statut gal. Enn, et bien que nous nayons pas mis dhypothse concernant cette variable, nous constatons que les participants tendent interprter lnonc comme une requte lorsque lutilit de lchange et lutilit davoir linformation sont toutes deux hautes, F(1, 59) = 16.7, p < .001, 2 = .17. Linterprtation moyenne est de +0.3 (1.0) lorsque les deux utilits sont basses et seulement 0.5 (0.7) lorsque les deux utilits sont hautes. Bien que ce dernier rsultat soit surprenant et inattendu, nous resterons prudents quant son interprtation. En effet, lexplication la plus probable cet effet semble tre celle dun bruit dans la manipula-
tion des utilits (lutilit haute de la requte est peut tre perue comme plus utile que lutilit haute de la question) ; les rsultats obtenus lors du pr-test vont dailleurs dans ce sens. Ces deux premires expriences nous ont permis de tester avec succs les prdictions de lapproche Utilitariste et dapporter de nouvelles perspectives lapproche Gestion de la Face. Toutefois, ces rsultats se limitent un type bien prcis dnonc ambigu : lambiguit question (directe)/requte (indirecte). Dans un souci de gnralisation de nos rsultats dautres types dambiguits, nous avons choisi de tester nouveau ces deux approches sur une ambiguit diffrente : lambiguit incomprhension (indirecte)/dsaccord (indirect).
6 Exprience 3
6.1 Mthode Cent vingt et un tudiants volontaires (23 hommes et 98 femmes) de luniversit de
83
Toulouse le Mirail ont particip ltude. Ils taient gs de 18 32 ans (moyenne = 20.4, cart type = 1.9) et tous avaient pour langue maternelle le franais. Huit situations, construites selon un plan factoriel complet 2 2 2, sont prsentes aux participants. Dans un premier temps, on leur demande dimaginer que les situations qui vont leur tre prsentes se droulent dans le cadre dun sminaire dentreprise dont le but est de faciliter la cration de liens entre salaris et dirigeants. Dans chaque situation on retrouve deux joueurs (A et B) qui font quipe pour un jeu stratgique. Ils discutent de la stratgie adopter face leurs adversaires. Le joueur B prend la parole pour expliquer la stratgie quil aimerait mettre en place. Pendant lexplication A interrompt B en lui disant : Jai peur de ne pas vous suivre. Les 3 variables indpendantes sont : Le statut de B (plus haut vs gal celui de A), lUtilit de la demande de prcision (haute vs basse) et lutilit du dsaccord (haute vs basse). Le statut de B est plus haut lorsque B est un patron et A un employ, il est gal lorsque A et B sont tout deux des employs. Lutilit de la demande de prcision est haute lorsque lorsque B utilise un langage spcique au jeu inconnu de A, elle est basse lorsquil utilise un langage courant. Lutilit du dsaccord est haute lorsque B a la rputation de prendre de mauvaises dcisions stratgiques, elle est basse lorsquil a la rputation de prendre de bonnes dcisions stratgiques. des ns de contrle, deux questions ont t employes pour mesurer linterprtation de lnonc ; aprs avoir pris connaissance dun scnario, la moiti des participants rpondaient la question : Selon vous que veut-il en disant cela ? en cochant une des 5 rponses possibles : Je suis sr(e) quil veut marquer son dsaccord avec la stratgie propose par B (code 2), Il veut probablement plus marquer son dsaccord quavoir une rexplication de B concernant ce quil veut faire (code -1), Je
84
narrive pas me dcider (code 0), Il veut probablement plus que B lui rexplique ce quil veut faire que marquer son dsaccord (code +1), Je suis sr(e) quil veut que B lui rexplique ce quil veut faire (code +2). Lautre moiti de lchantillon rpondait la question suivante : Que va comprendre le joueur B sur une mme chelle en 5 points. 6.2 Rsultats et Discussion Les rsultats ont t analyss au moyen dune ANOVA mesures rptes 2 2 2 (aucun effet de la question pose nayant t dtect lors de lanalyse, les rsultats prsents portent sur lensemble de lchantillon). Les rponses moyennes des participants pour chaque combinaison des trois variables indpendantes sont donnes Table 3. Lanalyse a rvl un effet simple de lutilit de la demande de prcision et un effet simple de lutilit du dsaccord. Conformment aux prdictions de lapproche Utilitariste, lorsque lutilit de la demande de prcision est haute, les participants interprtent lnonc comme une demande de prcision, F(1, 120) = 22.4, p < .001, 2 = .08. Linterprtation moyenne est de +0.3 (1.2) lorsque lutilit de la demande de prcision est haute et 0.1 (1.1) lorsquelle est basse. Une utilit du dsaccord haute encourage les participants interprter lnonc comme un dsaccord, F(1, 120) = 259.2, p < .001, 2 = .54. Linterprtation moyenne est de 0.7 (1.2) quand lutilit du dsaccord est haute et +0.9 (1.1) lorquelle est basse. Le statut ne joue ici aucun rle dans la dsambiguisation de lnonc. Il est possible que leffet de taux de base observ sur lambiguit question/requte ne sapplique pas au mme degr lambiguit incomprhension/dsaccord. En effet, il est possible que le schma dun patron exprimant son dsaccord son employ soit moins prgnant, et joue donc un rle
TAB . 3 Interprtation de lnonc dans lexprience 3. Les scores ngatifs indiquent que lnonc a t interprt comme un dsaccord, les scores positifs indiquent quil a t interprt comme une demande de prcision.
Utilit de la prcision : Basse dsaccord : Basse dsaccord : Haute la prcision : Haute dsaccord : Basse dsaccord : Haute Statut de B Egal Plus haut
bons amis. 7.2 Rsultats et Discussion Les rsultats ont t analyss au moyen dune ANOVA mesures rptes 2 2 2 qui a rvl deux effets simples et un effet dinteraction. Les rponses moyennes des participants pour chaque combinaison des trois variables indpendantes sont donnes Table 4. Conformment aux prdictions drive de lapproche Gestion de la Face et dans la ligne des rsultats de [11], lorsque la distance affective est grande, les participants interprtent lnonc comme un dsaccord, F(1, 59) = 51, 1, p < .001, 2 = .28. Linterprtation moyenne est de 0.5 (1.1) lorsque la distance affective est grande et +0.2 (1.1) lorsquelle est faible. Les donnes supportent galement les prdictions de lapproche Utilitariste, une utilit du dsaccord haute encourage les participants interprter lnonc comme un dsaccord, F(1, 59) = 128.2, p < .001, 2 = .51. Linterprtation moyenne est de 0.8 (1.1) quand lutilit du dsaccord est haute et +0.5 (1.1) lorquelle est basse. Enn, la diffrence lie la distance affective est plus faible lorsque lutilit du dsaccord est haute, F(1, 59) = 5.8, p = .02, 2 = .04. Cette interaction est sans doute due un effet plancher lorsque lutilit du dsaccord est haute. En effet, dans la situation o lutilit du dsaccord est haute, linterprtation moyenne est dj trs basse (0.5) lorsque les interlocuteurs sont bons amis, elle ne pouvait pas descendre beaucoup plus lorsque les interlocuteurs ne sapprcient pas. Leffet de lutilit de la demande de prcision nest pas signicatif mais intervient de faon marginale (p = .1) dans linterprtation. Lorsque lutilit de la demande de prcision est haute, les participants tendent plus interprter lnonc comme une demande de prcision.
85
+0.6 (1.3) 0.9 (1.3) +1.1 (1.1) 0.6 (1.2)
+0.7 (1.2) 0.8 (1.2) +1.1 (1.0) 0.4 (1.2)
moindre, que le schma dun patron donnant un ordre son employ.
7 Exprience 4
7.1 Mthode 60 tudiants volontaires (12 hommes et 48 femmes) de luniversit de Toulouse le Mirail ont particip ltude. Ils taient gs de 17 57 ans (moyenne = 22, cart type = 7.4) et tous avaient pour langue maternelle le franais. Huit situations, construites selon un plan factoriel complet 2 2 2, sont prsentes aux participants. Les situations sont similaires celle de lexprience 3 sauf quelles nont pas lieu dans le cadre dun sminaire dentreprise. La phrase cible nonce par le locuteur est la mme ainsi que la question pose et lchelle de rponse. Les trois variables indpendantes sont : lutilit de la demande de prcision (haute vs basse), lutilit du dsaccord (haute vs basse) et la distance affective entre lauditeur et le locuteur (grande vs faible). Les deux variables dutilit sont manipules de la mme faon que dans lexprience 3. La distance affective entre lauditeur et le locuteur est grande lorsque les deux hommes ne sapprcient pas, elle est faible lorsquils sont
TAB . 4 Interprtation de lnonc dans lexprience 4. Les scores ngatifs indiquent que lnonc a t interprt comme un dsaccord, les scores positifs indiquent quil a t interprt comme une demande de prcision.
Utilit de la prcision : Basse dsaccord : Basse dsaccord : Haute la prcision : Haute dsaccord : Basse dsaccord : Haute Distance Affective Faible Grande
cipent de manire dcisive linterprtation dnoncs ambigus question/requte et incomprhension/dsaccord, il nous semble que la prochaine tape pourrait consister en leur intgration sous une seule et mme approche unie. Une approche de ce type a t initie au niveau formel [16], mais tout reste faire du point de vue exprimental.
+0.9 (1.2) 0.6 (1.3) +1.3 (0.7) 0.5 (1.2)
0.07 (1.3) 1.0 (0.9) +0.1 (1.2) 1.0 (1.1)
Rfrences
[1] P. Brown and S. C. Levinson. Politeness : Some universals in language usage. Cambridge University Press, Cambridge, 1987. [2] R.W. Gibbs. Do people always process the literal meaning of indirect requests ? Journal of Experimental Psychology : Learning, Memory, and Cognition, 9(3) :524533, 1983. [3] E. Goffman. Interaction ritual : essays on face to face behavior. Garden City, New York, 1967. [4] H.P. Grice. Logic and conversation. In P. Cole and J. Morgan, editors, Syntax and semantics 3 : Speech acts, pages 4158. Academic Press, New York, 1975. [5] D. J. Hilton, M. Kemmelmeier, and J. F. Bonnefon. Putting ifs to work : Goal-based relevance in conversational action planning. Journal of Experimental Psychology : General, 135 :388405, 2005. [6] T. Holtgraves. Interpreting questions and replies : Effects of facethreat, question form, and gender. Social Psychology Quarterly, 54 :15 24, 1991. [7] T. Holtgraves. Communication in context : effects of speaker status on the comprehension of indirect requests. Journal of Experimental Psychology : Learning, Memory, and Cognition, 20(5) :12051218, 1994.
8 Synthse des rsultats

Au travers de ces 4 expriences, nous avons pu tayer les prdictions de lapproche Utilitariste. Nous avons montr, sur deux types dambiguits trs diffrentes (lune impliquant une interprtation littrale et une interprtation indirecte, et lautre impliquant deux interprtations indirectes dun mme nonc) que les participants tendent choisir linterprtation ayant la plus haute utilit espre pour le locuteur. De plus, nous avons apport des donnes nouvelles lapproche de Gestion de la Face en montrant que, conformment ses prdictions, lorsque lauditeur a une aversion particulire recevoir des ordres, lnonc ambigu question/requte est interprt comme une requte ; et lorsque les interlocuteurs ne sapprcient pas, lnonc ambigu incomprhension/dsaccord est interpt comme un dsaccord. Enn, contrairement ce qui t prdit par lapproche gestion de la face, lorsque lauditeur a un statut suprieur au locuteur, lnonc est interprt comme une question (ce que nous identions comme un effet taux de base [7]). Enn, dans la mesure o il a t montr dans ce travail que lapproche de Gestion de la Face et lapproche Utilitariste parti86
[8] T. Holtgraves. Interpreting indirect replies. Cognitive Psychology, 37(1) :127, 1998. [9] D.E. Over, K.I. Manktelow, and C. Hadjichristidis. Condition for the acceptance of deontic conditionals. Canadian Journal of Experimental Psychology, 52(2) :96105, 2004. [10] . Raufaste, D. Longin, and J.F. Bonnefon. Utilitarisme pragmatique et reconnaissance dintention dans les actes de langage indirects. Psychologie de lInteraction, 21-22 :189202, 2005. [11] B.R. Slugoski and W. Turnbull. Cruel to be kind and kind to be cruel : Sarcasm, banter and social relations. Journal of Language and Social Psychology, 7 :101121, 1988. [12] H. Spencer-Oatey. Reconsidering power and distance. Journal of Pragmatics, 26 :124, 1996. [13] D. Sperber and D. Wilson. La Pertinence : Communication et cognition. Les Editions de Minuit, 1989. [14] J-B. Van der Henst and D. Sperber. Experimental Pragmatics, chapter Testing the principle of relevance, pages 229280. Palgrave, 2004. [15] R. Van Rooy. Relevance of communicative acts. In Proceedings of Tark. 2001. [16] R. Van Rooy. Being polite is a handicap : Towards a game theoretical analysis of polite linguistic behavior. In Proceedings of Tark 9. 2003.
87
Actes communicatifs effets institutionnels

R. Demolombe robert.demolombe@orange.fr V. Louis vincent.louis@orange-ftgroup.com
IRIT, Universit Paul Sabatier 118 Route de Narbonne 31062 Toulouse Cedex 9 FRANCE
France Tlcom, Recherche & Dveloppement 2, av. Pierre Marzin 22307 Lannion Cedex FRANCE
Rsum : Cet article prsente un cadre logique gnral pour reprsenter des actes de langage ayant des effets institutionnels. Il sappuie sur les concepts de la thorie des actes de langage et complte la formalisation adopte par lorganisme FIPA pour standardiser son langage de communication inter-agent. La caractristique fondamentale de notre approche est que la force illocutoire de tous les actes de langage ainsi dnis est dclarative. Le langage formel propos pour exprimer le contenu propositionnel offre un grand pouvoir expressif et permet de reprsenter une grande varit dactes de langage tels que : donner un pouvoir, nommer, ordonner, dclarer, etc. Mots-cls : Actes de langage, effets institutionnels, agents, logique formelle, FIPA-ACL Abstract: A general logical framework is presented to represent speech acts that have institutional effects. It is based on the concepts of the Speech Act Theory and takes the form of the Agent Communication Language standardized by the FIPA organization. The most important feature of our approach is that the illocutionary force of all of these speech acts is declarative. The formal language that is proposed to express the propositional content has a large expressive power and makes it possible to represent a large variety of speech acts such as : to empower, to appoint, to order, to declare, etc. Keywords: Speech acts, institutional effects, agents, formal logic, FIPA-ACL
cela, devraient se baser sur des concepts aussi proches que possible de ceux qui sont utiliss pour dnir la communication en langage naturel. Cest pourquoi la thorie des actes de langage [29] et le concept de fait institutionnel [5, 23, 22] sont gnralement reconnus comme des cadres appropris pour cet objectif. Dans cet article, nous examinons la formalisation dactes de langage qui ont des effets institutionnels dans des socit dagents, par exemple : crer une obligation, assigner un rle un agent ou dclarer les enchres ouvertes. Le contexte de nos travaux est la formalisation dinteractions entre agents lectroniques, et plus particulirement la formalisation dactes communicatifs entre agents. La thorie des actes de langage, dnie par Searle dans [29] et formalise par Searle et Vandervecken dans [30], a dj t applique au contexte des agents lectroniques. Notamment, la smantique dactes tels que inform ou request a t formalise en logique modale et adopte comme standard dans le langage de communication interagent FIPA-ACL [17]. Cette formalisation est issue des travaux de Sadek prsents dans [28]. Appliquer des agents lectroniques des concepts de la thorie des actes de langage tels que les croyances ne semble pas incongru et fait mme sens a priori. En revanche, attribuer des intentions ces agents apparat davantage problmatique. De surcrot, il nest pas trs clair si parler dobligations ou de pouvoirs institutionnels a encore un
89
1 Introduction
Les langages de communication agent jouent un rle important pour formaliser et mettre en oeuvre les interactions entre institutions lectroniques, en particulier dans le domaine du commerce lectronique [9, 10]. Ces langages doivent avoir une smantique la fois claire et intuitive, et pour
Actes ___________________________________________________________________________ communicatifs effets institutionnels
sens pour des agents lectroniques. En effet, les obligations, et les normes en gnral, sont destines inuencer le comportement dagents ayant un libre arbitre. Certains auteurs, comme McCarthy dans [26], ne rejettent pas lide que les agents lectroniques puissent avoir un libre arbitre, comme les tres humains, et quils puissent rellement choisir leurs intentions et mme violer ou respecter des obligations. Nous ne prtendons pas ici donner des rponses, ni mme des lments de rponse, la question philosophique du libre arbitre des agents lectroniques. Nous faisons simplement lhypothse que les agents lectroniques peuvent tre vus comme des reprsentants dagents humains, de la mme faon que des agents humains peuvent reprsenter des agents institutionnels, conformment ce que proposent Carmo et Pacheco dans [2]. Dans ces conditions, nous pouvons supposer que les actions accomplies par des agents lectroniques sont dtermines et choisies, explicitement ou implicitement, par des agents humains. Ainsi, dans notre approche, les actions dagents lectroniques comptent pour des actions dagents humains.1 partir de l, comment rpondre la question : quadvient-il lorsquun agent lectronique viole une obligation ? ? Dans le cas o un agent doit payer une amende pour rparer une violation, on pourrait imaginer quil soit possible de dbiter le compte de lagent lectronique (sans considrer ici la dnition de ce que signie quun agent lectronique dtient un compte). Cependant, dans le cas o un agent doit aller en prison pour rparer une violation, il devient vident que lagent lectronique ne pourra pas rparer luiutilisons compter pour dans le mme sens que Searle utilise count as dans [29] ou Jones et Sergot dans [21].
1 Nous
mme. Dans le cas gnral, la rponse la question prcdente est donc que cest lagent humain, qui est reprsent par ledit agent lectronique, dassumer et de rparer les violations commises. Nous sommes naturellement conscients des nombreuses difcults que peut soulever la dnition rigoureuse des relations entre les agents humains et leurs reprsentants lectroniques, notamment en termes de responsabilits. Prenons lexemple dun agent lectronique qui ne fait pas ce quil est cens faire au vu de ses spcications, ce qui arrive gnralement lorsque son logiciel est erron, et viole une obligation. Quel agent humain est alors responsable ? Son mandant, qui lui dlgue des tches pour lesquelles il le reprsente ? Le concepteur du logiciel ? En tout tat de cause, dans le cadre de cet article, nous laissons volontairement toutes ces questions ouvertes. Nous nous contentons simplement de formaliser des raisonnements gnraux sur les agents, quils soient lectroniques ou humains. La suite du texte est organise comme suit. Dans la section 2, nous analysons de manire informelle les composantes des actes de langage avec effets institutionnels. Nous prsentons ensuite, dans la section 3, une formalisation de chacune de ces composantes dans un cadre logique. Dans la section 4, nous comparons lapproche propose dautres travaux similaires. Enn, en conclusion, nous rsumons les rsultats principaux et donnons quelques perspectives de recherche.
2 Analyse informelle des actes de langage effets institutionnels

Dans le cadre de ce travail, nous ne considrons pas la totalit des subtilits de la dnition des actes de langage telle que prsente dans [29]. Nous nous restreignons,
90
linstar des travaux mens par lorganisme FIPA pour la standardisation du langage de communication inter-agent FIPAACL, aux caractristiques suivantes : force illocutoire, contenu propositionnel, prconditions de faisabilit, effets illocutoires, effets perlocutoires.
3. lagent j a le pouvoir institutionnel douvrir les enchres. Parmi les faits institutionnels normatifs , nous pouvons citer : 4. lagent j a lobligation de payer la facture de lhtel. 5. il est obligatoire davoir une carte de crdit. 6. lagent j a la permission de vendre du vin. 7. lagent j a linterdiction de vendre de la cocane. Il semble clair que la force illocutoire dun acte de langage qui crerait des faits institutionnels qui ne rfrent pas laccomplissement dune action par le destinataire (exemples 1, 2, 3 et 5) est dclarative. La cration de faits institutionnels qui rfrent laccomplissement dune action par le destinataire, comme lexemple 4 cidessus, soulve plus explicitement la question suivante : est-ce que la force illocutoire des actes de langage correspondants est rellement dclarative ou simplement directive ? En effet, on pourrait considrer que, dans cet exemple, lintention de i est que j paie la facture. Cela est le cas, par exemple, si un employ dhtel i donne la facture un client j en disant : vous devez payer la facture ! . Mais on pourrait tout aussi bien considrer que lintention de i nest pas directement que j paie la facture, mais plus exactement quil soit obligatoire que j paie la facture. Dans ce cas, lemploy donne au client la facture, qui est un document ofciel, car son intention est que ce dernier sache que sa dclaration nest pas simplement une requte mais plutt un ordre, qui, par nature, rend obligatoire que le client paie. Bien entendu, il reste vrai que lintention de i ne se borne pas seulement crer lobligation de payer, lagent a galement
91
Dans la suite, les agents jouant le rle de locuteur et ceux jouant le rle dinterlocuteur sont respectivement qualis d metteur et de destinataire . Lmetteur et le destinataire sont gnralement nomms i et j dans le langage formel. 2.1 Force illocutoire La force illocutoire est dtermine par la direction de lajustement entre les mots et les choses. Les actes de langage que nous considrons ici sont ceux qui crent des faits institutionnels. Autrement dit, leur accomplissement a pour fonction [...] dinuer sur les tats de faits institutionnels 2 , comme lcrit K. Bach dans lentre acte de langage de lencyclopdie de philosophie en ligne Routledge [27]. De tels actes de langage satisfont la double direction de lajustement et sont donc caractriss par une force illocutoire dclarative. Concrtisons le type de faits institutionnels auxquels nous nous intressons par quelques exemples. En tout tat de cause, nous soulignons limportance de distinguer clairement les faits qui sont reprsents par des noncs descriptifs des faits qui sont reprsents par des noncs normatifs. Parmi les faits institutionnels descriptifs , nous pouvons citer : 1. les enchres sont ouvertes. 2. lagent j est titulaire du rle de vendeur.
2 Traduction de langlais : have the function [...] of affecting
institutional state of affairs .
lintention dtre pay in ne. En ralit, i croit que linstauration de cette obligation est un moyen plus efcace pour tre pay quune simple demande j daccomplir laction de payer. En effet, si j refuse de payer, celui-ci sait quil viole une obligation et quil va devoir sacquitter dune amende. Lagent i sait que j le sait, ce qui le rassure sur ses chances dtre effectivement pay. En outre, si la menace dune amende ne suft pas inuencer le comportement de j , lagent i est en droit de recourir aux forces de lordre pour contraindre j payer, et i considre que ces reprsentants de linstitution auront plus de succs dans cette entreprise quil naurait eu lui-mme sil avait simplement demand j de payer. Notre proposition est de dnir, dans les cas tels que lexemple 4 ci-dessus, deux effets perlocutoires pour les actes de langage : (1) ltablissement dun fait institutionnel (dans cet exemple, lobligation que j paie) et (2) laccomplissement dune action par le destinataire (dans cet exemple, laction de payer la facture). Nous qualions ce second effet d effet perlocutoire secondaire . Dans lexemple 6, lintention de i est de donner j la permission de raliser une action (vendre du vin) mais nest en aucun cas que j ralise cette action. Dans lexemple 7, il est vident que lintention de i nest pas que j accomplisse une action (vendre de la cocane). Dans ces deux cas, la force illocutoire de lacte est clairement dclarative. 2.2 Contenu propositionnel Le contenu propositionnel reprsente le fait institutionnel crer lorsque lacte de langage est accompli. Plus prcisment, cette reprsentation peut se dcomposer en une rfrence une institution (par rapport laquelle le fait institutionnel crer doit
92
tre interprt), le contenu propositionnel lui-mme et ventuellement des conditions particulires qui doivent tre vries pour que leffet institutionnel recherch soit bien atteint par la ralisation de lacte de langage. Nous avons considr dans nos travaux diffrents types de contenus propositionnels appropris des contextes applicatifs tels que le commerce lectronique. Cependant, la liste propose peut tre facilement tendue en fonction des besoins du domaine choisi. Les diffrents types de contenus propositionnels qui reprsentent des faits institutionnels descriptifs sont les suivants : Les contenus propositionnels reprsentant des situations dans lesquelles des actions comptent, ou ne comptent pas, pour des actions institutionnelles. Un exemple typique est la situation o les enchres sont ouvertes, dans laquelle les offres ont une valeur institutionnelle. Un autre exemple est la situation o un service donn est propos, dans laquelle, sous certaines conditions, une requte au serveur cre des obligations pour le fournisseur de service. En langue naturelle, les actes de langage qui crent de telles situations peuvent tre appels : ouvrir ou fermer . Les contenus propositionnels qui reprsentent des situations dans lesquelles un agent est, ou nest pas, titulaire dun rle. Par exemple, lagent j est, ou nest pas, titulaire du rle de vendeur. En langue naturelle, les actes de langage qui crent de telles situations peuvent tre appels : nommer ou destituer . Les contenus propositionnels qui reprsentent des situations dans lesquelles un agent a, ou na pas, un pouvoir institutionnel. Par exemple, lagent j a, ou na pas, le pouvoir institutionnel douvrir les enchres. En langue naturelle, les actes de langage qui crent de telles situations peuvent tre appels : donner un pou-
voir ou retirer un pouvoir . Les contenus propositionnels qui reprsentent des faits institutionnels normatifs recouvrent en ralit des obligations, des permissions et des interdictions. Lorsque lon considre des normes sur des actions, comme les obligations de faire, les actes de langage correspondants peuvent tre respectivement appels en langue naturelle : ordonner , permettre , interdire . Des verbes similaires peuvent tre employs dans le cas de normes sur des tats, comme lobligation dtre. En plus du contenu propositionnel luimme, doivent tre galement prcises les circonstances dans lesquelles les faits institutionnels crer sont reconnus par linstitution comme des consquences lgales de laccomplissement de lacte de langage. Dans lexemple prcdent de lemploy et du client, le fait que le client ait effectivement pass une nuit lhtel et que les tarifs des nuites soient ofciellement afchs sont des conditions implicites qui rendent lordre de paiement de lemploy valides par rapport la loi. Cet ordre peut donc se rsumer ainsi : attendu que vous avez pass une nuit et que le le tarif ofciel est de tant, je vous ordonne de payer cette facture . Si ces conditions ne sont pas remplies, par exemple si le client na pas pass de nuit lhtel, lacte de langage na pas de sens. Pour nir, la signication intuitive de notre proposition dacte de langage avec effet institutionnel peut sexprimer plus compltement sous la forme : lmetteur dclare au destinataire sa volont de changer ltat de fait institutionnel, tant donn que sont satisfaites un ensemble de conditions qui lautorisent, du point de vue de linstitution, crer cet tat de fait . 2.3 Prconditions de faisabilit La prcondition de sincrit est la fois que i croit quil a le pouvoir institutionnel
de crer le fait institutionnel reprsent par le contenu propositionnel de lacte de langage et quil croit que les conditions requises pour lexercice de ce pouvoir sont satisfaites. A noter ici quil y a une diffrence signicative entre ordonner de faire une action (qui est considr comme dclaratif) et demander de faire une action (qui est considr comme directif). Ainsi, si i demande j de faire , une prcondition de sincrit est que i croit que j a la capacit de faire , alors que si i ordonne j de faire , il ny a pas de telle prcondition puisque, comme prcis plus haut, lintention premire de i en ralisant cet acte dordonner est de crer lobligation de faire . Dans lexemple de lemploy et du client, lintention de lemploy dtre pay est indpendante du fait que le client ait effectivement la capacit de payer (par exemple, puisse mettre des chques sur un compte bancaire sufsamment provisionn). Cest pourquoi le fait que le client puisse payer nest pas une prcondition de sincrit. La prcondition de pertinence (au contexte), linstar des actes de langage usuels, est que i ne croit pas que leffet perlocutoire soit dj satisfait. 2.4 Effet illocutoire premire vue, on pourrait dnir leffet illocutoire comme le fait que j , le destinataire, croit que lintention de i, lmetteur, est que le contenu propositionnel devienne vrai. Cependant, si lon considre un agent tiers k observant (ou coutant ) lacte de langage, la situation savre en ralit un peu plus complexe. Dans ce cas, leffet illocutoire sur k est que k croit que lintention de i est que j croit que le contenu propositionnel devienne vrai.
93
2.5 Effet perlocutoire Lun des effets perlocutoires est que le fait institutionnel reprsent par le contenu propositionnel soit satisfait. Un autre effet perlocutoire est que le destinataire j croit que ce fait est satisfait. Par exemple, dans le scnario de lemploy et du client, le fait que le client ait lobligation de payer nest pas sufsant. Un autre effet signicatif est que le client soit effectivement inform de cette obligation. Il en va de mme, par exemple, si leffet perlocutoire est de nommer quelquun un poste. Par ailleurs, conformment la discussion prcdente sur la force illocutoire, nous distinguons en outre l effet perlocutoire primaire de l effet perlocutoire secondaire . Il ny a deffet perlocutoire secondaire que lorsque la signication de lacte de langage est un ordre de faire une action. Dans ce cas, leffet secondaire est que laction en question soit faite.
n est une une formule reprsentant le contenu propositionnel, cond est une formule reprsentant une condition, p est une formule reprsentant les prconditions de faisabilit, q1 est une formule reprsentant les effets perlocutoires primaires4 , q2 est une formule reprsentant les effets perlocutoires secondaires. Un tel acte de langage signie que lmetteur i dclare au destinataire j son intention, en accomplissant cet acte, de crer le fait institutionnel n relativement linstitution s, tant donn le fait que cette institution lui reconnat ofciellement le pouvoir de le faire lorsque les conditions cond sont satisfaites. 3.1 Langage formel sous-jacent et smantique La syntaxe du langage logique utilis pour exprimer les formules n, p, q1 et q2 est dnie comme suit. Langage L0 . L0 est un langage de logique classique des prdicats du premier ordre. Langage L. Si i, s et sont des termes de L0 reprsentant respectivement un agent, une institution et une action, et si p et q sont des formules de L0 ou L, alors Bi p, Ei p, donei (, p), Op, Obgi ( < p), P ermi ( < p), P rohi ( < p), Ds p, (p), (p q ) and (p s q ) sont des formules de L. Nous construisons L au-dessus de L0 simplement an dviter les complications inhrentes aux quanticateurs hors de la porte des oprateurs modaux (voir [15]).
4 Dans les spcications de FIPA-ACL, leffet perlocutoire dun acte de langage est dsign par le terme d effet rationnel , an de rappeler sa signication intuitive comme tant la raison formelle pour laquelle lacte en question est slectionn dans un processus de planication. Dans cet article, nous ne reprenons cette appellation qu travers les notations PRE et SRE utilises pour dsigner respectivement les effets perlocutoires primaires et secondaires.
3 Formalisation
Nous adoptons la structure du langage de communication inter-agent FIPA-ACL3 , standardis par lorganisme FIPA, pour dnir lacte de langage qui nous intresse. Nous dnissons formellement un acte de langage a avec effets institutionnels par les composantes suivantes : a = < i, Declare(j, Ds n, cond) > FP = p PRE = q1 SRE = q2 o : i est lagent metteur, j est lagent destinataire, s est une institution,
3 lunique diffrence que nous spcions deux effets perlocutoires au lieu dun seul.
94
La signication intuitive des oprateurs modaux du langage L, ainsi que celle du connecteur non standard s est la suivante : Bi p : lagent i croit que la proposition p est vraie. Ei p : lagent i vient juste de faire en sorte que la proposition p soit vraie. donei (, p) : lagent i vient juste de raliser laction et la proposition p tait vraie juste avant la ralisation de . Op : il est obligatoire que la proposition p soit vraie. Obgi ( < p) : il est obligatoire que lagent i ralise laction avant que la proposition p devienne vraie. P ermi ( < p) : il est permis que lagent i ralise laction avant que la proposition p devienne vraie. P rohi ( < p) : il est interdit que lagent i ralise laction avant que la proposition p devienne vraie. Ds p : la proposition p est reconnue dans le contexte de linstitution s comme tant vraie. p s q : dans le contexte de linstitution s, la proposition p compte pour la proposition q , i.e. q est reconnue comme vraie par linstitution ds lors que p est reconnue comme vraie. Les autres connecteurs logiques , et sont dnis classiquement en fonction des connecteurs et . La permission et linterdiction quune proposition p soit vraie peuvent galement tre dnies classiquement partir de Op (respectivement par Op et Op). Nous avons introduit les oprateurs Obgi ( < p), P ermi ( < p) et P rohi ( < p) car les obligations de faire nont de sens que si un dlai leur
est explicitement associ (ici ce dlai est spci par linstant o la proposition p devient vraie), an de pouvoir vrier si elles ont t violes ou non. Nous laissons ouverte la possibilit de dnir des actions composites partir dactions primitives avec des constructeurs standards tels que la squence, le choix indterministe, le test, etc. Enn, nous introduisons les notations suivantes : donei () = donei (, true) power(i, s, cond, , f ) = (cond donei ()) s f , o cond et f sont des formules de L. donei () ne sintresse quau fait quun agent i vient juste de raliser une action , sans sintresser aux propositions qui pouvaient tre vraies juste avant la ralisation de cette action. power(i, s, cond, , f ) signie que linstitution s reconnat lagent i a le pouvoir de crer une situation dans laquelle la proposition f devient un fait institutionnel (relatif linstitution s) en accomplissant laction dans des circonstances o les conditions cond sont vries. En reprenant lanalyse informelle propose la section 2.2, les actes de langage effets institutionnels dont la signication intuitive est ouvrir ou fermer sont formaliss par un contenu propositionnel n de la forme : p ou p, o p est une formule de L0 . Si holds(i, r) est un prdicat signiant que lagent i est titulaire du rle r (la notion de rle est alors dnie dans le cadre dune institution, voir [8]), alors les actes de langage nommer et destituer sont respectivement formaliss par un contenu propositionnel n de la forme : holds(i, r) ou holds(i, r).
95
def def
Les actes de langage signiant donner un pouvoir ou retirer un pouvoir sont respectivement formaliss par un contenu propositionnel n de la forme : power(i, s, cond, , f ) ou power(i, s, cond, , f ). Les actes de langage signiant ordonner, permettre ou interdire de faire une action avant un dlai d sont respectivement formaliss par un contenu propositionnel de la forme : Obgi ( < d), P ermi ( < d) ou P rohi ( < d). Dune faon gnrale, lexpressivit du langage L permet de dnir des actes de langage effets institutionnels ayant des signications potentiellement plus complexes que celles des actes exprims par les verbes usuels de la langue naturelle. Lobjet de ce travail ntant pas directement de dnir la smantique formelle pour les oprateurs modaux du langage L, nous donnons seulement quelques indications sur leur smantique et adoptons, tant que faire se peut, des dnitions volontairement simples. Pour loprateur pistmique Bi , nous adoptons un systme de logique modale standard KD (selon la terminologie de Chellas [3]). Loprateur dynamique donei est dni comme une variante et une restriction (voir [24]) de la logique propositionnelle dynamique spcie par Harel dans [20]. Loprateur dynamique Ei dni par un systme de logique modale construit avec les axiomes RE, C, N et T. Concernant loprateur dobligation dtre O, nous adoptons un systme de logique dontique standard, savoir un systme de logique modale KD. Concernant les oprateurs dobligation de faire Obgi , P ermi et P rohi , nous adoptons la smantique dnie dans [7], qui tend le systme de logique dontique dynamique dni par Segerberg dans [31]. Enn, pour permettre le raisonnement sur
96
les faits institutionnels, nous adoptons, pour loprateur modal Ds et le connecteur logique s , la smantique dnie par Jones et Sergot dans [21]. 3.2 Composantes dun acte de langage avec effets institutionnels Nous disposons maintenant des outils logiques adquats pour dnir formellement les diffrentes composantes dun acte de langage avec effets institutionnels. Contenu propositionnel Le contenu propositionnel est form des deux expressions Ds n et cond, o n et cond sont des formules logiques de L. Prconditions de faisabilit La prcondition de sincrit exprime le fait que (1) lagent metteur i croit quil a le pouvoir institutionnel de crer le fait institutionnel reprsent par la formule Ds n en accomplissant lacte de langage a dans des circonstances o la condition cond est vrie et que (2) ce mme agent i croit que cette condition est vrie dans la situation courante. Cette prcondition sexprime donc par la formule : Bi (power(i, s, cond, a, Ds n) cond). La prcondition de pertinence (au contexte) sexprime par la formule : Bi Ds n, savoir que lagent metteur i ne pense pas que le fait institutionnel reprsent par la formule Ds n est (dj) reconnu dans la situation courante par linstitution s. Les prconditions de faisabilit dun acte de langage effets institutionnels sont donc formalises par : FP = Bi (power(i, s, cond, a, Ds n) cond) Bi Ds n Effet illocutoire
Le fait que lagent destinataire j croit que lintention de lagent metteur i est que Ds n soit satisfait sexprime par la formule : Bj Ii Ds n. Le fait quun agent observateur k croit que lintention de lagent metteur i porte sur le fait prcdent sexprime alors par la formule : Bk Ii Bj Ii Ds n. Il en rsulte leffet illocutoire E suivant : E = Bk Ii Bj Ii Ds n Effets perlocutoires Leffet perlocutoire primaire, savoir que Ds n soit satisfait et que lagent destinataire j croit que Ds n est satisfait, se formalise par : PRE = Ds n Bj Ds n Leffet perlocutoire secondaire dpend de la nature du contenu propositionnel n. Par exemple, si n est de la forme Obgk ( < d), o k peut dsigner soit lagent metteur i soit lagent destinataire j , leffet perlocutoire secondaire sexprime par la formule donek ( < d), savoir que laction soit accomplie par lagent k avant le dlai d. noter que si k dsigne lmetteur, la signication de lacte de langage est un engagement. Dans le cas gnral, leffet perlocutoire secondaire est formalis comme suit : SRE = - donek ( < d), si n = Obgk ( < d), - donek ( < d), si n = F orbk ( < d), - true, dans les autres cas. Leffet perlocutoire primaire Ds n est atteint ds lors que lagent metteur i a le pouvoir institutionnel appropri power(i, s, cond, a, Ds n), que les conditions cond sont satisfaites dans la situation courante ( savoir celle rsultant de laccomplissement de lacte de langage a) et que lacte de langage a vient juste dtre accompli. Formellement, cest le cas lorsque la formule suivante est vrie :
power(i, s, cond, a, Ds n) donei (a)
cond
De la mme faon, leffet perlocutoire primaire Bj Ds n est atteint ds lors que la formule suivante est vrie : Bj (power(i, s, cond, a, Ds n) cond donei (a)) Leffet perlocutoire secondaire donek ( < d) est atteint ds lors que lagent k (metteur ou destinataire) adopte lintention daccomplir laction avant le dlai d et quil a effectivement la capacit daccomplir . Dans cet article, nous ne formalisons pas explicitement ces conditions car lexpression formelle de la notion de capacit est elle seule un problme dur et non trivial (voir [12]). Remarquons que, mme dans le cas dun engagement, cest--dire lorsque k dsigne lagent metteur i, il peut arriver que les conditions pour atteindre leffet perlocutoire ne soient pas satisfaites. Par exemple, dans le scnario de lemploy et du client, si lacte locutoire accompli par le client consiste signer un document ofciel dans lequel il dclare quil paiera la facture avant la n de la semaine, il se peut nanmoins quil nait pas rellement lintention de payer ou quil nen ait pas la capacit. Leffet perlocutoire secondaire donek ( < d) est atteint ds lors que lagent k (metteur ou destinataire) adopte lintention de sabstenir daccomplir laction jusqu expiration du dlai d et quil a effectivement la capacit de le faire.
4 Comparaison avec dautres travaux

Il y a relativement peu de littrature ayant propos une formalisation dactes de langage avec effets institutionnels.
97
Dans [11], Dignum et Weigand considrent des actes de langage ayant pour effet de crer des obligations, des permissions et des interdictions. Leur analyse est galement fonde sur les concepts de la thorie des actes de langage. Une diffrence notable avec notre approche est que, dans la leur, la force illocutoire des actes de langage tudis est directive. Une autre diffrence est que leurs effets perlocutoires sont atteints ds lors que lmetteur a le pouvoir dobliger le destinataire accomplir une action ou que le destinataire a autoris lmetteur ordonner de faire cette action. La premire condition, qui lie lmetteur et le destinataire par une relation de pouvoir , se rapproche beaucoup de notre notion de pouvoir institutionnel. Par contre, la seconde, qui lie lmetteur et le destinataire par une relation d autorisation , savre dune nature assez diffrente et manque, selon nous, de clart quant au statut des obligations cres : ces obligations comptent-elles pour des obligations ofciellement reconnues par une institution donne ? Nous pouvons galement noter que le pouvoir expressif de leur logique est plus limit que celui de la ntre. Par exemple, lacte de langage reprsent par DIRp (i, j, ) dans leur formalisme est considr dans le ntre comme un cas particulier dacte de langage avec effets institutionnels de la forme : < i, Declare(j, Ds Obgj ( < true), true) >. En outre, dans leur formalisme, linstitution s, dans le cadre de laquelle les faits institutionnels sont reconnus, nest pas spcie explicitement. Dans [14], Firozabadi et Sergot introduisent loprateur Declaresi n, qui signie que lagent i dclare que n est vrai, o n est suppos reprsenter un fait institutionnel. Ils dnissent galement loprateur P owi n, qui signie que lagent i a le pouvoir de crer le fait institutionnel n. La
98
relation entre ces deux oprateurs est spcie par la proprit suivante : [DECL] Declaresi n P owi n n o [DECL] exprime lexercice dun pouvoir de crer [le fait institutionnel] n par lagent dsign par i 5 . Il y a une analogie certaine entre cette proprit et la proprit suivante qui caractrise notre approche : cond donei (a) power(i, s, cond, a, n) Ds n o a est lacte de langage < i, Declare(j, Ds n, cond) >. Il y a cependant quelques diffrences techniques mineures. Loprateur Declaresi n ne fait pas de rfrence explicite au destinataire de lacte de langage. Et le pouvoir institutionnel P owi n reste indpendant du contexte (il ny a pas de condition cond pour prciser les modalits dexercice du pouvoir). Une diffrence plus signicative avec nos travaux est quil nest pas fait de distinction entre ce que nous appelons les effets perlocutoires primaires et secondaires. Dans [4], Cohen et Levesque montrent comment les performatives peuvent tre utiliss comme des requtes ou des assertions, mais ils ne considrent pas la cration de faits institutionnels. Dans [19], Fornara, Vigan et Colombetti soutiennent que tous les actes communicatifs peuvent se spcier en termes de dclarations. Ils dnissent une syntaxe formelle pour un langage de communication agent qui repose sur les concepts de la thorie des actes de langage et des concepts dinstitutions. Chaque type dacte communicatif est spci par des prconditions et postconditions. Mais ces conditions diffrent des prconditions de
5 Traduction de langlais : expresses the exercise of a power to create n by designated agent i .
faisabilit et des effets perlocutoires. De plus, il ny a pas support logique formel pour dnir la smantique de ce langage. Dans [13], El Fallah-Segrouchni et Lemaitre analysent informellement les diffrents types dinteractions communicatives entre agents lectroniques ou groupes dagents lectroniques qui reprsentent des entreprises. Cependant, la contribution formelle de leur travail se limite aux dnitions formelles des obligations de faire pour des groupes dagents. Dans cet article, nous prsentons une extension possible du standard FIPA-ACL aux actes de communication effets institutionnels. Sous cet angle, il est intressant de situer notre proposition, fonde sur la spcication des tats mentaux des agents (dans la continuit de lapproche FIPA), par rapport aux autres courants de formalisation des langages de communication inter-agents, en particulier ceux fonds sur la notion d engagements sociaux , qui sont dfendus par des auteurs comme Singh [32, 33], Colombetti et al. [6, 18, 19] ou Chaib-draa et Pasquier [16]. Dans [19], les auteurs crivent : le principal avantage de cette approche [fonde sur les engagements sociaux] est que les engagements sont objectifs et indpendants de la structure interne de lagent et quil est possible de vrier [extrieurement] si un agent se comporte en conformit avec la smantique dnie 6 . Remarquons que dans notre approche, les agents peuvent crer des engagements (que nous assimilons des obligations envers soi-mme) et bien dautres formes de situations normatives comme des interdictions ou des permissions. Il est galement possible de vrier si un acte de langage effets institutionnels a effectivement cr
de langlais : the main advantage of this approach is that commitments are objective and independent of agents internal structure, and that it is possible to verify whether an agent is behaving according to the given semantics .
6 Traduction
la situation normative attendue. En effet, cela ne dpend que du fait que linstitution reconnat lmetteur le pouvoir institutionnel correspondant, ce qui peut se vrier objectivement au niveau de ladite institution, indpendamment de ltat mental de lmetteur ou du destinataire. Cependant, conformment aux approches fondes sur les tats mentaux, il ny a pas de moyen extrieur de vrier, par exemple, si lagent est sincre ou si lintention de lagent en accomplissant lacte de langage tait bien den crer leffet rationnel. Malgr leur caractre incertain, qui est par ailleurs une caractristique inhrente des systmes ouverts auxquels sintresse lorganisme de standardisation FIPA, les actes mentaux restent nanmoins trs utiles dans les perspectives de gnration de plan et de reconnaissance dintention par des agents autonomes.
5 Conclusion
Dans cet article, nous prsentons une dnition formelle gnrale pour les actes de langage dont les effets visent crer des faits institutionnels. Loriginalit de ce travail rside dans le fait que tous les actes de cette nature, y compris les ordres, sont considrs comme des dclaratifs. En outre, la formalisation propose est parfaitement compatible et homogne avec celle des assertifs et des directifs dj spcis dans le langage de communication inter-agent standardis par FIPA. Les rsultats prsents peuvent ainsi constituer une proposition dextension de ce langage. Dans un autre contexte (non abord dans le cadre de larticle), nous avons galement vri lapplicabilit de notre approche au cas de la procdure de la Lettre de Crdit prsent dans [1]. Par la suite, sur le plan nous faut encore examiner axiomes qui spcient la dactes de langage par un thorique, il comment les planication agent ration99
nel doivent tre adapts pour prendre en compte ce nouveau type dacte. Sur le plan pratique, nous envisageons de mettre en oeuvre les actes de langage effets institutionnels et les concepts sous-jacents (notamment obligations, rles et pouvoirs institutionnels), par exemple en sappuyant sur la brique JADE Semantics Add-on , disponible en open source, qui implante directement les spcications formelles du standard FIPA-ACL [25].
[9] F. Dignum. Software agents and e-business, Hype and Reality. In R. Wieringa and R. Feenstra, editors, Enterprise Information Systems III. Kluwer, 2002. [10] F. Dignum. Advances in Agent Communication. Springer verlag LNAI 2922, 2003. [11] F. Dignum and H. Weigand. Communication and Deontic Logic. In R. Wieringa and R. Feenstra, editors, Information Systems, Correctness and Reusability. World Scientic, 1995. [12] D. Elgesem. Action Theory and Modal Logic. PhD thesis, University of Oslo, Department of Philosophy, 1992. [13] A. El Fallah-Seghrouchni and C. Lemaitre. A framework for social agents interaction based on communicative action theory and dynamic deontic logic. In Proceedings of MICAI 2002, LNAI 2313. Springer Verlag, 2002. [14] B. S. Firozabadi and M. Sergot. Power and Permission in Security Systems. In B. Christianson, B. Crispo, and J. A. Malcolm, editors, Proc. 7th International Workshop on Security Protocols. Springer Verlag, LNCS 1796, 1999. [15] M. Fitting and R. L. Mendelsohn. First-Order Modal Logic. Kluwer, 1998. [16] R. Flores, P. Pasquier, and B. Chaib-draa. Conversational semantics with social commitments. In M-P. Huget R. van Eijk and F. Dignum, editors, International Workshop on Agent Communication (AAMAS04), 2004. [17] Foundation for Intelligent Physical Agents. FIPA Communicative Act Library Specication. Technical report, http ://www.pa.org/specs/pa00037/, 2002. [18] N. Fornara and M. Colombetti. Dening interaction protocols using a commitment-based agent communication language. In Proceedings of the second international joint conference on Autonomous Agents and Multi Agent Systems, pages 520527. ACM Press, 2003. [19] N. Fornara, F. Vigan, and M. Colombetti. Agent communication and institutional reality. In R. van Eijk, M. Huget, and F. Dignum, editors, Developments in Agent Communication. Springer Verlag LNAI 3396, 2005. [20] D. Harel. Dynamic logic. In D. Gabbay and F. Guenthner, editors, Handbook of Philosophical Logic, volume 2. Reidel, 1984. [21] A. J. Jones and M. Sergot. A formal characterisation of institutionalised power. Journal of the Interest Group in Pure and Applied Logics, 4(3), 1996.
Rfrences
[1] G. Boella, J. Hulstin, Y-H. Tan, and L. van der Torre. Transaction trust in normative multi agent systems. In AAMAS Workshop on Trust in Agent Societies, 2005. [2] J. Carmo and O. Pacheco. Deontic and action logics for collective agency and roles. In R. Demolombe and R. Hilpinen, editors, Proceedings of the 5th International workshop on Deontic Logic in Computer Science. ONERA, 2000. [3] B. F. Chellas. Modal Logic : An introduction. Cambridge University Press, 1988. [4] P. R. Cohen and H. Levesque. Performatives in a Rationally Based Speech Act Theory. In R. C. Berwick, editor, Proc. of 28th Annual meeting of Association of Computational Linguistics. Association of Computational Linguistics, 1990. [5] R. M. Colomb. Information systems technology grounded on institutional facts. In Workshop on Information Systems Foundations : Constructing and Criticising. The Australian National University, Canberra, 2004. [6] M. Colombetti and M. Verdicchio. An analysis of agent speech acts as institutional actions. In C. Castelfranchi and W. L. Johnson, editors, Proceedings of the rst international joint conference on Autonomous Agents and Multiagent Systems, pages 11571166. ACM Press, 2002. [7] R. Demolombe, P. Bretier, and V. Louis. Formalisation de lobligation de faire avec dlais. In Troisimes Journes francophones Modles Formels de lInteraction, 2005. [8] R. Demolombe and V. Louis. Normes, Pouvoirs et Rles : vers une formalisation en logique. In Actes des Treizimes Journes francophones sur les Systmes Multiagents (JFSMA), pp. 5163, 2005.
100

[22] S. O. Kimbrough and S. A. Moore. On automated message processing in Electronic Commerce and Work Support Systems : Speech Act Theory and Expressive Felicity. ACM Transactions on Information Systems, 15(4), 1997. [23] S. O. Kimbrough and Y-H. Tan. On lean messaging with unfolding and unwrapping for Electronic Commerce. International Journal of Electronic Commerce, 5(1), 2000. [24] V. Louis. Conception et mise en oeuvre de modles formels du calcul et du suivi de plans dactions complexes par un agent rationnel dialoguant. PhD thesis, Universit de Caen, France, 2002. [25] V. Louis and T. Martinez. Un cadre dinterprtation de la smantique de FIPA-ACL dans JADE. In Actes des Treizimes Journes francophones sur les Systmes Multiagents (JFSMA), pp. 101113, 2005. [26] J. McCarthy. Free will - even for robots. Journal of Experimental and Theoretical Articial Intelligence, (to appear). [27] Routledge Encyclopedia of Philosophy Online (version 2.0), consultable sur le web : http ://www.rep.routledge.com [28] D. Sadek. A study in the logic of intention. In Proc. of the 3rd Conference on Principles of Knowledge Representation and Reasoning (KR92), 1992. [29] J. R. Searle. Speech Acts : An essay in the philosophy of language. Cambridge University Press, New-York, 1969. [30] J. R. Searle and D. Vanderveken. Foundations of Illocutionary Logic. Cambridge University Press, Cambridge, 1984. [31] K. Segerberg. Some Meinong/Chisholm thesis. In K. Segerberg and K. Sliwinski, editors, Logic, Law, Morality. A festrichft in honor of Lennart Aqvist, volume 51, pages 6777. Uppsala Philosophical Studies, 2003. [32] M. P. Singh. Social and psychological commitments in multiagent systems. In AAAI Fall Symposium on Knowledge and Action at Social and Organizational Levels, 1991. [33] M. P. Singh. A social semantics for agent communication languages. In F. Dignum and M. Greaves, editors, Issues in Agent Communication, pages 3145. Springer Verlag, 2000.
101
Un modle dinteraction raliste pour la simulation de marchs nanciers

J. Derveeuw B. Beauls P. Mathieu O. Brandouy
Laboratoire dInformatique Fondamentale de Lille Universit des Sciences et Technologies de Lille 59655 Villeneuve dascq cdex FRANCE {derveeuw,beaufils,mathieu}@lifl.fr Lille Economie et Management 104 Avenue du Peuple Belge 59043 Lille cdex FRANCE olivier.brandouy@univ-lille1.fr Rsum : Dans les modles de march multi-agents utiliss habituellement, la structure du march est presque toujours rduite une quation qui aggrge les dcisions des agents de faon synchrone pour mettre jour le prix de laction chaque pas de temps. Sur les marchs rels, ce processus est totalement diffrent : le prix de laction merge dinteractions survenant de manire asynchrone entre les acheteurs et les vendeurs. Dans cet article, nous introduisons un modle de march articiel conu pour tre le plus proche possible de la structure des marchs rels. Ce modle est bas sur un carnet dordres travers lequel les agents changent des actions de manire asynchrone. Nous montrons que, sans mettre dhypothses particulires sur le comportement des agents, ce modle exhibe de nombreuses proprits statistiques des marchs rels. Nous soutenons que la plupart de ces proprits proviennent de la manire dont les agents interagissent plutt que de leurs comportements. Ce rsutat exprimental est valid et renforc grce lutilisation de nombreux tests statistiques utiliss par les conomistes pour caractriser les proprits des marchs rels. Nous nissons par quelques perspectives ouvertes par les avantages de lutilisation de tels modles pour le dveloppement, le test et la validation dautomates dinvestissement. Mots-cls : Systmes Multi-Agents, Marchs Financiers, Simulation Abstract: In usual multi-agent stock market models, market structure is mostly reduced to an equation matching supply and demand, which synchronously aggregates agents decisions to update stock price at each time steps. On real markets, the process is however
0 Ce travail est conanc par le contrat de plan Etat-Rgion et les fonds europen FEDER
very different : stock price emerges from one-toone asynchronous interactions between buyers and sellers at various time step. In this article, we introduce an articial stock market model designed to be close to real market structure. The model is based on a centralized orderbook through which agents exchange stocks asynchronously. We show that, without making any strong assumption on agents behaviors, this model exhibits many statistical properties of real stock markets. We argue that most of market features are implied by the exchange process more than by agents behaviors. This experimental result is validated and strengthen using several tests used by economists to characterize real market. We nally put in perspective the advantages of such a realistic model to develop, test and validate behavior of automated trading agents. Keywords: Multi-Agent Systems, Stock Markets, Simulations
1 Introduction
Les modles de march articiels sont conus pour capturer les proprits essentielles des marchs dactions rels et ainsi pouvoir reproduire, analyser ou comprendre les dynamiques des marchs avec des expriences computationnelles. En effet, de nombreuses questions restent sans rponse malgr les avances de la recherche moderne en nance : par exemple, les dynamiques de march exhibent des particularits statistiques particulires, appeles faits styliss, dont lorigine est presque inconnue. Comme les marchs rels sont des systmes complexes, il nest
103
Un ___________________________________________________________________________ modle d'interaction raliste pour la simulation de marchs financiers
pas envisageable de mener des tudes sur lorigine de ces faits directement : de trop nombreux paramtres restent hors de contrle. Les simulations multi-agents de ces marchs semblent donc tre la cl dune meilleure comprhension de leurs proprits. Concevoir de tels modles implique de simplier la ralit le plus possible, pour nen garder que les proprits et les caractristiques essentielles. Dans la littrature (cf par exemple [1], [3] ou [7]), la complexit structurale des marchs est la plupart du temps vite : elle est remplace par une quation qui pondre loffre et la demande qui sert de modle de formation du prix. Cette simplication est en complte contradiction avec la ralit des marchs dactions o les prix mergent des interactions entre les agents traver un carnet dordres, qui nagit pas comme une entit centralisatrice mais comme un point de rencontre utilis par les agents pour interagir et raliser des changes. Il peut tre object que les quations de formation du prix et les carnets dordres sont presque quivalents comme cela est gnralement admis en thorie conomique standard. Cette hypothse est vraie un niveau macroscopique, mais nous soutenons que considrer uniquement le dsquilibre entre loffre et la demande dans des simulations multi-agents, o on se concentre sur le niveau micro, nest pas sufsant pour obtenir des rsultats exprimentaux robustes. En effet, lquation attnue les consquences des vnements rares et extrmes sur les dynamiques de prix. De plus, les consquences de la microstructure du march et des interactions entre agents sur ces dynamiques sont mises de ct, ce qui perturbe le dveloppement du comportement des agents : il est ncessaire de les complexier outrance pour obtenir des faits styliss proches de la ralit, ce qui affaiblit les conclusions qui peuvent tre tires des expriences. De plus, les comportements de ces agents
104
sont dconnects de la ralit des marchs puisque les entres et sorties de leurs stratgies ne correspondent pas celles des marchs rels. Ceci est un problme majeur : les compagnies nancires aimeraient pouvoir tester des automates dinvestissement sur des marchs articiels avant de leur laisser libre champs sur les marchs rels, ce qui nest pas possible si le march articiel est trop loin de la ralit. Pour rpondre ce problme, nous proposons donc un modle de march articiel qui tient compte des caractristiques des marchs rels : lactivit de trading se droule de manire continue, grce un mcanisme asynchrone. Les agents interagissent travers le march en postant des ordres dans un carnet dordres, qui est une sorte de tableau noir, comme cela se passe sur les marchs rels. Les comportements des agents utiliss dans nos simulations ne sont pas spciquement dvelopps pour reproduire une quelconque logique dinvestissement : ils sont volontairement conus pour inuer le moins possible sur les rsultats obtenus, an dtudier les effets du modle dinteractions (de la structure de march) sur la dynamique des prix. Dans cet article, nous prsentons dabord les proprits statistiques des marchs rels, qui nous servent valider notre modle. Nous prsentons ensuite les modles de march traditionnels qui utilisent une quation pour remplacer la structure du march. Nous prsentons nalement notre modle de march bas sur un carnet dordres, et montrons quil permet de reproduire les caractristiques principales des marchs rels sans faire dhypothses spciques sur la manire dont les agents se comportent. Pour nir, nous discutons des implications de ces rsultats sur la manire de concevoir des modles de march et exposons quelques perspectives de nos travaux.
2 Finance, statistique et validation

Les proprits statistiques des marchs dactions rels (appeles faits styliss) ont t trs largement tudis depuis le milieu du 20me sicle : de nombreux tests statistiques ont t dvelopps pour caractriser ces proprits, qui sont maintenant relativement facile dcrire avec des modles mathmatiques. Cependant, leur origine est quasiment inconnue : ces proprits apparaissent-elles cause de la structure du march ? Sont-elles une consquence des stratgies dinvestissement des agents ? Personne ne peut encore prtendre rpondre de manire ferme cette question.
F IG . 1 Rendements journaliers du titre BMW et leur distribution La simulation multi-agents des marchs semble tre la cl dune meilleure comprhension de la manire dont ces faits styliss mergent : chaque partie du march, de sa structure ses acteurs, peut tre analyse, controlle et observe en profondeur, ce qui nest pas possible sur des marchs rels. Pour sassurer quun tel modle fonctionne, les sries temporelles obtenues par simulation doivent tre valides, cest-dire que leur degr de similitude avec les sries temporelles provenant des marchs rels doit tre quanti. De nombreux tests statistiques peuvent tre utiliss pour atteindre ce but mais ils
peuvent tre classs en deux catgories principales. La premire catgorie de tests a pour objectif de caractriser la forme de la distribution des rendements1 . Il est admis que pour des donnes journalires, cette distribution est leptokurtique, cest dire que les vnements moyens et extrmes y surviennent plus frquemment que dans une distribution normale (cf par exemple la partie droite de la gure 1). La seconde catgorie de tests statistiques sintresse aux dpendances existant entre les termes de la srie. La thorie conomique nous dit que les rendements devraient tre indpendamment et identiquement distribus : il ne devrait donc pas tre possible dexprimer un rt en fonction des rti , i [1, t 1]. Sur les donnes provenant des marchs rels, les sries de rendements exhibent bien cette proprit, qui peut tre vrie avec diffrentes mthodes (rgression vers un modle thorique connu [5], test BDS, etc). Cependant, en regardant la srie des rendements en valeur absolue (i.e. la srie des |rt |), les donnes exprimentales exhibent une dpendance court terme. Ce phnomne, qui est une des caractristiques majeures des marchs nanciers, est prsent la gure 2. Sur la gauche est dessin la fonction dautocorrlation des rendements de laction BMW, oppose celle de sa valeur absolue sur la droite : il apparat clairement que la srie des rendements en valeur absolue exhibe une dpendance signicative court terme.
3 Modles de march bass sur des quations

Depuis que les premiers modles multiagents de marchs ([10]) ont t publis au dbut des annes 90, un grand nombre de modles de march ont t dvelopps. Ils ont tous des objectifs diffrents : certains ont t dvelopps pour reproduire
1 par rendements, nous dsignons la srie dnie par rt = log(pt ) log(pt1 ) o pt est une srie de prix
105
F IG . 2 Fonction dautocorrlation des rendements du titres BMW et de leur valeur absolue des phnomnes particuliers comme les bulles et les krachs ([4]), dautres pour tudier des places de march spciques ([9]) ou pour mieux comprendre les relations caches entre les acteurs du march et la dynamique des prix.
influence External world Agents results desires Market
lisant les simulations multi-agents avec un point de vue mathmatique sur les simulations, ce qui pourrait expliquer labsence de prise en compte des interactions entre les agents. Cette quation pondre la balance entre loffre et la demande pour produire un prix. Cela implique que ces marchs articiels sont synchrones et que chaque agent doit parler chaque pas de temps. Chaque agent met une direction (acheter, vendre ou ne rien faire) qui est ensuite mise en relation avec les dcisions des autres agents. Un prix pt est alors gnr chaque pas de temps avec un processus du type : pt = pt1 + (Bt Ot ) +
t
F IG . 3 Architecture gnrale dun modle de march Ces modles sont composs de trois parties distinctes : le march lui-mme, qui permet aux agents dchanger des actions, les agents et ventuellement un modle du monde, qui peut inuencer les dcisions des agents avec des informations. Cette situation est rsume la gure 3 : les agents communiquent leurs dsirs au march, inuencs par des informations exognes. Le march informe ensuite les agents de la satisfaction de leurs dsirs. Chacun des trois modules prsent la gure 3 peut tre modlis de diffrentes faons : le march peut tre une quation ou une structure de communication complexe, les agents peuvent tre cognitifs, ractifs ou remplacs par une quation. En dautres termes, un modle de march articiel peut tre plus ou moins agent. Les modles qui rduisent la structure du march une quation sont la plupart du temps dvelopps par des conomistes uti106
o Bt est le nombre dagents dsireux dacheter et Ot le nombre dagents dsireux de vendre au temps t. Cette quation signie que si plus dagents sont dsireux dacheter que de vendre, le prix augmente et inversement. Cette famille dquations a pour but de prendre en compte la thorie macroconomique connue sous le nom de loi de loffre et de la demande, qui dit que plus un grand nombre de personnes sont dsireuses dacheter un bien, plus son prix augmente. Cependant, cette proprit est macroscopique. Les simulations ralises avec ces modles sont donc biaises : elles utilisent une loi macroscopique (observe exprimentalement) pour reproduire des proprits provenant dentits microscopiques, sans tenir compte des relations existant entre elle. En effet, comme ces quations impliquent que les agents prennent leurs dcisions de manire synchrone, ils ninteragissent pas ! Ils communiquement uniquement leurs dsirs au march au temps t, qui les informe au temps t + 1 du rsultat de leur demande. Sur les marchs rels, les agents observent au contraire constamment les dsirs des autres agents sur un tableau noir public (appel carnet dordres) et peuvent y ragir immdiatement.
4 Notre modle
Nous avons vu dans la section prcdente que le coeur dun modle de march multiagents ne peut tre rduit une quation pour reproduire un march de manire raliste. Dans la ligne de [11], nous avons donc conu notre modle en respectant la faon dont les agents interagissent sur les marchs rels : notre modle est centr sur un carnet dordres qui permet aux agents de confronter leurs dsirs. Ce choix a quelques consquences sur la manire de penser le march et le comportement des agents : Les agents ne prennent plus leurs dcisions de manire aveugle, sans tenir compte des dcisions des autres agents comme dans les modles quationnels. Ils peuvent observer les croyances et dsirs des autres agents en temps rel dans le carnet dordres et donc prendre des dcisions relatives aux positions des autres. Ce nest pas le cas dans les modles quationnels, o les agents basent leurs stratgies sur les dcisions passes des autres agents, cause du processus de prise de dcision centralis et synchrone. Les stratgies des agents doivent fournir une sortie plus complte que prcedemment : alors que dans les modles quationnels, ils peuvent uniquement donner un signal (acheter ou vendre), le carnet dordres ncessite une direction, un prix et une quantit. Ces prrequis complexient les comportements mais permettent de disposer dun plus grand nombre de stratgies tudier, et dtre plus proche de la ralit. De plus, les comportements dagents dj existants peuvent tre facilement adapts ce modle sans effort. 4.1 Le modle de carnet dordres Le carnet dordres, qui est le coeur de notre modle de march, est conu pour tre aussi minimal que possible : comme
notre but est dtudier les effets des interactions entre les agents sur les dynamiques de march, nous voulons viter au maximum de devoir paramtrer outrancirement notre modle pour viter les effets de bords non souhaits. Le carnet dordres peut tre reli au concept de tableau noir (cf par exemple [6] pour plus de dtails sur ces systmes), bien connu dans les autres champs dapplication des simulations multi-agents : les agents publient leurs dsirs (acheter ou vendre des actions un certain prix) dans le carnet dordres pour rendre cette information publique, et attendent que dautres agents interagissent avec eux.
Carnet dordres et ordres. Le carnet dordres est compos, comme sur les marchs rels, de deux listes tries : la premire regroupe les ordres dachat et la seconde les ordres de vente. Ces listes sont ordonnes en fonction des prix associs aux ordres (un ordre dachat plus gnreux sera plac avant un ordre moins gnreux) et selon leur date dmission (si deux ordres avec le mme prix et la mme direction sont mis, le premier tre rentr dans le carnet est le premier tre satisfait). La gure 4 prsente un exemple typique de carnet dordres.
Sell orders
50.60 $ 50.45 $ best limits 49.60 $ 49.37 $
35 000 21 000 28 000 47 000
Buy orders
F IG . 4 Exemple de carnet dordres Les ordres sont tous des ordres limites, ce qui signie que les prix qui leur sont asso107
cis sont le prix maximum (respectivement minimum) auquel lagent est prt acheter (vendre) ses actions. Ces ordres sont composs dune direction (acheter ou vendre), dun prix limite, dune quantit et dun date dmission. Quand un ordre est envoy au carnet dordres par un agent, il est compar aux ordres qui sont dj dans le carnet pour voir si lun deux lui correspond : Si cest le cas, une transaction intervient entre les deux agents qui possdent les ordres compatibles. Cela signie que lun des agents donne de largent lautre en change dactions. Cette conguration correspond au cas 2 de la gure 5. Sil nexiste aucune contrepartie dans le carnet dordres, lordre est insr dans une des deux listes en accord avec les critres prsents prcedemment (voir le cas 1 de la gure 5).
Gestion du temps. Dans les simulations bases sur des modles quationnels, le temps est divis en pas de temps durant lesquels les agents doivent prendre leurs dcisions. Ces dcisions sont prises en parallle, ce qui signie que les ensembles dinformations dont ils disposent incluent seulement des informations passes.
aux agents doit tre simul. Cest un problme classique dans les simulations multi-agents, spcialement quand le protocole de communication utilis est un tableau noir (cf par exemple [2]). La mthode nave consiste encapsuler chaque agent dans un thread systme, mthode la plus simple pour simuler des processus parallles. Cependant, les threads sont dpendants du systme et leur comportement ne peut tre garanti sur la plupart dentre eux. Cest un problme majeur : les simulations ne peuvent pas tre reproduite et sont perturbes par les autres applications utilisant le processeur, ce qui altre la qualit des rsultats exprimentaux. Une autre possibilit est de simuler le fonctionnement des threads pour garder un contrle sur leur comportement et donc viter les problmes mentionns prcdemment. Il est donc ncessaire de dvelopper un scheduler. Le premier lment prendre en compte est que la parole doit tre donne aux agents dans un ordre non dterministe, pour viter que certains dentre eux utilisent leur position pour proter dautres agents. Cependant, la gestion du temps nest pas aussi simple : il existe de nombreuses faons pour donner la parole alatoirement des agents. La premire est de donner lopportunit de parler tous les agents dans un ordre alatoire. Si un agent est autoris parler, il ne pourra plus reprendre la parole avant que tous les autres agents aient parl. Cest un tirage alatoire sans remise, qui garantit une quit de temps de parole entre tous les agents, mais qui empche un agent de parler deux fois de suite, ce qui nest pas raliste. La seconde possibilit est de donner la parole un agent alatoirement, sans tenir compte du fait quil ait parl ou non. Linconvnient majeure de ce tirage avec remise est que certains agents peuvent rester hors du march (ne peuvent jamais parler) cause de certaines squences gn-
Dans les modles carnet dordres, la gestion du temps ne partage pas du tout la mme logique : le systme de cotation central naggrge pas les dcisions des agents des pas de temps particuliers et les participants au march sont libres de parler quand ils le veulent. Ils peuvent par exemple ragir instantanment une information endogne (un nouvel ordre dans le carnet) ou exogne (une nouvelle). Avec les modles quationnels, cela ne peut pas tre simul puisque les agents ragissent simultanment un vnement au pas de temps suivant. Dans les simulations informatiques, faire prendre des dcisions en temps rel
108

Sell orders
Sell orders
50.60 $ 50.45 $
case 1
35 000 21 000 28 000 47 000

49.52 $ 12 000 new buy order
50.60 $ 50.45 $ 49.60 $ 49.52 $ 49.37 $
35 000 21 000 28 000 12 000 47 000
49.60 $ 49.37 $
Buy orders
Buy orders
Sell orders
Sell orders
50.60 $ 50.45 $ case 2 49.60 $ 49.37 $
35 000 21 000 28 000 47 000 50.50 $ 37 000 new buy order
... 50.60 $ 50.50 $ 49.60 $ 49.37 $
... 35 000 16 000 28 000 47 000
Buy orders
Buy orders
F IG . 5 Fonctionnement dun carnet dordres res par le gnrateur de nombres alatoires utilis dans le scheduler. Cependant, cette situation est plus raliste que la prcdente : sur les marchs rels, certains agents sont trs actifs alors que dautres interviennent trs rarement sur le march. Pour ces raisons, nous utilisons ce principe dordonnancement dans nos simulations. 4.2 Agents La microstructure dun modle de march articiel ne peut tre teste ou value sans des agents changeant des actions travers elle. Nous avons vu que dans la littrature, les agents sont cognitifs et exhibent des comportements complexes. De plus, ils utilisent souvent des modles labors dinformation pour prendre en compte des venements provenant de lextrieur du march dans leur processus de prise de dcision. Ces facteurs amnent tellement de complexit au march articiel quil est vraiment trs difcile de rpondre des questions concernant les dynamiques de prix obtenues par simulation : leurs proprits proviennent-elles du comportement des agents ? de la structure du march ? du modle dinformations qui inuence les agents dans leur prise de dcision ? dun mlange de tous ces facteurs ? Pour tre capable de donner des lments de rponses ces questions, nous avons choisi de concevoir des comportements alatoires, dans la ligne des travaux de [8], ce qui permet de minimiser linuence du modle dagent sur les rsultats obtenus. En effet, si les agents mettent des ordres avec des prix tirs au hasard de manire uniforme et que la dynamique de prix en sortie de simulation suit une distribution non-uniforme (une gaussienne par exemple), il devient plus facile dliminer lhypothse que ce rsultat est d un effet de bord des comportements quavec des comportements complexes. De plus, nos agents sont purement ractifs, ce qui implique que nous ne faisons pas dhypothses fortes sur leurs capacits de raisonnement, ni sur les informations quils utilisent pour prendre leurs dcisions, comme cela est fait dans la plupart des autres travaux. Le choix dutiliser des comportements dagents extrmement simples est donc totalement dlibr dans cet article : notre but nest pas de concevoir des agents les plus ralistes possibles, mais de valider la structure de notre modle de march s109
parment des deux autres composants du modle. Nos agents peuvent tre assimils des zero intelligence trader qui postent des ordres dans une direction alatoire, pour un prix et une quantit alatoire dactions. Chaque fois quils doivent passer un nouvel ordre, nos agents prennent une dcision en fonction des rgles suivantes : Si un des deux cts du carnet dordres est vide, lagent met un ordre dans cette direction, avec un prix tir au hasard dans [1, +[. Cette rgle est ncessaire pour initialiser le carnet dordres. Si ce nest pas le cas, les agents choisissent alatoirement entre mettre un ordre de march et un ordre limite : Un ordre de march est un ordre qui est contrepartie de la meilleure limite dun des cts du carnet dordres. En pratique, cela signie que lagent tire une direction au hasard (acheter ou vendre) et met un ordre dont le prix est gal la meilleure limite de lautre ct du carnet. En dautres termes, cest un ordre pour acheter ou vendre nimporte quel prix. Pour mettre un nouvel ordre limite, lagent choisit alatoirement une direction et, en fonction de celle-ci, tire alatoirement un prix dans : [meilleure limite lachat, +[ pour un ordre de vente [1, meilleure limite la vente] pour un ordre dachat Ds quun agent a mis un nouvel ordre, il arrte den mettre de nouveaux jusqu ce que cet ordre soit satisfait ou jusqu ce quil ait dpass son dlai de validit. Ce dlai de validit est assign de manire alatoire chaque agent au dbut de la simulation et reste constant au cours du temps. Cela garantit principalement quun ordre dont le prix est trop loin des limites courantes du carnet ny reste pas jusqu la n de la simulation sans jamais tre satisfait.
110
4.3 Exprimentations Nous avons vu dans la premire section que les donnes exprimentales obtenues par simulation peuvent tre valides en utilisant de nombreux tests statistiques qui assurent que ces sries temporelles reproduisent correctement les caractristiques typiques dun march nancier (les faits styliss). Cette section prsente les rsultats obtenus avec notre modle bas sur les interactions. Nos expriences2 sont toutes ralises avec 1000 agents pendant environ 20000 pas de temps. Ces informations sont donnes titre purement indicatif : les expriences peuvent tre ralises avec un nombre dagents beaucoup plus important pour les mmes rsultats, la seule limite tant le temps et la mmoire ncessaire au droulement de la simulation. En dautres termes, des simulations large chelle peuvent tre envisages, mais elles ne changeront pas la qualit des rsultats obtenus.
Forme de la distribution des rendements.
Nous avons vu dans la premire section que la forme de la distribution des rendements devrait tre une normale avec un excs de kurtosis dapproximativement 4, signiant que la distribution des rendements prsente des queues paisses. La table 1 montre les rsultats obtenus avec notre modle : la kurtosis mesure oscille autour de 4.5, ce qui est similaire ce qui peut tre observ avec les donnes provenant des marchs rels (cf colonne de droite pour une comparaison). De plus, ce rsultat est meilleur que ceux obtenus par [1] avec un modle quationnel. La gure 6 montre la forme de la distribution des rendements, trs similaire celle dun march rel (cf gure 1).
Autocorrlation des rendements. Nous avons vu prcedemment que lune des
2 Le simulateur utilis pour raliser ces exprimentations est disponible sur simple demande aux auteurs

Description
Excess kurtosis Aug. Dickey-Fuller ARCH
Rsultat (exprimental) 4.52 -20.47 100%
Rsultat (donnes relles) 4.158 -18.47 100%
(cf colonne de droite).
TAB . 1 Rsultats statistiques obtenus avec notre modle bas sur les interactions, compars ceux obtenus avec des donnes relles F IG . 7 Fonction dautocorrlation dune srie de rendements obtenus par simulation et de leur valeur absolue Nous avons vu dans cette section que la srie temporelle obtenue avec notre modle exhibe les mmes proprits statistiques que les jeux de donnes rels. Ces rsultats conrment et amliorent les rsultats prliminaires obtenus dans [11]. Cela montre que notre modle de march asynchrone et continu est mme de reproduire la plupart des caractristiques des marchs nanciers sans faire dhypothse particulire sur le comportement des agents ou sur un ventuel modle du monde.
F IG . 6 Exemple de srie de rendements obtenus avec notre modle et leur distribution caractristiques majeures des rendements est quils nexhibent pas dautocorrlation signicative mais quune dpendance court terme existe lorsquon sintresse leurs valeurs absolues. La gure 7 prsente le trac de la fonction dautocorrlation des rendements et de leur valeur absolue pour un jeu de donnes gnr par notre modle. Si on les compare ceux obtenus sur des donnes relles (cf gure 2), nous pouvons voir clairement que des proprits similaires celles observables en ralit peuvent tre reproduites avec notre modle. Ces proprits peuvent tre vries numriquement en utilisant le test de lAugmented Dickey Fuller qui teste lhypothse nulle La srie possde une racine unitaire. La table 1 montre les rsultats de ce test avec nos sries : lhypothse de la prsence dune racine unitaire est rejete un trs fort taux de conance, comme avec les donnes relles
5 Conclusion
Nous avons prsent dans cet article notre modle de march, bas sur un carnet dordres. Lutilisation de ce modle dinteractions, semblable un tableau noir, implique une cotation asynchrone et continue comme sur les marchs rels. Il est oppos aux modles classiques, qui aggrgent les dcisions des agents de manire synchrone avec une quation qui sert de substitut au mcanisme dinteraction du march. Les rsultats obtenus avec notre modle montrent quil est possible de reproduire la plupart des faits styliss observables sur les marchs rels avec un modle de march multi-agents bas uniquement sur les interactions. Ces rsultats sont fortement similaires ceux obtenus dans la littrature
111
avec les modles quationnels. Cependant, notre modle est beaucoup plus raliste : nous respectons le protocole utilis par les agents pour interagir travers le march, ce qui nest pas les cas des modles prcdents. Nous soutenons donc que de tels modles, continus et asynchrones, doivent tre utiliss pour simuler le fonctionnement des marchs nanciers. Le modle de carnet dordres est si proche de la ralit quaucun problme de validation ne subsiste au niveau de la manire dont les agents interagissent, cest--dire changent des titres. De plus, dvelopper de nouveaux comportements pour les agents est simpli : les stratgies usuelles de trading peuvent tre implmentes telles quelles, sans avoir modier leurs entres et sorties pour les adapter au modle de march articiel. Concernant des considrations techniques, nous pouvons remarquer que le carnet dordres ne ncessite pas de paramtres : cette particularit permet de ne pas avoir les rgler de manire hasardeuse pour faire fonctionner le modle correctement. De plus, notre modle est conu sur des bases solides : en adaptant des techniques dordonnancement bien connues dans dautres domaines de la simulation multi-agents, nous assurons quaucun effet de bord indsirable ne pertube nos simulations. Maintenant que nous avons montr que notre modle bas sur les interactions permet de reproduire les faits styliss observables sur les marchs, nous allons nous concentrer sur llaboration de nouveaux comportements dagents pour essayer de mieux comprendre certains phnomnes de march comme les bulles et les krachs, dont les origines sont encore mal comprises par les conomistes de nos jours.
[2] [3]
[4] [5]
[6] [7]
[8]
[9]
[10]
[11]
market. Journal of Economic Dynamics and Control, 23 :14871516, 1999. N. Carver and V. Lesser. The evolution of blackboard control architectures. Expert Systems with Applications, 7 :130, 1994. S. Cincotti, L. Ponta, and S. Pastore. Information-based multi-assets articial stock market with heterogeneous agents. In Workshop on the Economics of Heterogeneous Interacting Agents 2006 WEHIA06, 2006. J. Derveeuw. Market dynamics and agents behaviors : a computational approach. Articial Economics, 564 :1527, 2005. Robert F. Engle. Garch 101 : The use of arch/garch models in applied econometrics. Journal of Economic Perspectives, 15 :157 168, 2001. R. Englemore and T. Morgan. Blackboard Systems. 1988. F. Ghoulmie, R. Cont, and J.P. Nadal. Heterogeneity and feedback in an agent-based market model. Journal of Physics : Condensed Matter, 17 :12591268, 2005. Dhananjay K. Gode and Shyam Sunder. Allocative efciency of markets with zerointelligence traders : Market as a partial substitute for individual rationality. Journal of Political Economy, 101 :119137, 1993. M. Marchesi, S. Cincotti, S. M. Focardi, and M. Raberto. The Genoa articial stock market : microstructure and simulation, volume 521 of Lecture Notes in Economics and Mathematical Systems, pages 277289. Springer edition, 2003. R.G. Palmer, W.B. Arthur, J.H. Holland, B. LeBaron, and P. Tayler. Articial economic life : A simple model of a stockmarket. Physica D, 75 :264274, 1994. M. Raberto, S. Cincotti, C. Dose, S.M. Focardi, and M. Marchesi. Price formation in an articial market : limit order book versus matching of supply and demand. Nonlinear Dynamics and Heterogenous Interacting Agents, 2005.
Rfrences
[1] B. Le Baron, W.B. Arthur, and R. Palmer. Time series properties of an articial stock
112
Le rle de limpact motionnel dans la communication des vnements

J-L. Dessalles dessalles@enst.fr www.enst.fr/~jld ParisTech ENST (CNRS-LTCI, UMR 5141) 75013 Paris FRANCE
Rsum : Limpact motionnel dun vnement est un facteur essentiel pour prdire le fait quil sera rapport. Nous montrons quun modle minimal de limpact motionnel, bas sur la loi de Fechner, permet de dduire un certains nombre de faits concernant la rapportabilit des vnements lors des interactions spontanes. Ce modle offre des applications potentielles pour lanalyse des mdias, linteraction humain machine et la veille informationnelle. Mots cls : motions, intrt, conversation. Abstract : The emotional impact of an event is an essential element in predicting that this event will be reported. We show that a minimal model of emotional impact, based on Fechner law, can predict various facts about event reportability during spontaneous interactions. This model has potential applications for the study of mass media, humancomputer interaction and informational watch. Keywords: emotions, interest, conversation.
propos de ce papier est tout autre. Il sagit dtudier comment lanticipation dun impact motionnel joue sur la slection des vnements rapports. Lenjeu de cette recherche est de parvenir modliser la slection des contenus spontanment changs par le langage. Nous nous intressons ici plus particulirement aux narrations conversationnelles, qui reprsentent environ la moiti des interactions humaines spontanes (Dessalles 2005), mme si elles font lobjet de peu dtudes en comparaison des interactions argumentatives. La comprhension du mode de slection des vnements rapports en conversation est essentielle si nous voulons amener la machine satisfaire ce besoin communicationnel fondamental humain. La communication vnementielle repose sur deux paramtres fondamentaux. Le premier est le caractre inattendu de lvnement, qui se modlise par un diffrentiel de complexit (Dessalles 2006 ; 2007). Le second paramtre, limpact motionnel, fait lobjet du prsent article.
1 motion et interaction
Les aspects motionnels de la communication ont t surtout modliss sous langle de lexpression des motions. Dans le cadre de lIHM, lobjectif peut tre de rendre des agents conversationnels capables dexprimer et de faire partager des motions (Adam & Evrard 2005), par exemple au moyen dintonations et dexpressions faciales (Ochs et al. 2006). Le
2 Conversations motionnelles
Parmi les histoires que chacun change au cours de ses conversations quotidiennes,
113
Le ___________________________________________________________________________ rle de l'impact motionnel dans la communication des vnements
pendant les une ou deux heures consacres en moyenne la communication vnementielle (Dessalles 2005), nombreuses sont celles qui comportent des lments motionnels. Dans lexemple qui suit, la locutrice tente de partager son motion sur le caractre affreux de la prcdente tempte.
Z1- Drle dhiver, quand mme, drle de cette tempte avant-hier soir, oh quelle horreur, toute la nuit. Affreux ! hein ? Jai cru que la cigogne [en mtal] allait tomber mais non, elle a tenu le coup h P1- Elle est lourde Z2- Elle est lourde mais quand mme, hein L1- Sont habitus ces animaux l Z3- Les pattes, javais eu peur que les pattes cassent, moi P2- Ca noffre pas beaucoup de prise au vent Z4- Non. Mais a faisait peur, h, comme a soufflait, hein, ctait
Jacob: when myMark: blinded her for life. Isnt that horrid. Thats just- I mean just from goofing around, just from screwing a little bit of screwing around. And ifand another thing, it- it- its terrible the things that can happen. Thats why I dont like people screwing around with swords and trying to throw people in the showers and stuff like that, and everything like that. Jacob: you know what happened to my aunt Florence when she was a little girl? Mark: ooh what happened. Jacob: she was like screwing around like around Christmas time? And like she, I- I guess this was like when they had candles on trees? She lit her hair on fire. Mark: oh wow.
La partie narrative de cet extrait est contenue dans les interventions Z1 et Z4. Elle est entrecoupe dune partie argumentative allant de P1 P2. On notera lemphase avec laquelle Z souligne lattitude motionnelle quelle essaie de faire partager (affreux, horreur, a faisait peur). Lextrait suivant est un exemple de tournoi narratif qui montre lenchanement de deux histoires (daprs Norrick 2000, p. 149. Dtails de transcription omis).
Mark: you know what happened to my one of my aunts friends out in Iowa? Like when- when she was younger, she had a headgear from braces, and these two girls were wrestling around just playing around, wrestling. And one girl pulled her headgear off her mouth and let it snap back. And it slid up her face and stuck in her eyes and blinded her. Jacob: wow. Mark: isnt that horrid? Thats horrid.
Lintrt des deux histoires rsulte de leur aspect inattendu (des petites causes qui entranent de grands effets) et du caractre dramatique des situations dcrites : une enfant rendue aveugle et une enfant qui enflamme ses cheveux. Il suffit dattnuer laspect motionnel (e.g. remplacer lenfant par un adulte) pour que lintrt baisse de manire apprciable. Lextrait suivant porte sur une bonne nouvelle concernant un ami commun des interlocuteurs.
L1- Je tai dit que la candidature de Pierre tait accepte [pour son stage au Japon] ? J1- Non. Cest super ! L2- Il y avait cinq dossiers [de candidature], ils en ont pris deux.
Les diffrents extraits qui prcdent dmontrent la varit des motions qui peuvent tre mises en jeu lors des narrations. Il importe de noter que lmotion dont nous parlons ici est discursive et non mta-discursive. Il ne sagit pas dattitude propos de la relation dinteraction, comme dans le cas o un locuteur chercherait
114
se montrer amical, autoritaire, agressif ou soumis. Les attitudes motionnelles dont il est question ici portent sur les vnements relats : Z dclare sa peur et son horreur face la tempte ; Mark se dit horrifi par ce qui est arriv lamie de sa tante ; J1 exprime sa joie de voir la candidature de Pierre accepte. Notre objectif est de montrer comment lanticipation dun impact motionnel conduit les locuteurs rapporter un vnement. Le fait que les locuteurs soient capables de montrer leur propre motion en rapportant un vnement, mme sil est rvlateur, nest pas essentiel pour notre propos. Par exemple, L ne montre aucune motion particulire dans lextrait prcdent, de mme que Jacob lorsquil rapporte laccident de sa tante. Limportant, du point de vue de la modlisation, est que le locuteur soit capable, lors de la slection des vnements relats, danticiper un effet motionnel sur lauditeur, la prdiction tant que cet effet conditionne le succs de la narration. Relater des vnements motionnels nest pas systmatique. Nombre de situations rapportes, une concidence par exemple, sont simplement inattendues (Dessalles 2005). Il est certes possible de considrer que la surprise, parfois intense, qui accompagne ces rcits est une motion comme une autre (Reisenzein 2000). Nous ne souhaitons pas effectuer cette assimilation, pour trois raisons. Premirement, comme nous allons le voir, notre modle suggre que linattendu opre de manire orthogonale aux autres motions. Deuximement, les situations inattendues peuvent ne prsenter aucun enjeu (par exemple la sortie dun tirage de loto re-
marquable comme 2-4-6-8-10-12, alors que lon na pas jou), tandis que les situations motionnelles peuvent systmatiquement se traduire par un enjeu.1 Troisimement, le caractre inattendu dune situation est une attitude de nature essentiellement pistmique, alors que les motions qui accompagnent la perception ou lvocation dune situation saccompagnent de manifestations somatiques particulires (Damasio 1994). Notre entreprise peut sembler irralisable si lon pose comme pralable le fait de disposer dun inventaire des motions possibles, ou mieux dune thorie gnrative des motions, choses qui semblent durablement hors datteinte (Ortony & Turner 1990). Certes, le caractre spcifique des motions, au-del de leur simple valence positive ou ngative, a une influence dcisive sur la prise de dcision, par exemple dans la perception du risque (Lerner & Keltner 2000). Lanticipation de lintrt narratif dune situation obit, semble-t-il, un mcanisme plus restrictif. Nous montrons ci-dessous quun modle qui ne fait appel qu lintensit des motions, indpendamment de la richesse de leur phnomnalit, peut se rvler utile pour prdire la slection des vnements rapportables. Une autre objection vient de ce que les motions sont par essence des phnomnes privs. Puisque les locuteurs ne peuvent pas connatre la vraie nature des motions dautrui, comment faire reposer le succs de la communication sur une
1 Jerry Fodor (1993, communication personnelle) propose de mesurer cet enjeu en demandant aux sujets quelle somme dargent ils sont prts donner a priori pour que lvnement ait lieu ou au contraire nait pas lieu.
115
base aussi incertaine ? La rponse est que le succs de la communication ne prsuppose pas une correspondance parfaite entre les expriences des interlocuteurs. Il suffit que le locuteur soit en mesure danticiper lintensit de ce que pourra prouver son auditoire, ce quun niveau limit dempathie permet dassurer. La communication motionnelle repose sur le fait que les interlocuteurs partagent certaines proccupations, certaines prfrences, certains gots et certaines aversions, au moins dans le contexte limit de lvnement considr. Lexemple de la candidature de Pierre fournit une bonne illustration de cette exigence : la nouvelle de lacceptation de son dossier aurait t sans aucun intrt pour quelquun qui ne se soucie pas du futur de Pierre.2 Dans ce qui suit, nous proposons un modle minimal de limpact motionnel des vnements, puis nous examinons le caractre prdictif du modle avant den discuter la porte.
lintensit motionnelle de la situation observe et de lintensit motionnelle de la situation attendue. V = eobs eexp (1)
3 Un modle minimal
Le modle prsent ici est cens reprsenter lestimation quun locuteur effectue dans le domaine motionnel pour anticiper lintrt dune histoire pour son auditoire. 3.1 Contraste motionnel
Cette dfinition et le principe qui en fait dpendre lintrt narratif constituent un fait important et non trivial de la communication vnementielle. Elle est rapprocher de lautre composante de lintrt narratif, linattendu, qui se dfinit galement comme un dcalage entre la situation attendue et la situation observe, portant cette fois sur la complexit (Dessalles 2006 ; 2007). La prsence ncessaire dun dcalage est propre la communication vnementielle, mais ne se gnralise pas lensemble de la communication humaine. Par exemple, lexistence persistante dun problme peut amener des interlocuteurs en discuter sur le mode argumentatif, mme si ce problme est rcurrent depuis des mois. Lorsque lon perd son emploi, le changement motionnel, et donc le caractre vnementiel, est de courte dure, alors que le caractre problmatique demeure. Le principe de fonder lintrt sur le changement motionnel rejoint certaines observations concernant la sensibilit des sujets aux diffrences entre les situations plus qu une estimation absolue de leur caractre dsirable ou indsirable. Par exemple, les sujets montrent une attitude face au risque qui dpend de lesprance de gain : ils fuient le risque en cas de gain positif et le recherchent en cas de perte ; or lallocation pralable dune somme dargent ne change pas ce comportement (Kahneman & Tversky 1979, pp. 273, 277), bien quelle puisse transformer les
Lintrt dun vnement rapport dpend de manire cruciale du changement motionnel, dfini comme la diffrence entre
2 Notons que le fait de partager les motions nest mme pas un prrequis de la communication vnementielle. Si A sait que B se soucie de C, alors A peut donner B une nouvelle concernant C sans pour autant nourrir le mme sentiment que B vis--vis de C.
116
pertes en gains. Les sujets semblent ne considrer que les changements dutilit et ignorent ce qui est commun aux termes dune alternative. Supposons que la situation observe est exclusive et complmentaire dune autre situation non observe, comme dans lexemple de la candidature de Pierre qui est accepte au lieu dtre refuse. Caractrisons ces situations exclusives respectivement par les probabilits p et (1p) et par les intensits motionnelles eobs et enobs. Nous pouvons crire3 : eexp = p eobs + (1p) enobs, et donc : V = (1p)e (2)
La formule (2) nous permet de faire un certain nombre de prdictions que nous examinons tour tour. 3.2 Les effets de distance
o e = eobs enobs est le contraste motionnel produit par lvnement lorsquon linsre dans une alternative. La formule (2) sapplique chaque fois que lvnement observ est contrast avec une situation prototypique. Dans ce cas, enobs est calcule daprs cette situation prototypique. Pour cette raison, e est dun accs plus facile que le changement motionnel V, puisque le terme eexp suppose une moyenne sur lensemble de toutes les possibilits. Noter que dans beaucoup de cas dintrt pratique, lmotion attache au prototype peut tre considre comme ngligeable, si bien que e = eobs. Cest le cas pour lextrait de Norrick, o les deux accidents rapports peuvent tre contrasts avec une situation normale non motionnelle.
3 Cette criture peut tre remise en question de deux manires.
Lun des aspects les plus spectaculaires de la formule (2) est linfluence de la proximit. Imaginons quun enfant meure. Cest une terrible nouvelle si elle concerne un voisin de palier. De la formule (2) nous pouvons driver V = exp( ve/Ve)e, o 1/Ve est la densit spatiale de ce genre dvnement, et ve est la plus petite rgion isotrope gocentre contenant lvnement (Dessalles 2005).4 Cette relation prdit que le changement motionnel va dcrotre de manire exponentielle avec le carr de la distance. Comme le rappelle Carl Warren (1934, p. 18) :
The person who yawns over a report that famine has swept a million Chinese to their graves will snap to attention if he learns his neighbors child is in the hospital.
De manire analogue, le changement motionnel varie exponentiellement avec la distance temporelle (figure 1) ainsi que selon dautres formes plus abstraites de distance.5 3.3 Lhabituation
La prsence du facteur (1p) dans la formule (2) explique pourquoi nous pouvons devenir insensibles aux drames rptitifs. La plupart des personnes restent impassi4 La probabilit p quau moins un vnement de ce type se
La prospect theory (Kahneman & Tversy 1979) remplace p et (1p) par des coefficients de pondration dont la somme est infrieure 1, de manire prendre en compte certaines formes daversion au risque. Il est aussi possible de considrer que la pondration probabiliste ne sapplique pas aux motions elles-mmes, mais au stimulus.
produise est donne par la formule de Poisson: p = 1exp( ve/Ve). 5 Dans le cas de la distance sociale, nous avons une simple fonction puissance, car le paramtre prendre en compte est le logarithme de cette distance (exemple log2 n si n est le degr de parent, ou log n si n est le nombre de nuds de sparation dans un rseau social invariance dchelle).
117
bles en apprenant la mort dune centaine de personnes sur la route en un week-end, alors que ces mmes personnes peuvent tre catastrophes dapprendre quun accident ferroviaire a caus le mme nombre de victimes. Cette incohrence apparente sexplique par la diffrence de probabilit des deux vnements.
dpendance est li au caractre born ou non born du stimulus. Nous faisons lhypothse que la sensibilit au stimulus considr suit une loi de Weber-Fechner, comme la plupart des relations stimulus-sensation en psychophysique. Ceci signifie que nous sommes sensibles aux variations relatives du stimulus. Le phnomne est manifeste dans le cas des sommes dargent dont les variations sont toujours donnes en pourcentage. Un surcot de cent euros sera jug intolrable pour lachat dun cran dordinateur et ngligeable pour lachat dun appartement. Un phnomne analogue contribue expliquer la croissance non proportionnelle de lmotion en cas de drame. Aprs le tremblement de terre survenu Bm, en Iran, le 26 dcembre 2003, la nouvelle des premiers milliers de victimes causa une grande motion dans le monde ; lorsque lon apprit quelques heures plus tard que les pertes humaines slevaient, non 4000, mais plus de 20 000, lmotion ne crt pas en proportion, comme si les morts additionnelles avaient moins dimpact sur le public. Notre hypothse est que lintensit motionnelle e suit une loi logarithmique en fonction du stimulus w. Il y a mathmatiquement deux possibilits, selon que w est born suprieurement ou non, ce qui donne respectivement : e = e0 log(1+w/w0) (3)
FIG 1: Dcroissance en fonction du temps de linattendu U (en noir) et du changement motionnel V pour diffrentes valeurs du contraste motionnel e (en gris). 3.4
3.4.1
Du stimulus lmotion partage

chelle ouverte et chelle ferme
Lmotion cause par un vnement dpend souvent dun paramtre graduel li cet vnement, comme une somme dargent gagne ou perdue, un nombre de victimes, une quantit de temps perdue ou un nombre de dbris satellitaires rpandus dans lespace et oblitrant lavenir de lutilisation de lespace proche. Dans de nombreuses situations, le stimulus qui cause lmotion est dun accs plus ais que lmotion elle-mme ; il est donc essentiel dtablir directement linfluence du stimulus en question sur lintrt narratif. Un aspect crucial de cette
118
e = e0 log
(1w W )
(4)
La figure 2 montre la variation de lintensit motionnelle dans les deux cas.
FIG. 2 : Intensit motionnelle dans le cas dune chelle ouverte (en noir) ou borne (en gris). La sur-reprsentation des petites causes, dans le cas dune chelle ouverte, permet dexpliquer que les individus puissent choisir de communiquer propos de changements presque insignifiants, comme dans lexemple suivant qui met en scne deux adultes qui, par temps chaud, pntrent dans un vieux btiment.
JCPCa fait du bien un peu de fracheur Cest vrai que cest agrable
etc. Il y a bien sr un lien entre lmotion ressentie et ce qui est communiqu, qui repose sur le fait non trivial que bon nombre dmotions ne peuvent pas tre aisment feintes. On peut galement supposer que ce mme lien rend possible lempathie, puisque le locuteur peut anticiper leffet de son histoire sur linterlocuteur en observant sa propre motion. Il faut cependant garder lesprit la diffrence entre les motions ressenties et lattitude publique que lon adopte vis--vis des situations qui les causent. La plage de variation prendre en compte pour le stimulus est donc celle qui est considre par le locuteur lorsquil choisit de communiquer propos dune situation en fonction de son impact motionnel. Dans lexemple prcdent, la variation maximale pertinente ne se compte pas en millions de K, mais est celle des alas mtorologiques de la rgion. Les formules (3) et (4) sappliquent donc localement.
3.4.2 Leffet de mur
Il semble quen toute rigueur, tout stimulus doive tre considr comme born. Cest certainement le cas de la temprature quun tre humain peut supporter. Il est important de noter, cependant, quil nest pas question ici dchelle objectivement borne ou non borne. Nous ne nous intressons pas non plus une intensit motionnelle objective, telle quon pourrait la mesurer par exemple par des techniques dlectrophysiologie. Une telle approche purement physicaliste passerait ct de la question, car les motions sont des phnomnes privs qui ne sont pas communiqus en tant que tels. La communication porte sur lvnement luimme et sur les attitudes motionnelles, qui transparaissent dans les choix lexicaux, lemphase, les expressions faciales,
Le caractre born ou non born du stimulus est une question dattitude, comme on le vrifie sur lexemple suivant. Dans le film Saving Private Ryan de S. Spielberg, le problme nest pas tant de sauver la vie dun soldat. Le soldat en question est le dernier dune fratrie dont les trois autres membres viennent dtre tus dans la mme guerre. Ces trois victimes ne sont pas perues dans le contexte non born de toutes les victimes possibles de la guerre, mais au sein du rservoir limit de vies quune seule famille peut offrir. Limpact motionnel li la proximit de
119
labsolue limite qui marque lextermination totale des enfants mles de cette famille est suppos assez fort pour mouvoir le gnral Marshall, pourtant parfaitement au fait du nombre total de victimes de la journe. Ce phnomne est bien prdit par la formule (4). On peut sinquiter du fait que la formule (4) produise des valeurs infinies.6 Est-ce que le public prouverait une peine infinie lors de la mort du soldat Ryan ? (il semble que cette mort ait t vite dans le film.) Bien que par empathie, on imagine la peine insupportable du personnage de la mre du soldat, lexcitation motionnelle du public reste dans des limites raisonnables. Lexplication, encore une fois, vient de ce que la formule (4) ne dcrit pas directement les motions, mais les attitudes vis--vis de ces motions. Tant que la limite W nest pas atteinte, tant que cette limite peut tre conue comme inatteignable, la formule (4) offre une bonne image de lintensit motionnelle qui peut tre partage dans linteraction. Ds que la situation est conue comme pouvant aller au-del de W, la formule (4) cesse de sappliquer. Une limite franchissable nest plus une limite. La mort du soldat Ryan, une fois considre, ramne la situation celle de la disparition de toute une famille. Cet vnement est alors conu parmi dautres cas analogues (avec la diffrence qu la fin du film, le spectateur peut en quelque sorte comme un proche de cette famille).
Leffet de mur, ou effet soldat Ryan, permet dexpliquer de nombreux phnomnes lis aux interactions langagires. Ainsi, les participants dune conversation peuvent dplorer la progression inexorable de la ville du Caire parce quelle sapproche dangereusement du site des pyramides de Giseh. De mme, la mort de milliers de grands singes infects par le virus Ebola peut tre prsente comme absolument dramatique en raison du rservoir limit des derniers reprsentants de nos espces surs. Plus gnralement, leffet de mur explique limportance motionnelle de lapproche des chances dcisives, qui est largement exploites dans les thrillers cinmatographiques. Leffet de mur permet galement de proposer une explication parcimonieuse pour la dissymtrie bien connue entre limpact des nouvelles ngatives et des nouvelles positives. Comme dit ladage des journalistes anglo-saxons, Bad news sells. Good news does not. La nouvelle, en septembre 2004, par les firmes Renault et Peugeot de la cration de quelque 10 000 emplois nouveaux ne fut presque pas commente. En avril 2005, lorsque Rover annona 5000 licenciements en Grande Bretagne, lmoi suscita des commentaires et des ditoriaux pendant plusieurs jours, mme dans les pays voisins. Les emplois nouveaux sont mesurs sur une chelle ouverte, tandis que la perte demploi se mesure naturellement par rapport au rservoir limit des employs actuels. lchelon individuel galement, perdre son emploi revient perdre une partie de ce qui rend la vie possible, tandis quun nouvel emploi constitue juste une opportunit, considre au sein dun rservoir illimit de perspectives positi-
6 Le fait en soi nest pas choquant, puisque certaines motions peuvent pousser au suicide. Le problme apparent vient du fait que la formule prdit lmotion anticipe chez linterlocuteur, ou ici le spectateur.
120
ves. Ceci contribue expliquer pourquoi lempathie est plus grande lorsque lon parle de licenciement que lorsquil sagit demploi nouveau. Plus gnralement, cela explique pourquoi les interactions langagires portent plus souvent sur des vnements ngatifs que sur des vnements positifs.7 Cette dissymtrie entre bonnes et mauvaises nouvelles nest bien entendu quune tendance, lie la prsence plus frquente dun effet de mur du ct ngatif. Lorsque leffet de mur joue du ct de la bonne nouvelle, on sattend une motion plus intense dans le sens positif. Ainsi, une diminution rpte du nombre de morts sur les routes, comme celle qui sest produite en France dans les annes 2005, a suscit une motion soutenue dans le public ; la raison peut en tre que le nombre de victimes est estim avec zro morts en point de mire. La dissymtrie entre perspectives positives et ngatives est un phnomne classiquement observ en thorie de la dcision. La prospect theory traduit le fait que la fonction dutilit est concave pour les gains et convexe pour les pertes, ce qui permet dexpliquer les diffrences dattitude par rapport au risque selon que le jeu est positif ou ngatif (Kahneman & Tversky 1979). Par symtrie par rapport lorigine, cest bien ce que prvoit la formule (3) si les gains et les pertes sont estims sur des chelles ouvertes, ce qui semble tre le cas dans les expriences de Kahneman et Tversky o les enjeux restent limits.8 Pour des enjeux ngatifs
7 Ceci indpendamment du fait que les vnements ngatifs sont plus facilement convertis en problmes et peuvent de ce fait donner lieu une argumentation. 8 Ces auteurs mentionnent lexistence de seuils qui peuvent inverser la convexit de la fonction dutilit (p. 279). Noter
importants, la prise en compte de leffet de mur prvoit que laversion au risque sera restaure, ce qui explique que les individus choisissent de sassurer mme si cela est au prix dune perte certaine. 3.5 Lintrt narratif
Selon notre modle, lintrt narratif I puise dans deux sources, linattendu U et le changement motionnel V. I=U+V (5)
Si nous prenons comme expression de la probabilit p=2U (Dessalles 2006), on parvient deux expressions de lintrt narratif, selon que lon applique la formule (3) ou la formule (4).
I = log
(1 + w w0 )e (1 p )
0
(6)
I = log
1 e (1 p ) p (1 w W ) 0
(7)
Ces deux formules peuvent tre vues comme des gnralisations de la formule de Shannon qui dfinit linformation comme log2(1/p). La figure 3 montre les variations correspondantes. Selon ce modle, les valeurs de I offrent une prdiction de lacceptation des narrations conversationnelles. En tant que fonction de la probabilit perue (Dessalles 2005) et du stimulus motionnel, lintrt narratif doit excder un certain
que notre modle permet deux chelles ouvertes indpendantes pour les motions lies aux gains et lies aux pertes, mais il nexplique pas que la seconde croisse plus vite que la premire.
121
seuil pour produire une narration acceptable. I(p,w) > I0 (8)
la dure du silence depuis que le prcdent sujet de conversation sest termin, et ainsi de suite. Cependant, compte tenu de ces complications, la prdiction reste valide. Dans tout contexte interactionnel fixant I0, on peut atteindre un niveau dintrt trop faible pour tre acceptable par les interlocuteurs. Inversement, un niveau dintrt lev garantit lacceptation conversationnelle ( moins quune contrainte sociale ou culturelle, comme la politesse, nait t viole). On peut dire que la formule (8) exprime linterface entre deux couches autonomes de lanalyse du langage. Dun ct, I(p,w) modlise lorientation cognitive de ltre humain vers ce qui excite son intrt. De lautre ct, le seuil I0 concentre de nombreux facteurs sociologiques qui sont largement indpendants de ce qui est dit ce moment de linteraction. 3.6 Courbes iso-axiologiques
(a)
(b) FIG. 3: Intert narratif I dun vnement, fonction de la probabilit perue p et du stimulus motionnel w pour un stimulus ouvert (a) et born (b). Le seuil dintrt I0 dpend de manire vidente de toute une gamme de facteurs, comme le nombre de participants de la conversation, leur degr de familiarit, leurs statut social relatif, leur disposition desprit lun envers lautre au moment de linteraction, la prsence de contraintes sociales, institutionnelles ou culturelles,
122
Si nous supposons que le seuil I0 a t fix indpendamment en fonction de la situation sociale de linteraction, il est possible de dfinir une zone de banalit dans laquelle la combinaison des paramtres produit un intrt narratif infrieur I0. La figure 4 montre comment le contraste motionnel doit varier en fonction de linattendu pour garantir un intrt narratif suffisant. Sous chaque courbe, la zone de banalit constitue une zone interdite dans laquelle le minimum dintrt requis nest pas assur. Ces courbes sont dites iso-axiologiques car elles lient des vnements dgal intrt.9 On vrifie que
9 Ce nologisme est form partir des racines de grec ancien iso-, qui signifie gal, et le mot axiologos (-), qui signifie digne dtre mentionn.
de faibles valeurs de linattendu U demandent en compensation que le contraste motionnel soit lev, ce qui suppose un niveau dempathie lev. La figure 5 reprsente les courbes isoaxiologiques dans le plan (p,w) pour un stimulus non born ou born. On vrifie que les faibles valeurs du stimulus sont suffisantes pour veiller lintrt dans le premier cas, tandis que les valeurs proches du mur peuvent tre excitantes dans le deuxime cas mme pour des vnements relativement probables.
lestimation de lintrt narratif des situations quelle retient. La formule (2) rsume cette contribution. Sous la simple hypothse que la loi de Fechner sapplique aux diffrents stimuli motionnels, nous avons driv deux expressions de linformation gnralise (formules (6) et (7)). Ces expressions permettent dtudier linfluence des paramtres p et w sur lintrt narratif, et donc de prdire lacceptabilit de lvnement rapport dans linteraction. Ce modle prsente un intrt scientifique. Certes, la mise lpreuve des faits est dlicate, dans la mesure o les paramtres e0, w0, W et I0, ainsi que les valeurs des variables p et w, sont difficiles estimer en pratique. Cependant, ils ne sont pas par principe inaccessibles la mesure. De plus, le modle se prte divers tests portant sur ses prdictions, concernant notamment lhabituation, les effets de distance et leffet de mur. Ce modle ouvre la voie des applications. Pouvoir disposer dune mesure de lintrt est fondamental : - pour la gestion des interactions humainmachine en langue naturelle. La valeur dune telle interaction se juge en partie la capacit de la machine formuler des interactions intressantes. Il est facile de permettre un agent conversationnel daccder un ensemble inpuisable dvnements. Le problme se pose de slectionner ceux qui, un moment donn de linteraction, pourront intresser linterlocuteur. Notre modle offre un moyen simple (sous rserve de lestimation de ses paramtres !) danticiper lintrt et de hirarchiser les informations qui seront donnes. Inver123
Figure 4: Les courbes isoaxiologiques dfinissent trois zones de banalit (surfaces grises) pour 8, 12 et 16 bits respectivement. Les deux paramtres ici sont linattendu et le contraste motionnel.
4 Conclusion
Un aspect fondamental des interactions langagires repose sur la slection des faits et des situations qui sont dignes dtre communiques. Le prsent article prsente un modle propre prdire la slection des situations caractre motionnel. Bien quune connaissance fine de la richesse des motions humaines soit certainement ncessaire pour mettre en uvre une telle slection, leur seule intensit semble intervenir dans
sement, il permet lagent de comprendre en quoi les vnements mentionns par lutilisateur sont dignes dintrt. - pour les moteurs de recherche. Le modle offre idalement une mesure directe de limpact motionnel, ce qui pourrait permettre daugmenter la pertinence des rponses certains types de requte. Bien entendu, la mme rserve doit tre faite quant la ncessit pralable destimer les paramtres du modle pour lutilisateur.
stimulus non born et (b) un stimulus born par W (e0=6). - pour la veille informationnelle et certaines formes de fouille de donnes. - pour lanalyse des mdias. Ltude de la valeur mdiatique des vnements (newsworthiness) est un domaine qui reste largement empirique (Galtung & Ruge 1965 ; Berkowitz 1990). La contribution thorique de la proximit, le phnomne dhabituation, la dpendance logarithmique par rapport au stimulus, sont de nature amliorer la comprhension de limpact motionnel des vnements, ce qui nest pas ngligeable compte tenu de limportance conomique de ce secteur. Beaucoup defforts ont t consacrs, dans ltude de linteraction humainmachine, la forme de linteraction, peuttre plus qu son contenu. En ce qui concerne le contenu, lessentiel des efforts sest port sur la gestion de largumentation. La prsente contribution se justifie par le fait que la moiti des interactions langagires spontanes humaines porte sur des rcits dvnements. Limpact motionnel tant une composante essentielle de lintrt narratif, nous avons jug important den proposer une modlisation. Celle-ci a t conue sous des hypothses restrictives, quil conviendra peut-tre de rviser la lumire des exprimentations.
(a)
(b) Figure 5: Les zones de banalit sont les surfaces grises sous les trois courbes, calcules pour des seuils dintrt narratif de 8, 12 et 16 bits respectivement. (a) correspond un
124
Rfrences
Adam, C. & Evrard F. (2005). "Donner des motions aux agents conversationnels". In: Workshop Francophone sur les Agents Conversationnels Anims. Grenoble: IMAG, 135-144.
www-leibniz.imag.fr/WACA/articles/AdamEvrard-05.pdf
under risk". Econometrica 47(2), 263291. Lerner, J. S. & Keltner D. (2000). "Beyond valence: Toward a model of emotion-specific influences on judgement and choice". Cognition and emotion 14(4), 473-493.
http://computing.hss.cmu.edu/lernerlab/pdfs/Lern er_Keltner_2000_CE_Paper.pdf
Berkowitz, D. (1990). "Refining the gatekeeping metaphor for local television news". Journal of Broadcasting & Electronic Media 34(1), 55-68. Damasio, A.R. (1994). L'erreur de Descartes. Paris: Odile Jacob, ed. 1995. Dessalles, J-L. (2005). "Vers une modlisation de l'intrt". In: A. Herzig, Y. Lesprance & A.-I. Mouaddib (Eds), Modles formels de l'interaction (MFI-05). Toulouse: Cpadus Editions, 113-122.
www.enst.fr/~jld/papiers/pap.conv/Dessalles_041 22102.pdf
Norrick, N. R. (2000). Conversational narrative : storytelling in everyday talk. Amsterdam: John Benjamins Publishing Company. Ochs, M., Niewiadomski R. & et al. (2006). "Expressions intelligentes des emotions". Revue d'Intelligence Artificielle 20(4-5).
http://www.iut.univparis8.fr/~pelachaud/AllPapers/RIA-Ochs.pdf
Dessalles, J-L. (2006). "Intrt conversationnel et complexit : le rle de l'inattendu dans la communication spontane". Psychologie de l'Interaction 2122, 259-281.
www.enst.fr/~jld/papiers/pap.conv/Dessalles_040 82404.pdf
Ortony, A. & Turner T. J. (1990). "What's basic about basic emotions". Psychological Review 97(3), 315-331.
www.cs.northwestern.edu/~ortony/papers/basic% 20emotions.pdf
Dessalles, J-L. (2007). "Complexit cognitive applique la modlisation de l'intrt narratif". Intellectica 45. Elster, J. (1996). "Rationality and the emotions". The Economic Journal 106 (438), 1386-1397.
www.geocities.com/hmelberg/elster/AR96RATE. HTM
Galtung, J. & Ruge M. H. (1965). "The structure of foreign news". Journal of International Peace Research 1, 64-90. Kahneman, D. & Tversky A. (1979). "Prospect theory: An analysis of decision
Reisenzein, R. (2000). "The subjective experience of surprise". In: H. Bless & J. P. Forgas (Eds), Subjective experience in social cognition and social behavior. Philadelphia, PA: Psychology Press, 262279. Warren, C. N. (1934). Modern news reporting. New York: Harper & Brothers, ed. 1959.
125
Raisonnement sur les actions : de Toronto Amsterdam

Hans van Ditmarsch hans@cs.otago.ac.nz

Andreas Herzig herzig@irit.fr
Tiago de Lima santos@irit.fr
Universit dOtago, Nouvelle Zelande
Institut de Recherche en Informatique de Toulouse, France
Rsum : Nous montrons comment en raisonnement sur les actions la fameuse solution de Reiter du problme du dcor peut tre modlise en logique pistmique dynamique, et nous proposons une mthode de rgression optimale. Notre mthode tend la solution de Reiter en intgrant des actions dobservation et des oprateurs modaux de connaissance, et traduit le formalisme de Reiter (le Calcul des situations) dans une logique des actions et des connaissances comprenant des oprateurs dannonce et daffectation. En tendant la mthode de rduction de Lutz de la logique des annonces publiques aux affectation, nous tablissons des rsultats de complexit pour la rgression. Nous montrons que ces rsultats sont optimaux : le problme de dcider la satisabilit dune formule est NP-complet pour un agent, PSPACE-complet pour plusieurs agents et EXPTIME-complet dans la prsence de loprateur de connaissance commune. Mots-cls : raisonnement sur les actions et changement ; logiques pistmique dynamique ; systmes multi-agents ; rgression. Abstract: We show how in the propositional case Reiters well-known solution to the frame problem can be modelled in dynamic epistemic logic, and provide an optimal regression algorithm. Our method is as follows : we extend Reiters solution by integrating observation actions and modal operators of knowledge, and encode the resulting formalism in a dynamic epistemic logic with announcement and assignment operators. By extending Lutz recent satisability-preserving reduction for public announcement logic to assignments, we establish optimal complexity results for regression : satisability is NP-complete for one agent, PSPACE-complete for multiple agents and EXPTIME-complete when common knowledge is involved. Keywords: reasoning about actions and change ; epistemic dynamic logics ; multiagent systems ; rgression.
1 Introduction
Dans [14] Thielscher distingue deux versions du problme du dcor. La version reprsentationelle est le problme de concevoir un langage logique et une smantique telle que les domaines peuvent tre dcrits sans expliciter linteraction entre toutes les actions et les uents : quand il y a n actions et m uents, la description du domaine doit tre beaucoup plus petite que 2 n m. La version infrentielle du problme du dcor est plus exigeante : tant donne une solution pour la version reprsentationelle, il sagit du problme de concevoir une procdure de dcision efcace, cest--dire, dont la complexit nest pas trop leve. Reiter [10] a rsolu la version reprsentationelle du problme du dcor en utilisant ce quil appelle des axiomes de ltat suivant ("successor state axioms", SSAs). Dans le cas propositionnel, les uents ont seulement des situations comme argument, et les SSAs prennent la forme : xs(p(do(x, s)) (Poss (x, s) (x = a1 + (a1 , p, s)) . . . (x = an + (an , p, s)) (p(s) (x = a1 (a1 , p, s)) . . . (x = am (am , p, s))))) o a1 , . . . , an sont les actions pouvant (potentiellement) rendre p vrai, et a1 , . . . , am sont les actions pouvant (potentiellement) rendre p faux. Pour une action donne ai , soit E + (ai ) lensemble des uents qui peuvent devenir vrais par lexcution
127
Raisonnement ___________________________________________________________________________ sur les actions : de Toronto Amsterdam
de ai , et E (ai ) lensemble des uents qui peuvent devenir fausse par lexcution de ai (dans [10] ces ensembles sot laiss implicites). Donc, pour tout uent p E + (ai ), la formule + (ai , p, s) caractrise les conditions dans lesquelles ai rend p vrai, et (ai , p, s) caractrise les conditions dans lesquelles ai rend p faux. + (ai , p, s) et (ai , p, s) doivent tre uniformes en s, ce qui signie en particulier quils ne peuvent pas contenir la fonction do.1 Lide centrale de Reiter est que, grce au principe de linertie, les ensembles E + (ai ) et E (ai ) sont des petits sous-ensembles de lensemble des uents du langage. Pour cette raison la taille de lensemble de tous les SSAs peut tre de mme ordre que le nombre dactions et donc, beaucoup plus petite que le produit du nombre dactions par le nombre de uents. Cela signie que les SSAs la Reiter comptent comme une solution du problme du dcor. Cette solution a t tendu par [12] aux actions pistmiques. Quand les SSAs sont disponibles pour touts les uents p, on peut rduire (rgresser) toute formule une formule quivalente red() qui ne contient pas doprateur daction. Ceci fournit alors une procdure de dcision dans le cas propositionnel. Cette procdure a t implant dans le langage GOLOG. Cependant, la formule rduite peut tre exponentiellement plus longue que celle dorigine ; en consquence la version infrentielle du problme du dcor na pas t rsolu ni par Reiter ni par Scherl & Levesque. Dans cet article, nous tendons la solution de Reiter et rsolvons la version infrentielle du problme du dcor. Pour lextension la connaissance, parmi les actions pistmiques nous considrons uniquement les observations : tous les agents
tard, Reiter et col. gnralisent SSAs des quivalences xs(p(do(x, s)) (a, s). Nous ne considrons pas cette extension ici.
1 Plus
observent que une proposition donne est vraie dans le monde, et mettent jour leurs tat de connaissance en fonction.2 Nous proposons une transformation polynomiale qui prserve la satisabilit de formules et limine les oprateurs daction. Ceci nous permet de dnir une mthode optimale pour raisonner sur les actions dans ce scnario : dans le cas de base sans loprateur de connaissance ainsi que dans le cas dun seul agent, la procdure est dans NP ; dans le cas multiagents, elle est dans PSPACE ; et dans le cas avec connaissance commune, elle est dans EXPTIME. Ces rsultats sont optimales puisquils concident avec la complexit de la logique pistmique de base. Techniquement, notre approche est bas sur les avances rcentes en logiques pistmiques dynamiques. Dans cette famille de logiques, les situations sont laisses implicites, et il ny a pas de quantication sur les actions. Donc, loutil central de la solution de Reiter nest pas disponible. Cependant nous montrons que nous pouvons transposer cette solution sans sa prsence et reconstruire cette solution en logique pistmique dynamique DELC N , propos par [16, 6]. Les annonces peuvent tre utilises pour modliser les observations, tandis que les affectations permettent de modliser les actions de changement du monde (dites actions ontiques). DELC N tant une extension de la logique des annonces publiques de Plaza, nous tendrons la procdure de dcision optimale de Lutz pour la dernire ([7]) DELC N , et nous montrerons que nous pouvons prserver loptimalit de la procdure : la vrication de satisabilit de formules dans DELC N est dmontr avoir la mme complexit que la vrication de satisabilit dans la logique pistmique de base.
2 Notons que les observations sont diffrentes des actions de perception (sensing) introduites dans [12]. En excutant ces dernires, les agents observent si une proposition donne est vraie ou non.
128
2 Base : logique pistmique ELC N

Soit P un ensemble innie et dnombrable de lettres propositionnelles, et soit N un ensemble nie dagents. Par commodit, nous abusons de la notation et identions N avec lensemble dentier {1, . . . , |N |}. Le langage LELC de la logique pistN mique avec connaissance commune est dnie par la BNF : ::= p | | | Ki | CG o p est un lment de P , i est un lment de N , et G est un lment de (N ). La formule Ki signie : lagent i sait que , et CG signie : il est connaissance commune parmi les agents du groupe G que . Nous utilisons les abrviation habituelles pour , , , et Ei , pour sous-ensembles G de N . Nous rappelons que le dernier est dnie par : EG = iG Ki . Le langage LELN est obtenu du par exclusion de loprateur langage LELC N de connaissance commune du dernier. Un ELC N -modle est une tuple M = W, K, V o : W est un ensemble non-vide des mondes possibles ; K : N (W W ) associe une relation dquivalence Ki chaque i N . V : P (W ) associe une interprtation V (p) W chaque p P . Par commodit, nous dnissons Ki (w) = {w | (w, w ) Ki }. La relation Ki modlise la connaissance de lagent i : Ki (w) est lensemble des mondes que lagent i considre possible en w.
o M = {w W | M, w } est lextension de dans le modle M et le dans la dernire clause signie la clture reexive et transitive. Comme dhabitude nous disons que est valide dans M (notation : M ) ssi -valide (notation : M = W ; est ELC N C ) ssi M pour tout EL |=ELC N N modle M ; est satisable dans ELC ssi N |=ELC . Des notions similaires sont dN nie pour la variante ELN sans connaissance commune. Nous rappelons que le problme de dcider la ELN -satisabilit dune formule est NP-complet si N = 1, PSPACE-complet si N 2, et que la ELC N -satisabilit est EXPTIME-complet [4].
3 Thories dactions la Reiter

Nous tendons [3], o les thories dactions la Reiter sont formules en logique dynamique propositionnelle (PDL). 3.1 Descriptions daction
Dans [10] et [12] plusieurs hypothses de simplication sont faites. Les plus importantes sont : H1 : Toute les lois dactions sont connu par tous les agents. H2 : Toute occurrence daction est publique. H3 : Toute action est dterministe. H4 : Chaque action est ou bien ontique ou bien pistmique, mais jamais les La relation de satisfaction est dnie deux la fois. de faon habituelle : H5 : Une action ne peut pas changer la valeur de vrit dun nombre innie de M, w p ssi w V (p) uents. M, w ssi not M, w M, w ssi M, w and H6 : Lensemble de uents affects par une M, w action est beaucoup plus petit que lensemble P de tous les uents du M, w Ki ssi Ki (w) M langage. M, w CG ssi ( iG Ki ) (w) M
129
Les deux premires hypothses garantissent que la connaissance des agents sur les types dactions (H1) et ses instances (H2) sont correctes. H4 est bas sur la distinction entre actions ontiques et actions pistmiques : les actions du premier type modient les faits, tandis que les actions du second type provoquent la mise jour des tats de connaissance des agents. Cette hypothse est aussi base sur le fait que chaque action peut tre divise en une action ontique et une action pistmique. Ce constat est du folklore dans la literature du raisonnement sur les actions (voir, par exemple, [13]). Les deux dernires hypothses garantissent que le formalisme de Reiter rsout la version reprsentationelle du problme du dcor. Elles sont justies par lhypothse de base de linertie : les actions (ontiques) ne changent quune petite partie du monde. Notons que Reiter nnonce pas explicitement lhypothse H5 ; cependant elle est indispensable quand les uents sont propositionnels. En plus, Scherl & Levesque supposent quil ny a quun seul agent. Nous ne faisons pas cette restriction dans le prsent article, et considrons aussi le cas multiagent. Soit A un ensemble inni dnombrable de lettre dactions (actions atomiques abstraites), et supposons A = Ao Ae , o Ao et Ae sont des ensembles disjoints de lettres dactions ontiques et pistmiques respectivement. Nous supposons que Ae ne contient que des observations. Dnition 1 Nous dnissons une description dactions comme tant une tuple D = Poss , E + , E , + , , Obs tel que : Poss : A LELC attribue une formule N chaque action qui dcrit sa prcondition dexcutabilit ; E + : A (P ) attribue un ensemble nie deffets positives possibles chaque action ;
130
E : A (P ) attribue un ensemble nie deffets ngatives possibles chaque action ; + est une famille de fonctions + (a) : . Elle attribue une forE + (a) LELC N mule chaque pair (a, p) qui dcrit la prcondition pour que laction a rende p vraie ; est une famille de fonctions (a) : . Elle attribue une forE (a) LELC N mule chaque pair (a, p) qui dcrit la prcondition pour que laction a rende p fausse ; et attribue une formule Obs : A LELC N chaque action dont la valeur de vrit est connue aprs lexcution de laction. Nous convenons aussi que : si a est ontique (i.e., a Ao ), alors Obs (a) = ; si a est pistmique (i.e., a Ae ), alors E + (a) = E (a) = ; et si p E + (a), alors + (a, p) = , ainsi comme pour (a, p). H1 et H2 garantissent que les fonctions dans D ne dpendent pas des agents. cause de H3, pour toute action a, ses effets peuvent tre caractriss par + (a) et (a). H4 justie la partition de lensemble des actions en Ao et Ae . La nitude de E + et E est due H5. Finalement, H6 permet dafrmer que la version reprsentationelle du problme du dcor est rsolu par ce type de description daction. En plus, Reiter (et nous) supposons : H7 : Les formules + (a, p) (a, p) sont inconsistantes dans ELC N. Lexcution dune action pistmique a apprend lagent que Obs (a) est vraie. Nous supposons que les observations sont ables : H8 : Les formules Poss (a) Obs (a) sont inconsistantes dans ELC N. Notons que [12] restreint le codomaine de Poss , + , et Obs aux formules propositionnelles. Nous avons tendu ce codomaine aux formules dans ELC N . Ceci
permet la formalisation des actions comme faire un appel tlphonique, dont la prcondition dexcution est de connatre le numro de tlphone de linterlocuteur. Pour illustrer ce nouveau type de description daction, nous introduisons un exemple simple avec une action ontique et deux actions pistmiques. Exemple 2 Un robot ne sait pas si la lumire est allum ou non. Laction ontique disponible est dappuyer sur le bouton de la lumire (toggle) avec Poss (toggle ) = , E + (toggle ) = E (toggle ) = {light }, + (toggle , light ) = light , et (toggle , light ) = light . Les observations sont oDark et oBright , avec Poss (oDark ) = Obs (oDark ) = light , et Poss (oBright ) = Obs (oBright ) = light . 3.2 Modles pour les descriptions dactions Soit D une description dactions pour les actions dans A = Ao Ae . Les modles pour D sont obtenus en rajoutant des relations de transition aux modles de la logique pistmique. Soit a un lment de Ao Ae , et soient o et e respectivement des lments de Ao et Ae . Dnition 3 Nous dnissons un Dmodle comme tant une 4-uplet M = W, K, T, V , o W, K, V est un ELC N -modle et T : A (W W ) associe une relation Ta chaque a A. La relation Ta modlise la relation de transition associe laction abstraite a : si nous posons Ta (w) = {w | (w, w ) Ta }, alors Ta (w) est lensemble des rsultats possibles de lexcution de laction a dans w.
Les D-modles doivent satisfaire les restrictions suivantes : 1. No-Forgetting : (Ta Ki )(w) (Ki Ta )(w). 2. No-Learning : si Ta (w) = , alors (Ki Ta )(w) (Ta Ki )(w). 3. Dterminisme : si v1 , v2 Ta (w), alors v1 = v2 . 4. xcutabilit : Ta (w) = ssi W, K, V , w Poss (a). 5. Prservation (pistmique) : si v Te (w), alors v V (p) ssi w V (p) for all p P 6. Pos-condition (ontique) : si v To (w), alors p E + (o) et w V (p) implique v V (p) ; p E (o) et w V (p) implique v V (p) ; p E + (o) et W, K, V , w + (o, p) implique v V (p) ; p E (o) et W, K, V , w (o, p) implique v V (p) ; p E + (o) et W, K, V , w + (o, p) et w V (p) implique v V (p) ; p E (o) et W, K, V , w (o, p) et w V (p) implique v V (p). La restriction 1 implante H1 et H2. Elle garantie que tous les mondes dans (Ta Ki )(w) ont un antcdent. Cette restriction est appele perfect recall dans [4]. Cet--dire, il ny a pas daction capable de faire les agents oublier des faits. La restriction 2 est motive par H1H3 pour les actions ontiques. Pour les actions pistmiques, le fait dapprendre loccurrence dune observation suft pour faire voluer ltat pistmique de chaque agent : lexcution dune action dobservation e limine les mondes possibles o Obs e) est fausse. 1 et 2 ensemble correspondent aux SSAs de Scherl & Levesque pour les actions ontiques. La restriction 3 est motive
131
par lhypothse H3. La restriction 4 dnit la condition pour quune action soit excutable. La restriction 5 nous donne un SSA pour les actions pistmiques. La restriction 6 correspond au SSA de Reiter pour les faits (en opposition la connaissance). Notons que sa consistance est garantie par H7 : sinon il pourrait y avoir un monde w o les deux + (a, p) et (a, p) sont vraies, dans ce cas nous devrions avoir et v V (p), et v V (p) pour tout v Ta (w). La smantique des actions atomiques tant en termes dune fonction totale Ta , il ny a pas de concurrence. Nanmoins, les actions concurrentes pourraient tre modlise par entrelacement (interleaving), ce qui ne laisse pas de doutes pour leur interprtation. 3.3 Axiomes de rduction Maintenant nous introduisons une combinaison de la logique pistmique et PDL dans laquelle on peut parler des validits pour D-modles. Le langage LD tend avec des oprateurs dynamiques, et LELC N est dnie par la BNF : ::= p | | | Ki | CG | [a] o p est un lment de P , i est un lment de N et a est un lment de A = Ao Ae . La formule [a] signie est vraie aprs toute excution possible de a. Nous utilisons labbreviation habituelle a = [a]. Donc a exprime que a est excutable, et [a] exprime que a nest pas excutable. Nous dnissons la relation de satisfaction comme pour ELC N , plus : M, w [a] ssi Ta (w)
M
1. 2. 3. 4. 5. 6. 7. 8.
9. 10. 11.
[e]p (Poss (e) p) [e] (Poss (e) [e]) [e](1 2 ) ([e]1 [e]2 ) [e]Ki (Poss (e) Ki [e]) [o]p (Poss (o) p) if p E + (o) E (o) [o]p (Poss (o) ( + (o, p) p)) if p E + (o) and p E (o) [o]p (Poss (o) ( (o, p) p)) if p E + (o) and p E (o) [o]p ( Poss (o) ( + (o, p) ( (o, p) p))) if p E + (o) E (o) [o] (Poss (o) [o]) [o](1 2 ) ([o]1 [o]2 ) [o]Ki (Poss (o) Ki [o])
TAB . 1 D-validits pertinentes. Pour notre exemple nous avons |=D [toggle ]Ki light |=D [oDark ][toggle ]Ki light |=D Ki light [toggle ]Ki light Notons aussi que [e]Obs (e) nest pas Dvalide. En effet, considrons une action e telle que Obs (e) est la phrase de Moore p Ki p : aprs avoir appris que p Ki p lagent sait que p, donc Ki p nest plus vraie. Soit D une descriptions dactions. Le Tableau 1 montre plusieurs quivalences Dvalides.3 Dans chaque validit la complexit de la formule dans le champ de loprateur dynamique [ ] dcrot de gauche droite. Pour les formules sans oprateur de connaissance commune, ceci nous permet de dnir une procdure
3 Notons que | = D
La formule LD est valide dans un Dmodle M (notation : M ) ssi M = W . Une formule LD est D-valide (no pour tout Dtation : |=D ) ssi M modle M .
132
Poss (a) implique Obs (a) par H8.
regD , appele rgression par [11], qui applique rcursivement ces validits jusqu ce que la formule rsultante ne contienne plus doprateurs dynamiques. Donc, pour toute description D et formule sans loprateur CG nous avons : |=D ssi |=ELC regD () N
Par exemple, [toggle ]Ki light est tout dabord rduit Poss (toggle ) Ki [toggle ]light (par laxiome 11) et aprs Ki light (par laxiome 8) ; et [oDark ]Ki light est dabord rduit Poss (oDark ) Ki [oDark ]light (par laxiome 4) et ensuite light Ki (light light ) (par laxiome 1). Comme le dernier est ELN -valide, alors |=D [oDark ][toggle ]Ki light . Notons que regD est sous-optimal, puisque il y a des formules tel que regD () est exponentiellement plus long que [11, Section 4.6].
de . Laction ! est lannonce publique de .4 Laction p := est laffectation publique de la valeur de vrit de latome p. Par exemple, p := est une affectation publique, et Ki [p := ]p est une formule. Quand des affectations sont faites en parallel, le mme atome ne peut apparatre quune seule fois la gauche de loprateur :=. Par commodit, nous identions (p1 := 1 , . . . , pn := n ) avec lensemble {p1 := 1 , . . . , pn := n }. Nous utilisons aussi labbreviation suivante : [ if ] = []
def
Le fragment de DELC N sans affectations est la logique des annonces publiques de Plaza (PALC N ) [9], dont nous notons le fragment sans connaissance commune PALN . Les annonces modlisent les actions pistmiques, tandis que les affectations modlisent les actions ontiques. Par exemple, laction pistmique oDark de lExemple 2 est modlise par !light , et laction ontique toggle par laffectation toggle = (light := light ). Cet--dire, la valeur de vrit de light est invers. 4.2 Smantique Un DELC N -modle est un tuple M = W, K, V dni comme pour ELC N . La relation de satisfaction est comme avant, plus : M, w M, w [!] ssi M, w implique M ! , w [ ] ssi M , w
4 Logique pistmique dynamique DELC N

Une tradition diffrente dans la modlisation de connaissance et changement a t suivi par, par exemple, [9, 2, 15]. La logique de [16, 6] se situe dans cette tradition. Elle est base sur les annonces publiques et les affectations publiques. 4.1 Syntaxe Le langage de la logique pistmique dynamique avec connaissance commune LDELC est dnie par la BNF : N ::= p | | | Ki | [!] | [ ] ::= p := | p := , o p est un lment de P et i est un lment de N . De nouveau , la formule [] signie est vraie aprs toute excution possible
4 Notons que loprateur dannonce est diffrent de loprateur de test de PDL (habituellement not ?) : le premier a des effets pistmiques, mais le second nen a pas.
133
[!]p ( p) [!] ( [!] ) [!](1 2 ) ([!]1 [!]2 ) [!]Ki ( Ki [!] ) [ ]p (p) [ ] [ ] [ ]( ) ([ ] [ ] ) [ ]Ki Ki [ ] TAB . 2 DELC N -validites pertinentes. o M ! et M sont des modications du modle M dnies par : M ! W ! Ki! V ! (p) et = W ! , K ! , V ! = W M = Ki ( M = V (p) M W, K, V (p) M
Pourtant, la DELN -rgression a le mme problme que la D-rgression : la formule rsultante regDELN () peut tre exponentiellement plus longue que (un exemple est ... . . . Ki Kj Ki ). De plus, il nexiste pas dquivalence de cet type pour loprateur de connaissance commune [2]. Dans les sections suivantes, nous proposons une solution alternative qui vite lexplosion exponentielle. Le premier pas est la formalisation de la liaison entre la description daction la Reiter D dun cot, et DELC N de lautre.
M)
5 Traduction des thories la Reiter dans DELC N

Les D-validits prsentes dans le Tableau 1 sont similaires celles du tableau 2. Nous observons aussi que (1) les preconditions dexcutabilit Poss dans D peuvent tre modlises dans DELN comme la partie if dune action conditionnelle, comme dans if Poss (a) ; (2) les actions dobservation e peuvent tre vues comme des annonces publiques ; et (3) les actions ontiques o peuvent tre vues comme des affectations publiques. La traduction D de LD dans LDELC est N donc vidente.
= M V (p) =
et o (p) est une formule affect p dans . Sil ny a pas doccurrence de p := dans , alors (p) = p. Comme dhabitude, est valide dans M (notation : M ) ssi M = W , et -valide (notation : |=DELC ) est DELC N N ssi M pour tout modle pistmique M . Par exemple, Ki p [q := p]Ki q est DELC N -valide. Plusieurs DELC N -validits pertinentes sont listes dans le Tableau 2. Quand il ny a pas doccurrence de loprateur de connaissance commune, les quivalences du Tableau 2 permettent la dnition dune procdure de rgression regDELN , qui limine les oprateurs dynamiques de lexpression en question [16] : |=DELC ssi N
134
Dnition 4 Soit une D description daction, soit o Ao une action ontique, et soit e Ae une observation. Alors nous dnissons D (e) = !Obs (e) if Poss (e) D (o) = o if Poss (o)
|=ELC regDELN () N
o o est laffectation complexe : {p := + (o, p) p | p E + (o) and p E (o)} {p := (o, p) p | p E + (o) and p E (o)} {p := + (o, p) ( (o, p) p) | p E + (o) E (o)} Notons que D (o) est bien dnie puisque E + (o) et E (o) sont nis par H5. Par exemple, D (oDark ) = !light if light , et D (toggle ) = light := light (light light ), ce qui peuvent tre simpli en D (toggle ) = light := light . Nous tendons cette dnition toute formule dans LD .5 D (p) D () D ( ) D (Ki ) D ([a]) = = = = = p D () D () D ( ) Ki (D ()) [D (a)]D ()
polynomiale dans un problme de DELC Nsatisabilit.
6 Une rgression optimale pour DELC N

Maintenant nous montrons une rduction C polynomiale de DELC N dans ELN . Lide est dliminer dabord les affectations, et ensuite dappliquer la rduction de Lutz pour liminer les annonces [7]. 6.1 limination des affectations Nous appliquons une technique qui est standard en dmonstration automatique [8]. Proposition 6 Soit [p1 := 1 , . . . , pn := n ] une sous. formule dune formule dans LDELC N Soit une formule obtenue de par substitution de toute occurrence de pk par xpk o xpk est un nouveau atome qui napparat pas dans . Soit obtenue de par remplacement de [p1 := 1 , . . . , pn := n ] par . Soit B labrviation de 1kn (xpk k ). 1. Si LDEL1 , alors est DEL1 satisable ssi Ki B est DEL1 -satisable. 2. Si LDELN , N 2, alors est DELN -satisable ssi
md( )
Soit || une fonction qui donne la longueur dune expression (y compris les parenthses, virgules, etc). Nous avons la correspondance suivante entre les formules dans D et dans DELC N (cf. Tableaux 1 et 2). Thorme 5 Soit D une description nie daction la Reiter, et soit LD . Alors est D-satisable si et seulement si D () est DELC N -satisable, et |D ()| || |D|). La preuve est par induction sur la structure de . Observons que D est une tuple de 5 lments, et donc |D| 9. Donc D est polynomial, et le problme de dcider si pour une D et , est Dsatisable peut tre transform de faon
5 Notons que les formules dans D nont pas doccurrence de loprateur de connaissance commune. Il ny a donc pas de clause pour cet oprateur.
EN B
est DELN -satisable, o le degr modal md( ) est le plus grand nombre doprateurs modaux enchsss dans , et En G abrge EG . . . EG , n 0 fois.
135
3. Si LDELC , alors est DELC NN satisable ssi CN B est DELC N -satisable. Preuve. Pour simplier supposons que la sous-formule de est [p := ] . : Supposons que M = W, K, V est un ELC . N -modle tel que M, w -modle M Nous construisons un ELC x p = N W, K, Vxp , o Vxp (p) = V (p) for all p = xp , et Vxp (xp ) = M . Nous dmontrons que Mxp [p := ] , do les trois cas suivent. : Nous supposons que M est gnr par w, et observons que Ki est une modalit matre (master modality) pour ELN avec un seul agent, ainsi que CG pour ELC N, et ainsi que la conjunction des oprateurs EG jusquau degr modal de pour ELN multi-agents. Par exemple, quand M, w CG , alors M CG .
Pour les cas dun seul agent et de connaissance commune nous montrons que la longueur de la reduction de est borne par ||(||+6), et pour le cas de DELN nous montrons que la longueur de la rduction de est borne par |2 (|| +6). En plus, dans la Proposition 6 la longueur de est borne par ||, la longueur de chaque quivalence dans B est borne par || + 4, et le nombre des quivalences est born par le nombre daffectations (atomiques) dans , ce qui ne dpasse pas ||. Dans le cas de loprateur E , le nombre dquivalences doit tre multipli par le degr modal de , qui est born par ||.
6.2 limination des annonces Une fois les affectations sont limines, nous pouvons liminer les annonces en utilisant la procdure de Lutz. Nous navons pas la place pour montrer les details, alors nous mettons ici seulement le thorme le plus relevant.6 Proposition 8 ([7]) Le problme de la PALN -satisabilit est NP-complet si N = 1, et PSPACE-complet si N 2. Le problme de la PALC N -satisabilit est EXPTIME-complet. Via le Thorme 5 nous obtenons : Corollaire 9 Le problme de la Dsatisabilit sans loprateur CG est NP-complet si N = 1, et PSPACEcomplet si N 2. Le problme de la D-satisabilit avec loprateur CG est EXPTIME-complet.
Le renommage vite lexplosion exponentielle. Ceci nous permet la dnition des oprateurs de reduction redDEL1 , redDELN et redDELC qui liminent itrativement N tous les affectations. Par exemple, considrons la formule E DELN suivante : [!light ][light := light ]Ki light . Sa rduction est [!light ]Ki xlight Ki (xlight light ). et Proposition 7 redDEL1 , redDELN sont des transformations polyredDELC N nomiales, et ils prservent la satisabilit dans les logiques respectives. Preuve. La prservation de la satisabilit est impliqu par la Proposition 6.
136
7 Conclusions
Nous avons modelis le problme du dcor dans la logique pistmico-dynamique par
6 Pour
une exposition extensive, le lecteur peut se rendre
[7].
la proposition dune traduction des oprateurs dactions ontiques et dactions dobservation du calcul de situations, et nous avons galement identi la complexit du problme de satisabilit des formules traduite par cette mthode. Lextension de la solution de Reiter propose par Scherl & Levesque ne permet non seulement la formalisation des observations, mais aussi la formalisation des actions de perception (sensing ?, qui testent si une proposition est vraie. Un tel type daction peut tre vu comme une composition non-dterministe, cest--dire, une abbreviation : ? = ! !. Lexpansion de loprateur de choix non-dterministe provoque une explosion exponentielle de la formule qui ne permet pas lintegration de cet type daction comme primitive dans notre approche. Il nest pas clair pour nous comment le SSA associ [?]Ki (( Ki ( [?] )) ( Ki ( [?] ))) pourrait tre intgr dans la transformation polynomial de Lutz. Une autre indice que la prsence des actions de perception (sensing) augmente la complexit est donne par le rsultat de [5], qui afrme que la vrication de plan est p 2 -complet dans ce cas. Nous avons lintention de gnraliser nos rsultats aux actions non-publiques, comme dans [2, 1].
gramme Alan, programme de bourses de haut niveau de lUnion Europenne pour lAmrique latine, bourse numro E04D041703BR. Les auteurs remercient galement les trois relecteurs anonymes pour leurs commentaires extrmement pertinents.
Rfrences
[1] F. Bacchus, J.Y. Halpern, and H. Levesque. Reasoning about noisy sensors in the situation calculus. Articial Intelligence, 111 :131169, 1999. [2] A. Baltag, L. Moss, and S. Solecki. The logic of public announcements and common knowledge. In Proc. TARK98, 1998. [3] R. Demolombe, A. Herzig, and I. Varzinczak. Regression in modal logic. J. of Applied Non-Classical Logics, 13(2) :165185, 2003. [4] R. Fagin, J. Halpern, Y. Moses, and M. Vardi. Reasoning about Knowledge. The MIT Press, 1995. [5] Andreas Herzig, Jrme Lang, Dominique Longin, and Thomas Polacsek. A logic for planning under partial observability. In Proc. AAAI2000, Austin, Texas, August 2000. [6] B. Kooi. Expressivity and completeness for public update logic via reduction axioms. Journal of Applied Non-Classical Logics, 17(2), 2007. To appear. [7] C. Lutz. Complexity and succintness of public announcement logic. In Proc. of AAMAS, pages 137144, 2006. [8] A. Nonnengart and C. Weidenbach. Computing small clause normal forms. In Handbook of Automated Reasoning, pages 335367. North Holland, 2001.
137
Remerciements
Hans van Ditmarsch est soutenu par le projet Games, Action and Social Software du NIAS (Netherlands Institute for Advanced Study in the Humanities and Social Sciences) et le NWO (Netherlands Organisation for Scientic Research) Cognition Program for the Advanced Studies (grant NWO 051-04-120). Tiago de Lima est support par le Pro-
[9] J. Plaza. Logics of public communications. In M. L. Emrich et al., editors, Proc. of ISMIS, pages 201216, 1989. [10] R. Reiter. The frame problem in the situation calculus : A simple solution (sometimes) and a completeness result for goal regression. In V. Lifschitz, editor, Papers in Honor of John McCarthy, pages 359380. Academic Press Professional Inc., 1991. [11] R. Reiter. Knowledge in Action : Logical Foundations for Specifying and Implementing Dynamical Systems. The MIT Press, 2001. [12] R. Scherl and H. Levesque. Knowledge, action and the frame problem. Articial Intelligence, 144(12) :1 39, 2003. [13] S. Shapiro, M. Pagnucco, Y. Lesprance, and H. J. Levesque. Iterated belief change in the situation calculus. In Proc. of KR, pages 527538, 2000. [14] M. Thielscher. From Situation Calculus to Fluent Calculus : State update axioms as a solution to the inferential frame problem. Articial Intelligence, 111(12) :277299, 1999. [15] J. van Benthem. One is a lonely number. In P. Koepke et al., editors, Proc. of LC&CL, 2002. [16] H. van Ditmarsch, W. van der Hoek, and B. Kooi. Dynamic epistemic logic with assignment. In Proc. of AAMAS, pages 141148. ACM, 2005.
138
Model Checking Logic Puzzles

Hans van Ditmarsch hans@cs.otago.ac.nz

Ji Ruan J.Ruan@csc.liv.ac.uk
Computer Science, University of Otago, New Zealand
Computer Science, University of Liverpool, United Kingdom
Rsum : Dans les puzzles pistmiques les annonces dignorance, ou des squences de tels annonces, souvent rsultent en connaissances. Nous prsentons le puzzle Quelle Somme ?, et le modlisent dans la logique des annonces publiques un langage logique avec des oprateurs dynamiques et pistmiques. La solution du puzzle est controle avec la programme de vrication DEMO. Mots-cls : communications multi-agent, vrication des modles, logique dynamique pistmique, annonce publique Abstract: A common theme in logic puzzles involving knowledge and ignorance is that announcements of ignorance may eventually result in knowledge. We present the What Sum riddle. It is modelled in public announcement logic, a modal logic with both dynamic and epistemic operators. We then solve the riddle in the model checker DEMO.1 Keywords: agent communication, model checking, dynamic epistemic logic, public announcement
only see the foreheads of others. One of the numbers is the sum of the other two. All the previous is common knowledge. The agents now successively make the truthful announcements: i. Anne: I do not know my number. ii. Bill: I do not know my number. iii. Cath: I do not know my number. iv. Anne: I know my number. It is 50. What are the other numbers? You know your own number if and only if you know which of the three numbers is the sum. This What is the sum?, from now on What Sum, riddle combines features from wisemen or Muddy Children puzzles [12] with features from the Sum and Product riddle [3, 10]. A common feature in such riddles is that we are given a multi-agent interpreted system, and that successive announcements of ignorance nally result in its opposite, typically factual knowledge. In a global state of an interpreted system [2] each agent or processor has a local state, and there is common knowledge that each agent only knows its local state, and what the extent is of the domain. If the domain consists of the full cartesian product of the sets of local state values, it is common knowledge that agents are ignorant about others local states. In that case an ignorance announcement has no informative value. For ignorance statements to be informative, the domain should be more restrictive than the full cartesian product; and this is the case
139
1 Introduction
The following riddle (transcribed in our terminology) appeared in Math Horizons in 2004, as Problem 182 in a regular problem section of the journal, edited by A. Liu [8]. Each of agents Anne, Bill, and Cath has a positive integer on its forehead. They can
1 We acknowledge input from David Atkinson, Jan van Eijck, Wiebe van der Hoek, Barteld Kooi, and Rineke Verbrugge. We thank the anonymous MFI referees for their comments. Hans appreciates support from the NIAS (Netherlands Institute for Advanced Study in the Humanities and Social Sciences) project Games, Action, and Social Software and the NWO (Netherlands Organisation for Scientic Research) Cognition Program for the Advanced Studies grant NWO 051-04-120.
Model ___________________________________________________________________________ checking logic puzzles
in all such riddles. As in Muddy Children, we do not take the real state of the agent (the number on its forehead) as its local state, but instead the information seen on the foreheads of others (the other numbers). This change of perspective is, clearly, inessential. Sum and Product2 is also about numbers, and even about sums of numbers, and the announcements are similar. But the structure of the background knowledge is very different (which will become clearer after introducing the logic to describe both riddles). Other epistemic riddles involve cryptography and the verication of information security protocols (Russian Cards, see [19]), or involve communication protocols with private signals involving diffusion of information in a distributed environment (100 prisoners and a lightbulb, see [21]). The understanding of such riddles is facilitated by the availability of suitable specication languages. For What Sum we propose the logic of public announcements, wherein succinct descriptions in the logical language are combined with convenient relational structures on which to interpret them. We also benet from the availability of verication tools, to aid interpreting such descriptions on such structures. In our case we have used DEMO, an epistemic model checker developed by Van Eijck (see homepages.cwi.nl/ ~jve/demo/ and [20]). Some adjustments are required (we need a nite version of the model) to make this model checking work. This results in possibly in2 A says to S and P : I have chosen two integers x, y such that 1 < x < y and x + y 100. In a moment, I will inform S only of s = x + y , and P only of p = xy . These announcements remain private. You are required to determine the pair (x, y ). He acts as said. The following conversation now takes place:
teresting versions of the riddle. Even though such riddles are often pivotal to the development and spreading of a specialisation areawho doesnt know about the Muddy Children puzzle?the detailed and rockbottom analysis of their highly proceduralised features is not necessarily considered a serious enough pursuit to increase our understanding of multiagent system dynamics. May our original analysis of What Sum be seen as a worthy contribution. Section 2 provides an introduction into public announcement logic, and in Section 3 we analyse What Sum in this logic. Section 4 preprocesses the riddle for model checking and discusses some versions of the riddle. In Section 5 we introduce DEMO, and in Section 6 we specify and verify a nite version of the riddle in that model checker.
2 Public Announcement Logic

Public announcement logic is a dynamic epistemic logic and is an extension of standard multi-agent epistemic logic. Intuitive explanations of the epistemic part of the semantics can be found in [2, 19]. We give a concise overview of, in that order, the language, the structures on which the language is interpreted, and the semantics. Given are a nite set of agents N and a nite or countably innite set of atoms P . The language of public announcement logic is inductively dened as ::= p | | ( ) | Kn | CB | [] where p P , n N , and B N are arbitrary. Other propositional and epistemic operators are introduced by abbreviation. For Kn , read agent n knows formula . For example, if Anne knows that her number is 50, we can write Ka 50a , where a stands for Anne and some set of atomic propositions is assumed that contains 50a
i. P says: I do not know it. ii. S says: I knew you didnt. iii. P says: I now know it. iv. S says: I now also know it. Determine the pair (x, y ).[3, translated]
140
to represent Anne has the number 50. For CB , read group of agents B commonly know formula . For example, we have that Cabc (20b Ka 20b ): it is common knowledge to Anne, Bill, and Cath, that if Bills number is 20, Anne knows that (because she can see Bills number on his forehead)instead of {a, b, c} we often write abc. For [] , read after public announcement of , formula (is true). For example, after Anne announces (I know my number. It is 50.) it is common knowledge that Bills number is 20. This is formalised as [Ka 50a ]Cabc 20b . The basic structure is the epistemic model. This is a Kripke structure, or model, wherein all accessibility relations are equivalence relations. An epistemic model M = S, , V consists of a domain S of (factual) states (or worlds), accessibility : N P (S S ), where each (n) is an equivalence relation, and a valuation V : P P (S ). For s S , (M, s) is an epistemic state (also known as a pointed Kripke model). For (n) we write n , and for V (p) we write Vp . Accessibility can be seen as a set of equivalence relations n , and V as a set of valuations Vp . Given two states s, s in the domain, s n s means that s is indistinguishable from s for agent n on the basis of its information. For example, at the beginning of the riddle, triples (2, 14, 16) and (30, 14, 16) are indistinguishable for Anne but not for Bill nor for Cath. Therefore, assuming a domain of natural number triples, we have that (2, 14, 16) a (30, 14, 16). The group accessibility relation B is the transitive and reexive closure of the union of all accessibility relations for the individuals in B : B ( nB n ) . This relation is used to interpret common knowledge for group B . Instead of B equivalence class (n equivalence class) we write B -class (n-class). For the semantics, assuming an epistemic
model M = S, , V :
M, s |= p M, s |= M, s |= M, s |= Kn M, s |= CB M, s |= [] s Vp M, s |= M, s |= and M, s |= for all t S : s n t implies M, t |= iff for all t S : s B t implies M, t |= iff M, s |= implies M |, s |= iff iff iff iff
where model ned as S = n = Vp =
M | = S , , V is de{s S | M, s |= } n (S S ) Vp S
The dynamic modal operator [] is interpreted as an epistemic state transformer. Announcements are assumed to be truthful, and this is commonly known by all agents. Therefore, the model M | is the model M restricted to all the states where is true, including access between states. The dual of [] is : M, s |= iff M, s |= and M |, s |= . Formula is valid on model M , notation M |= , iff for all states s in the domain of M : M, s |= . Formula is valid, notation |= , iff for all models M : M |= . A proof system for this logic is presented, and shown to be complete, in [1], with precursorsnamely for public announcement logic without common knowledge in [15, 5]. A concise completeness proof is given in [19]. The logic is decidable both with and without common knowledge [15, 1]. Results on the complexity of both logics can be found in [9]. The original [15] also contains a version of the semantics (no completeness results) with knowvalue-operators that can be said to formalise innitary conjunctions (or disjunctions), including announcements of such formulas with corresponding restriction of the domain to those states where the formula is true. To analyse What Sum we need to refer to that extension (that we prefer to leave informal for the sake of the exposition).
141
In public announcement logic, not all formulas remain true after their announcement, in other words, [] is not a principle of the logic. Some formulas involving epistemic operators become false after being announced! For a simple example, consider that Bill were to tell Anne (truthfully) at the initial setting of the riddle: Your number is 50 but you dont know that. Interpreting but as a conjunction, this is formalised as 50a Ka 50a . After the announcement, Anne knows that her number is 50: Ka 50a . Therefore the announced formula, that was true before the announcement, has become false after the announcement. In the somewhat different setting that formulas of form p Kn p cannot be consistently known this phenomenon is called the Moore-paradox [11, 7]. In the underlying dynamic setting it has been described as an unsuccessful update [5, 19]. Similarly, ignorance statements in What Sum such as Anne saying that she does not know her number, may in due time lead to Anne knowing her number, the opposite of her ignorance.
mer, because the truth of the boolean condition in the conjuncts of the latter can be determined in a given state, whereas an epistemic statement requires checks in that agents entire equivalence class. For What Sum, Anne seeing the numbers of Bill and Cath is therefore described as the innitary y,zN+ Ka (yb zc ), and Anne saying: I dont know my number is similarly described as xN+ Ka xa (or xN+ (xa Ka xa )). Innitary descriptions are, unlike innitely large models, not permitted in this (propositional) logic. Our model checking results will be for a nite version of the riddle. The epistemic model T = S, , V is dened as follows, assuming positive natural numbers x, y, z .
S {(x, y, z ) | x = y +z or y = x+z or z = x+y } (x, y, z ) a (x , y , z ) (x, y, z ) b (x , y , z ) (x, y, z ) c (x , y , z ) (x, y, z ) Vxa (x, y, z ) Vyb (x, y, z ) Vzc iff iff iff y = y and z = z x = x and z = z x = x and y = y
3 Formalisation of What Sum

The set of agents {a, b, c} represent Anne, Bill and Cath, respectively. Atomic propositions in represent that agent n has natural number i on its forehead. Therefore the set of atoms is {in | i N+ and n {a, b, c}}. If Anne sees (knows) that Bill has 20 on his forehead and Cath 30, we describe this as Ka (20b 30c ). If an upper bound max for all numbers were specied in the riddle, the number of states would be nite and knowing the others numbers would be described as y,zmax Ka (yb zc ). For model checking it is relevant to point out that this expression is equivalent to y,zmax (yb zc ) Ka (yb zc ), given that different Bill/Cath number pairs are mutually exclusive, and using standard validities for the logic. The latter form is cheaper to model check than the for142
The ne-structure of the epistemic model T is not apparent from its formal denition. A relevant question is what the background knowledge is that is available to the agents, i.e., what the abc-classes in the model are (an abc-class, or {a, b, c} equivalence class, of a state s in the model consists of all states t such that s {a,b,c} t, where {a,b,c} = (a b c ) , as above). Such a computation was performed by Panti [14] for Sum and Product (see footnote 2), which revealed three classes: either (in two of the three classes) the solution of the problem is already common knowledge in the initial state, or the agents commonly know that the sum of the numbers is at least 7. This means that in Sum and Product not very much is commonly known. In contrast, a model T for What Sum has a very different structure, with many more common knowledge classes. It is therefore quite informative to
know what they are, and we will describe them in detail. An abc-class in T can be visualised as an innite binary tree. The depth of the tree reects the following order on number triples in the domain of T : (x, y, z ) > (u, v, w) iff (x > u and y = v and z = w) or (x = u and y > v and z = w) or (x = u and y = v and z > w). If (x, y, z ) > (u, v, w) according to this definition, (x, y, z ) is a child of (u, v, w) in that tree. Every node except the root has one predecessor and two successors, as in Figure 1.
... (|x y |, x, y )
a
responding swap of agents, i.e., swap of arc labels. For example, the numbers occurring in the tree with root (6, 3, 3) are thrice the corresponding numbers in the tree with root (2, 1, 1); the tree with root (2, 1, 1) is like the tree for root (1, 2, 1) by applying permutation (213) to arguments and (alphabetically ordered) agent labels alike. The left side of Figure 3 shows the trees with roots (2, 1, 1), (1, 2, 1), and (1, 1, 2). For simplicity, we write 211 instead of (2, 1, 1), etc. In the left tree, for Bill (2, 1, 1) is indistinguishable from (2, 3, 1) wherein his number is the sum of the other two instead of their difference; for Anne triple (2, 3, 1) is indistinguishable from (4, 3, 1), etc. The result of an announcement (whether described innitary or not) is the restriction of the model to all states where the announcement is true. We can also apply this to the ignorance announcements of agents in What Sum. Consider an abc-tree T in T . Let n be an arbitrary agent. Either the root of T is a singleton n-class, or all its nclasses consist of two elements: a twoelement class represents the agents uncertainty about its own number. An ignorance announcement by agent n in this riddle corresponds to removal of all singleton nclasses from the model T . This means that some of the models trees are split into two subtrees (with both children of the original root now roots of innite trees).
Processing Announcements
(x + y, x, y )
b
c
(x + y, x + 2y, y ) ...
(x + y, x, 2x + y ) ...
Figure 1: Modulo agent symmetry, all parts of the model T branch as here. Arcs connecting nodes are labelled with the agent who cannot distinguish those nodes. The root of each tree has label (2x, x, x) or (x, 2x, x) or (x, x, 2x). Differently said, given three natural numbers such that one is the sum of the other two, replace that sum by the difference of the other two; one of those other two has now become the sum; if you repeat the procedure, you always end up with two equal numbers and their sum. An agent who sees two equal numbers, immediately infers that its own number must be their sum (twice the number that is seen), because otherwise it would have to be their difference 0 which is not a positive natural number. It will be obvious that: the structure truly is a forest (a set of trees), because each node only has a single parent; all nodes except roots are triples of three different numbers; and all trees are innite. All abc-trees are isomorphic modulo (i) a multiplication factor for the numbers occurring in the arguments of the node labels, and modulo (ii) a permutation of arguments and a cor-
An ignorance announcement may have very different effects on abc-classes that are the same modulo agent permutations. For example, given abc-classes in T with roots 121, 112, and 211, the effect of Anne saying that she does not know her number only results in elimination of 211, as only the rst abc-class contains an a-singleton. Given 211, Anne knows that she has number 2 (as 0 is excluded). But triple 112 she cannot distinguish from 312, and 121 not from 321. Thus one proceeds with all three announcements. See also Figure 2.
143

211
b
c
231
a
c
211
b
c
213
a
b
231
a
c
213
a
b
431
b
c
235
a
b
413
b
c
253
a
c
b
c
431
413
b
c
253
a
c
431
b
c
a
235
b
413
b
c
253
a
c
451 ...
437 ...
835 ...
275 ...
121
a
473 ...
415 ...
853 ...
257 ...
451 ...
437 ...
835 ...
275 ...
473 ...
415 ...
853 ...
257 ...
451 ...
437 ...
835 ...
275 ...
473 ...
415 ...
853 ...
257 ...
b
c
321
123
b
a
b
321
c
341
325
b
a
143
a
c
523
b
c
a
c
341
b
325
a
143
a
c
523
b
c
231
a
c
213
a
b
541 ...
347 ...
385 ...
725 ...
112
743 ...
145 ...
583 ...
527 ...
541 ...
347 ...
385 ...
725 ...
743 ...
145 ...
583 ...
527 ...
431
b
c
a
235
b
413
b
c
253
a
c
132
312
c
b
c
132
a
312
c
b
451 ...
437 ...
835 ...
275 ...
473 ...
415 ...
853 ...
257 ...
134
b
a
532
c
b
314
b
a
352
c
a
b
a
134
c
532
b
314
b
a
352
c
a
154 ...
734 ...
538 ...
572 ...
374 ...
514 ...
358 ...
752 ...
154 ...
734 ...
538 ...
572 ...
374 ...
514 ...
358 ...
752 ...
213
a
b
431
b
c
a
235
b
413
b
c
253
a
c
451 ...
437 ...
835 ...
275 ...
473 ...
415 ...
853 ...
257 ...
Figure 3: On the left, abc-classes of the model T with root 211, 121, and 112. Any other abc-class is isomorphic to one of these, modulo a multiplication factor. The results of the (combined) three ignorance announcements on those abc-classes are on the right. The triples in bold are those where Anne knows her number. The original riddle could have more restrictive: in the quoted version [8] it is not required to determine who holds which other number, but as we have seen this can also be determined. It also occurred to us that the original riddle could have been posed differently (and we tend to think, far more elegantly) as follows: Each of agents Anne, Bill, and Cath has a positive integer on its forehead. They can only see the foreheads of others. One of the numbers is the sum of the other two. All the previous is common knowledge. The agents now successively make the truthful announcements: i. Anne: I do not know my number. ii. Bill: I do not know my number. iii. Cath: I do not know my number. What are the numbers, if Anne now knows her number and if all numbers are prime? Consulting Figure 3, it will be obvious that the answer should be: 5, 2, and 3.
431
b
c
413
b
c
253
a
c
451 ...
437 ...
835 ...
275 ...
473 ...
415 ...
853 ...
257 ...
Figure 2: The results of three ignorance announcements on the abc-class with root (2, 1, 1).
We have now sufcient background to solve the riddle. We apply the successive ignorance announcements to the three classes with roots (2, 1, 1), (1, 2, 1), and (1, 1, 2), determine the triples wherein Anne knows the numbers, and from those, wherein Annes number divides 50. See Figure 3note that in triple (8, 3, 5) Anne also knows her number: the alternative (2, 3, 5) wherein her number is 2 has been eliminated by Caths, last, ignorance announcement. The unique triple wherein Annes number divides 50 is (5, 2, 3). In other words, the unique abctree in the entire model T where Anne knows that she has 50 after the three ignorance announcements, is the one with root (10, 20, 10). The solution to the riddle is therefore that Bill has 20 and Cath has 30. After the three announcements in the abc-class with root (10, 20, 10), the triple (50, 20, 30) remains wherein Anne knows that Bill has 20 and Cath 30.
Solving the riddle
144
4 Towards Model Checking

To be able to use a model checker we need a nite approximation of the model. Suppose we use an upper bound max for the numbers. Let T max be the corresponding epistemic model. An abc-tree is now cut at the depth where nodes (x, y, z ) occur such that the sum of two of the arguments x, y, z exceeds max. This nite approximation may not seem a big deal but it makes the problem completely different: abc-classes will not just have roots wherein the agent may know his number (because the other numbers are equal) but will also have leaves wherein the agent may know his number (because the sum of the other two numbers exceeds max). In other words, we have far more singleton equivalence classes. Let max = 10. Node (2, 5, 7) in the abc-class with root (2, 1, 1) has only a b-child (2, 9, 7) and a c-parent (2, 5, 3), and not an a-child, as 5 + 7 = 12 > max. So Anne immediately knows that her number is 2. All roots (2x, x, x) with 3x > max form singleton abc-classes in T max , for the same reason. In such models it is no longer the case that all equivalence classes are isomorphic modulo a multiplication factor and swapping of agent labels. For a given upper bound max we still have that, if x > y , the abc-class T with root (2x, x, x) is a prex (in a partially ordered sense) of the abcclass T with root (2y, y, y ), which implies y that T T (modulo a factor x for numbers occurring in T ). For different upper bounds max, max we have that (literally) T max T max iff max max .
Under these circumstances it is less clear what constitutes an exhaustive search of all possibilities that remain after an announcement. Fortunately, we are now talking about formal announcements in the language of public announcement logic. The following non-trivial result is essential. Let T, T be different epistemic mod-
els T for What Sum (i.e., for different upper bounds max) or, modulo a multiplication factor, different abc-classes in a given T model. If T T and is a sequence of ignorance announcements executable in both T and T , then T | T |. The proof is simple, and by induction on the number of such announcements. Consider a next ignorance announcement being made, by agent n. As said, it removes singleton equivalence classes for that agent. If T T it may be that some singleton n-classes in T were twostate n-classes in T . These will therefore be omitted when executing the announcement of in T , whereas they would have been preserved when executing the same announcement in T . There are no other differences in execution: all nclasses that were singleton in both T and T will be omitted anyway as a result of the -announcement. Therefore, we still have that T | T | . This may seem obvious. But it is far from that: for arbitrary M M and arbitrary we do not have that M | M |. Let us give a counterexample. Given agents a, b and state variables p, q (in 10 p is true and q is false) consider the (two-state) model M = 11|a|10, which is a restriction of the (three state) model M = 11|a|10|b|01. Consider = Kb q Kb q , for Bill knows whether q . Then M | = M , whereas M | is the singleton model consisting of state 11 wherein a and b have common knowledge of p and q . Therefore M M but M | M |. Apart from having an upper bound we discuss one other, less essential, change: suppose we start counting from 0 instead of 1. In that case each abc-equivalence class with root (2x, x, x) is extended with one more node: the new root (0, x, x) is indistinguishable from (2x, x, x) for Anne. An agent who sees a 0, infers that his number
145
must be the other number that (s)he sees. If there is a 0, two of the three agents see that. Therefore, the root has just one child (2x, x, x); if the triple is (0, x, x) Bill and Cath know that their number is x.3
b
c
011
a
211
b
c
211
c
231
a
c
213
a
b
213
431
a
235
b
413
b
c
253
a
c
The abc-class with root 011 from the epistemic model T010 (upper bound 10, lower bound 0) is displayed on the left in Figure 4. The result of the three ignorance announcements is displayed on the right. We can now investigate different versions of the problem. The model checker is then helpful because some versions are hard to verify with pencil and paper, or mere mental computation. For example, we considered the version: If 0 x, y, z max, for which values of max does Anne always know the numbers after the three announcements? This range is 8 max 13 (so, for 7 not all three announcements can be made truthfully, and for 14 it may be that Anne does not know her number) and this includes max = 10. Figure 4 shows that from abc-class with root 011 the triples 211 and 213 remain. In both cases Anne knows her number. Similar computations show that from the abcclasses with root 101 and 110 no triples remain. In other words, the announcements could not all three have been made (truthfully) if the number triple occurs in either of those two classes. Using the properties of inclusion for different abc-classes, we have now ruled out all classes of type x0x and xx0 and only have to check other classes of type 0xx. From class 022, the triples 242 and 246 remain after the three announcements (and the ones with root 033 and beyond are empty again). Therefore, whatever the numbers, Anne now
3 Suppose there is no upper bound but 0 is still allowed every audience being presented with this riddle for positive integers contains at least one person asking if 0 is allowed. This is an interesting variation. Anne will still learn her own number if it is 50 from the three ignorance announcements, but the reader (problem solver) can now no longer deduce Bills and Caths number in that case: these can now also be 25 and 25. The reader should be able to determine this easily by contemplating Figure 3. From the models resulting from the three ignorance announcements, only one now looks different. Which one?
451
a
c
437
a
835
275
c
473
a
415
a
b
853
257
b
651
b
459
A37
279
A73
615
c
495
297
671
a
617
a
871
b
817
c
891
a
819
a
A91
A19
Figure 4: The abc-class with root 011 in model

T010 , and the result of three ignorance announcements. The horizontal order of branches has no meaning. Symbol A represents 10.
knows her number. But the problem solver cannot determine what that number is (it may be 1, or it may be 2) and also cannot determine what the other numbers are, not even if it is also known what Annes number is (if it is 1, the other numbers may be 2 and 1, or 2 and 3; and similarly if it is 2).
5 Model Checker DEMO

Epistemic model checkers with dynamic facilities have been developed to verify properties of interpreted systems, knowledge-based protocols, and various other multi-agent systems. Examples are MCK [4], MCMAS [16], and recent work by Su [17]. All those model checkers use the interpreted systems architecture, and exploration of the search space is based on ordered binary decision diagrams. Their dynamics are expressed in temporal or temporal epistemic (linear and/or branching time) logics. A different model checker, not based on a temporal epistemic architecture, is DEMO. It has been developed by Van Eijck [20]. DEMO is short for Dynamic
146
Epistemic MOdelling. It allows modelling epistemic updates, graphical display of Kripke structures involved, and formula evaluation in epistemic states. This general purpose model checker has also many other facilities. DEMO is written in the functional programming language Haskell. The model checker DEMO implements the dynamic epistemic logic of [1]. In this action model logic the global state of a multi-agent system is represented by an epistemic model. But more epistemic actions are allowed than just public announcements, and each epistemic action is represented by an action model. Just like an epistemic model, an action model is also based on a multi-agent Kripke frame, but instead of carrying a valuation it has a precondition function that assigns a precondition to each point in the action model. A point in the action model domain stands for an atomic action. The epistemic state change in the system is via a general operation called the update product: this is a way to produce a single structure (the next epistemic model) from two given structures (the current epistemic model and the current action model). We do not give details, as we restrict our attention to very simple action models, namely those corresponding to public announcements. Such action models have a singleton domain, and the precondition of that point is the announced formula. The next epistemic model is produced from the current epistemic model and the singleton action model for the announcement by the model restriction introduced in Section 2. The recursive denition of formulas in DEMO includes (we omitted the clause for updates) Form = Top | Prop
Prop | Neg Form | Conj [Form] | Disj [Form] | K Agent Form | CK [Agent] Form . Formula Top stands for , Prop Prop for atomic propositional letters (the rst occurrence of Prop means
that the datatype is propositional atom, whereas the second occurrence of Prop is the placeholder for an actual proposition letter, such as P 3), Neg for negation, Conj [Form] stands for the conjunction of a list of formulas of type Form, similarly for Disj, K Agent stands for the individual knowledge operator for agent Agent, and CK [Agent] for the common knowledge operator for the group of agents listed in [Agent]. The pointed and singleton action model for a public announcement is created by a function public with a precondition (the announced formula) as argument. The update operation is specied as upd :: EpistM -> PoAM -> EpistM ; here EpistM is an epistemic state and PoAM is a pointed action model, and the update generates a new epistemic state. If the input epistemic state EpistM corresponds to some (M, s), then in case of the truthful public announcement of the resulting EpistM has the form (M |, s). We can also update with a list of pointed action models: upds :: EpistM -> [PoAM] -> EpistM . Each model restriction M | requires determining the set {s D(M ) | M, s |= }. Given a model M , a state s, and a formula , checking whether M, s |= can be solved in time O(|M | ||), where |M | is the size of the model as measured in the size of its domain plus the number of pairs in its accessibility relations, and where || is the length of the formula . This result has been established by the well-known labelling method [6, 2]. This method is based on dividing into subformulas. One then orders all these subformulas, of which there are at most ||, by increasing length. For each subformula, all states are labelled with either the formula or its negation, according to the valuation of the model and based on the results of previous steps. This is a bottomup approach, in the sense that the labelling starts from the smallest subformulas. So
Complexity
147
it ensures that each subformula is checked only once in each state. In DEMO (v1.02) the algorithm to check whether M, s |= does not employ this bottom-up approach. Instead, it uses a top-down approach, starting with the formula and recursively checking its largest subformulas. For example, to check whether M, s |= Ka , the algorithm checks whether M, s |= for all s such that s a s , and then recursively checks the subformulas of . This algorithm is O(|M ||| ), since each subformula may need to be checked |M | times, and there are at most || subformulas of . So, theoretically, DEMOs algorithm is quite expensive. In practice it is less expensive, because the Haskell language and its compiler and interpreter support a cache mechanism: after evaluating a function, it caches some results in memory for reuse (see e.g. [13]). Since it is hard to predict what results will be cached and for how long, we cannot give an estimate how much the cache mechanism inuences the computational results for DEMO. See also [18]. Computational results for the experiments in the next section are given in footnote 5.
module SUMXYZ where import DEMO upb = 10 -- constrained triples (x,y,z) with x,y,z <= upb triplesx = [(x,y,z)|x<-[0..upb], y<-[0..upb], z<-[0..upb], x==y+z] triplesy = [(x,y,z)|x<-[0..upb], y<-[0..upb], z<-[0..upb], y==x+z] triplesz = [(x,y,z)|x<-[0..upb], y<-[0..upb], z<-[0..upb], z==x+y] triples = triplesx ++ triplesy ++ triplesz -- associating states with number triples numtriples = llength(triples) llength [] =0 llength (x:xs) = 1+ llength xs itriples = zip [0..numtriples-1] triples -- initial multi-pointed epistemic model three :: EpistM three = (Pmod [0..numtriples-1] val acc [0..numtriples-1]) where val = [(w,[P x,Q y,R z])|(w,(x,y,z))<-itriples] acc = [(a,w,v)| (w,(x1,y1,z1))<-itriples, (v,(x2,y2,z2))<-itriples,y1==y2,z1==z2]++ [(b,w,v)| (w,(x1,y1,z1))<-itriples, (v,(x2,y2,z2))<-itriples,x1==x2,z1==z2]++ [(c,w,v)| (w,(x1,y1,z1))<-itriples, (v,(x2,y2,z2))<-itriples, x1==x2, y1==y2] -- agents a,b,c say: I do not know my number fagxnot = Conj [(Disj[Neg (Prop (P x)), Neg (K a (Prop (P x))) ])| x <-[0..upb]] aagxnot = public (fagxnot) fagynot = Conj [(Disj[Neg (Prop (Q y)), Neg (K b (Prop (Q y))) ])| y <-[0..upb]] aagynot = public (fagynot) fagznot = Conj [(Disj[Neg (Prop (R z)), Neg (K c (Prop (R z))) ])| z <-[0..upb]] aagznot = public (fagznot) -- model restriction from announcements result = showM (upds three [aagxnot, aagynot, aagznot])
Figure 5: The DEMO program SUMXYZ.hs State names must be consecutive numbers, counting from 0. The association is explicit in the list itriples that consists of pairs of which the rst argument is a number (from the list [0..numtriples-1]) and the second argument is one of the triples (x, y, z ) in the list triples. The initial model T010 is then represented as three in the program. The expression
(Pmod [0..numtriples-1] val acc [0..numtriples-1]) denes three as an epistemic model (Pmod), with domain [0..numtriples-1], valuation val, a set (list) of accessibility relations acc (and [0..numtriples-1] pointsleft unexplained here). In val we nd for example (67,[p6, q8, r2]) which says
6 What Sum in DEMO

The DEMO program SUMXYZ.hs, displayed in Figure 5, implements the What Sum problem for upper bound The list triples = max = 10.4
triplesx ++ triplesy ++ triplesz
(this is a union (++) of three lists) corresponds to the set of possible triples (x, y, z ) for the given bound 10note that in Haskell we are required to dene such sets as lists. The next part of the program constructs the domain based on that list: this merely means that each member of the list must be associated with a state name.
4 The program is original but should be considered a version of the DEMO program for Sum and Product in [18].
148
that state number 67 corresponds to triple (6, 8, 2). Given (43,[p10, q8, r2]) we now nd (a,43,67) in acc. Annes announcement that she does not know her number is represented as the action model aagxnot constructed from the announcement formula fagxnot by the function public. The formula fagxnot is dened as Conj [(Disj[Neg (Prop (P
x)), Neg (K a (Prop (P x))) ])|x <-[0..upb]] . This species that whatever x is (x <-[0..upb]), if Anne has it she does not know it (Disj[Neg (Prop (P x)), Neg (K a (Prop (P x))) ]).
The last corresponds to xa Ka xa , which is equivalent to xa Ka xa . Therefore, the whole expression corresponds to 0x10 xa Ka xa . This is the computationally cheaper version also formalised as 0x10 Ka xa , see Section 3. The nal line in the program asks to display the results of the three ignorance announcements. Its output is
==> [0,1,2,3] [0,1,2,3] (0,[p2,q1,r1])(1,[p1,q3,r2]) (2,[p1,q3,r4])(3,[p2,q1,r3]) (a,[[0],[1],[2],[3]]) (b,[[0],[1],[2],[3]]) (c,[[0,3],[1,2]])
We hope that this rather summary overview of DEMO nevertheless reveals its enormous versatility as a model checker. E.g., to check which states remain when a different upper bound is chosen, one merely has to replace the line upb = 10 in the program by that other upper bound. In general, the enormous advantage of this model checker is that it allows for a separate specication of the initial model and the subsequent dynamic features, as in the original riddle (and, typically, as in the specication of the dynamics of a multiagent system to be formally modelled).
7 Conclusions
We presented an original analysis of an epistemic riddle, and formalised a nite version of the riddle with the use of public announcement logic and epistemic model checking. Crucial in the analysis was to model the riddle as an interpreted system, and to focus on the description of the background knowledge, i.e., abc-equivalence classes of the epistemic model. We introduced the model checker DEMO and the specication of the riddle in DEMO. We think that detailed analysis of logic puzzles contributes to the understanding of logical tools and formalisms, and how to apply them to model multiagent system dynamics. In particular, the specication of security protocols in DEMO is, we think, promising. In our experiences with specifying such protocols, DEMO compares favourably to other state-of-theart model checkers MCK and MCMAS of course we would not dare to suggest that DEMO is better: when specifying a problem in which public announcements are essential, it is not surprising that a tool specially developed for such dynamics functions well. Future development of DEMO may involve (Jan van Eijck, personal communi149
States are sequentially renumbered starting from 0 after each update. The four remaining triples 211, 132, 134, and 213 are clearly shown, see also Figure 4. Anne always knows her number, as her partition on the set of four states is the identity (and so does Bill, but not Cath).5
5 We did experiments in a PC congured as Windows XP, AMD CPU 1.8Ghz, with 1G RAM. We use the Glasgow Haskell Compiler Interactive (GHCi) version 6.4.1, enabling the option :set +s to display information after evaluating each expression, including the elapsed time and number of bytes allocated. The results for time and space consumption of the crucial upds msnp [aagxnot,aagynot,aagznot] are as follows: for upb=10, time: 1.59 seconds, and space: 29,075,432 bytes; to give an impression of how this scales up: for upb=20, time: 30.31 seconds, and space: 334,474,032 bytes; for upb=30, time: 193.20 seconds, and space: 1,706,593,672 bytes.
cation) facilities to model not merely information change, such as incoming new information, but also factual change. This would expand the use of this tool to model planning protocols, security protocols that include key exchange, etc. We are much looking forward to that development.
[11] G.E. Moore. A reply to my critics. In P.A. Schilpp, editor, The Philosophy of G.E. Moore, pages 535677. Northwestern University, Evanston IL, 1942. The Library of Living Philosophers (volume 4). [12] Y.O. Moses, D. Dolev, and J.Y. Halpern. Cheating husbands and other stories: a case study in knowledge, action, and communication. Distributed Computing, 1(3):167176, 1986. [13] N. Nethercote and A. Mycroft. The cache behaviour of large lazy functional programs on stock hardware. SIGPLAN Notices, 38(2 supplement):4455, 2003. [14] G. Panti. Solution of a number theoretic problem involving knowledge. International Journal of Foundations of Computer Science, 2(4):419424, 1991. [15] J.A. Plaza. Logics of public communications. In M.L. Emrich et al., editors, Proceedings of the 4th International Symposium on Methodologies for Intelligent Systems, pages 201 216. Oak Ridge National Laboratory, 1989. [16] F. Raimondi and A.R. Lomuscio. Verication of multiagent systems via ordered binary decision diagrams: An algorithm and its implementation. In Proceedings of AAMAS 04, pages 630637. IEEE Computer Society, 2004. [17] K. Su. Model checking temporal logics of knowledge in distributed systems. In D. L. McGuinness and G. Ferguson, editors, Proceedings of AAAI 04, pages 98103. AAAI Press / The MIT Press, 2004. [18] H.P. van Ditmarsch, J. Ruan, and R. Verbrugge. Sum and product in dynamic epistemic logic. Journal of Logic and Computation, 2007. To appear. [19] H.P. van Ditmarsch, W. van der Hoek, and B.P. Kooi. Dynamic Epistemic Logic, volume 337 of Synthese Library. Springer, 2007. [20] J. van Eijck. Dynamic epistemic modelling. Technical report, Centrum voor Wiskunde en Informatica, Amsterdam, 2004. CWI Report SEN-E0424. [21] W. Wu. 100 prisoners and a lightbulb. www. ocf.berkeley.edu/~wwu/papers/ 100prisonersLightBulb.pdf, 2001.
References
[1] A. Baltag, L.S. Moss, and S. Solecki. The logic of public announcements, common knowledge, and private suspicions. In I. Gilboa, editor, Proceedings of TARK VII, pages 4356, 1998. [2] R. Fagin, J.Y. Halpern, Y. Moses, and M.Y. Vardi. Reasoning about Knowledge. MIT Press, Cambridge MA, 1995. [3] H. Freudenthal. (formulation of the sumand-product problem). Nieuw Archief voor Wiskunde, 3(17):152, 1969. [4] P. Gammie and R. van der Meyden. MCK: Model checking the logic of knowledge. In R. Alur and D. Peled, editors, Proceedings of CAV 04, pages 479483. Springer, 2004. [5] J.D. Gerbrandy. Bisimulations on Planet Kripke. PhD thesis, University of Amsterdam, 1999. ILLC Dissertation Series DS1999-01. [6] J.Y. Halpern and M.Y. Vardi. Model checking vs. theorem proving: a manifesto. In V. Lifschitz, editor, Articial intelligence and mathematical theory of computation: papers in honor of John McCarthy, pages 151176, San Diego, CA, USA, 1991. Academic Press Professional, Inc. [7] J. Hintikka. Knowledge and Belief. Cornell University Press, Ithaca, NY, 1962. [8] A. Liu. Problem section: Problem 182. Math Horizons, 11:324, 2004. [9] C. Lutz. Complexity and succinctness of public announcement logic. In Proceedings of AAMAS 06, pages 137144, 2006. [10] J. McCarthy. Formalization of two puzzles involving knowledge. In V. Lifschitz, editor, Formalizing Common Sense : Papers by John McCarthy. Ablex Publishing Corporation, Norwood, N.J., 1990. original manuscript dated 19781981.
150
Incremental Plan Recognition in an Agent Programming Framework

Alexandra Goultiaeva alexia@cs.toronto.edu Yves Lesprance lesperan@cse.yorku.ca
Department of Computer Science, University Of Toronto Toronto, ON Canada M5S 1A4
Department of Computer Science and Engineering, York University Toronto, ON Canada M3J 1P3
Rsum : Dans cet article, nous proposons un modle formel de la reconnaissance de plans en vue de linclure dans un formalisme de programmation dagent. Le modle est bas sur le calcul des situations et le langage de programmation dagent ConGolog. Ceci fournit un langage trs riche pour la spcication des plans reconnaitre. Notre modle supporte aussi la reconnaissance incrmentale, o lensemble des hypothses de plans excuts est ltr mesure que les actions sont observes. Le modle est spci en termes dun systme de transitions pour le langage de plans. Le modle supporte aussi les plans structurs hirarchiquement et reconnait les relations entre un plan et les sous-plan quil contient. Mots-cls : Reconnaissance de plans, raisonnement sur laction, langages de programmation dagent Abstract: In this paper, we propose a formal model of plan recognition for inclusion in a cognitive agent programming framework. The model is based on the Situation Calculus and the ConGolog agent programming language. This provides a very rich plan specication language. Our account also supports incremental recognition, where the set of matching plans is progressively ltered as more actions are observed. This is specied using a transition system account. The model also supports hierarchically structured plans and recognizes subplan relationships. Keywords: Plan recognition, reasoning about action, agent programming languages
to monitoring and aiding astronauts, providing assistance to people with cognitive or memory problems to allow them to live independently, etc. There has been a lot of work in the area of plan recognition; see [4] for a recent survey. Some of this work develops symbolic techniques for identifying plans that match the observations. For instance, [1] uses a decision tree to match observations to plan steps and graph traversal to identify branches that represent consistent hypotheses. To deal with uncertainty and identify most likely hypotheses, some work uses probabilistic techniques; for instance [3], uses an extension of Hidden Markov Models for this. Other work combines symbolic and probabilistic approaches, e.g. [2]. Many approaches (including the ones just cited) support hierarchical task network-type plans, allowing methods to have several alternative decompositions, as well as looping tasks. However, these approaches do not support concurrently executing plans. Our approach is based on the ConGolog agent programming language [5], which supports very rich plans, including concurrent processes. We think that developing a unied agent programming framework that supports plan recognition as well as plan synthesis and behavior specication would have a number of benets, including ease of use, and reuse of domain specications and reasoning methods. Our work is closely related to the plan recognition framework of [8], where plans are rep151
1 Introduction
The ability to recognize plans of others can be useful in a wide variety of applications, from ofce assistance (where a program might provide useful reminders, or give hints on how to correct a faulty plan),
Incremental ___________________________________________________________________________ plan recognition in an agent programming framework
resented as Golog1 programs, with two additional constructs: , which matches any sequence of actions, and 1 2 , which matches an execution of plan 1 as long as it does not also match an execution of 2 . 1 2 is quite a useful and powerful construct, which allows one to specify plans in terms of what must not happen in addition to what can happen. This cannot be done in most other plan recognition frameworks. In this paper, we provide an alternative formalization and implementation of the plan recognition framework of [8]. Plans are represented as procedures, which may include calls to other procedures. Because of this, the plan recognition framework provides additional information, such as the call hierarchy, which details the procedures that are in progress or have completed, which procedure called which, and what remains to execute. Another major difference between our approach and that of [8] is that we support incremental plan recognition. Given a set of hypotheses about what plans may be executing and a new observed action, our formalization denes what the revised set of hypotheses should be. Plan recognition is specied in terms of a structural operational semantics (single-step transitions) in the style of [12] for the plan specication language. [8] used a different semantics where programs were mapped into complete executions. We have implemented a plan recognition system based on this formalization. It can be executed on-line and constantly keeps track of what plans may be executing, without having to recalculate them for each new observed action. Focusing on procedures rather than complete plans allows plans to be hierarchical and modular, and the result of the recognition is more informative and meaningful.
1 Golog [9] is a precursor of ConGolog that does not support
In the rest of the paper, we rst give an overview of the Situation Calculus and ConGolog, and then present our formal model of plan recognition. Then, we give some examples to illustrate how the framework is used. Following this, we briey describe our implementation of the model. We conclude the paper with a discussion of the novel features and limitations of our account, and provide suggestions for future work.
2 The Situation Calculus and ConGolog

The technical machinery that we use to dene high-level program execution is based on that of [5]. The starting point in the definition is the situation calculus [11]. We will not go over the language here except to note the following components: there is a special constant S0 used to denote the initial situation; there is a distinguished binary function symbol do where do(a, s) denotes the successor situation to s resulting from performing the action a; relations whose truth values vary from situation to situation, are called (relational) uents, and are denoted by predicate symbols taking a situation term as their last argument. There is a special predicate P oss(a, s) used to state that action a is executable in situation s. Within this language, we can formulate domain theories which describe how the world changes as a result of the available actions. Here, we use action theories of the following form: Axioms describing the initial situation, S0 . Action precondition axioms, one for each primitive action a, characterizing P oss(a, s). Successor state axioms, one for each uent F , which characterize the conditions under which F (x, do(a, s))
concurrency.
152
holds in terms of what holds in situation s; these axioms may be compiled from effects axioms, but provide a solution to the frame problem [13]. Unique names axioms for the primitive actions. A set of foundational, domain independent axioms for situations as in [14]. Next we turn to programs. The programs we consider here are based on the ConGolog language dened in [5], providing a rich set of programming constructs, including the following: primitive action wait for a condition sequence nondeterministic branch nondeterministic choice of argument , nondeterministic iteration conditional if then 1 else 2 endIf, while do endWhile, while loop 1 2 , concurrency with equal priority 1 2 , concurrency with 1 at a higher priority || , concurrent iteration , interrupt p(), procedure call Among these constructs, we notice the presence of nondeterministic constructs. These include (1 | 2 ), which nondeterministically chooses between programs 1 and 2 , x. , which nondeterministically picks a binding for the variable x and performs the program for this binding of x, and , which performs zero or more times. Also notice that ConGolog includes constructs for dealing with concurrency. In particular (1 2 ) denotes the concurrent execution (interpreted as interleaving) of the programs 1 and 2 . In [5], a single step transition semantics in the style of [12] is dened for , ?, 1 ; 2 , 1 | 2 , x. ,
ConGolog programs. Two special predicates T rans and F inal are introduced. T rans(, s, , s ) means that by executing program starting in situation s, one can get to situation s in one elementary step with the program remaining to be executed. F inal(, s) means that program may successfully terminate in situation s.
3 Formalizing plan recognition

Recognizing a plan means that given a sequence of observed actions, the system must be able to determine which plan(s) the user may be following. The framework described here relies on a plan library, which details the possible plans as procedures in ConGolog. Given the sequence of actions performed, the system should be able to provide the following information: the plan that the user is currently following; the stage in the plan that the user is following what has already been done and what remains to be done; and which procedures that plan is part of is the user doing it as part of a larger plan? The framework is specied in terms of ConGolog, to which a few extensions are made. Note that what is described below could have alternatively been done by modifying the semantics of the language. The following formalization is designed to build on top of the existing framework as much as possible. First, we introduce two special primitive actions: startP roc(name(args)) and endP roc(name(args)). These are annotation actions, present only in the plan library, but never actually observed. The two actions are used to represent procedure invocation and completion. It is assumed that every procedure that we want to distinguish in the plan library starts with the action startP roc(name(args)) and ends with the action endP roc(name(args)), where name is the name of the procedure in which the actions occur, and args are its
153
arguments. This markup can be generated automatically given a plan library. Our transition system semantics for plans fully supports concurrency. Environments involving multiple agents can also be dealt with if we assume that the agent of each action is specied (say as a distinguished parameter of the action). However, if there is concurrency over different procedures run by the same agent, the annotated situation as currently dened is not generally sufcient to determine which thread/procedure an observed action belongs to. Additional annotations will need to be introduced to specify this. We leave this for future work. After the inclusion of the annotation actions, for each sequence of actions there are two situations: the real (observed) situation, and the annotated situation, which includes the actions startP roc and endP roc. Given the annotated situation, it is straightforward to obtain the state of the execution stack (which procedures are currently executing), determine what actions were executed by which procedures, and determine the remaining plan. An action startP roc(proc) means that the procedure proc was called, and should be added to the stack. The action endP roc(proc) signals that the last procedure has terminated, and should be removed from the stack. Note that for a given real situation, there may be multiple annotated situations that would match it. Each of those situations would show a different possible execution path in the plan library. For example, if the plan library contained the following procedures: proc p1 startP roc(p1); a; b; endP roc(p1) endProc proc p2 startP roc(p2); a; c; endP roc(p2) endProc then
154
would have two possible annotated situations that would match it: do(a, do(startP roc(p1), S0 )) and In this do(a, do(startP roc(p2), S0 )). context, the plan recognition problem reduces to the following: given the observed situation and a plan library, nd the possible annotated situations. The rst two predicates dened for the new formalism are aT rans and rT rans. The predicate aT rans is a form of T rans that allows only a transition step that cannot be observed: either an annotation action or a test/wait action. The predicate rT rans is a form of T rans which only allows observable actions. The helper predicate Annt is true if and only if the action passed to it is an annotation action: Annt(a) = n . a = startP roc(n) n . a = endP roc(n) def aT rans(, s, , s ) = T rans(, s, , s ) (a . (s = do(a, s) Annt(a)) s = s) def rT rans(, s, , s ) = T rans(, s, , s ) a . s = do(a, s) Annt(a) We also dene aT rans as the reexive transitive closure of aT rans. The transition predicate nT rans(, sr , sa , , sr , sa ) is the main predicate in our plan recognition framework. It holds when is the program remaining from after performing any number of annotation actions or tests, followed by an observable action. Situation sr is the real situation before performing those steps, and sr is the real situation after. Situation sa is the annotated situation (which reects the annotations as well as the real actions) before the program steps, and sa is the annotated situation after. Effectively, our denition below amounts to nT rans being equivalent to aT rans composed with rT rans:
def
the
real
situation
do(a, S0 )
nT rans(, sr , sa , , sr , sa ) = , sa , a.aT rans (, sa , , sa ) rT rans( , sr , , do(a, sr )) sr = do(a, sr ) sa = do(a, sa ). Just as nT rans is the counterpart to T rans which deals with annotation actions, nF inal is the counterpart to F inal, which allows any number of annotation actions or tests to be performed: nF inal(, s) = , s . aT rans (, s, , s ) F inal( , s ) As mentioned in [8], in many cases it would be useful for the procedures to leave some actions unspecied, or to place additional constraints on the plans. So they introduced two new constructs. The rst is anyBut(actionList), which allows one to execute an arbitrary primitive action which is not in its argument list. For example, anyBut([b, d]) would match actions a or c, but not b or d. It is a useful shorthand for writing general plans which might involve unspecied steps. For example, a plan might specify that a certain condition needs to hold for its continuation, but leave unspecied what action(s) was performed to achieve the condition. It is simply an abbreviation, included for convenience. Another shorthand construct, any , can be dened to match any action without exceptions. We can dene these as follows:2 anyBut([a1 , ..., an ]) = a.(if(a = a1 ... a = an ) then a else F alse?endIf) def any = anyBut([]) ). This The second construct is minus(, matches any execution that would match
2 When n = 0, by convention the condition is equivalent to T rue.
def def
def
. This , as long as it does not match construct allows the plan to place additional constraints on the sequences of actions that would be recognized within a certain procedure. For example, the procedure that corresponds to a task of cleaning the house could include unspecied parts, and would match many different sequences of actions, but not if they involve brushing teeth. Assuming cleanUp and brushT eeth are procedures in the plan library, then it is possible to specify the above as minus(cleanUp, brushT eeth). To dene this construct, we need to dene what a step of execution for this construct is, and the remaining program. Also, note must match all observable actions that performed by , but might do different annotation and test actions; those differences should be ignored. An additional axiom is added to specify T rans for the minus construct:
), s, , s ) T rans(minus(, .aT rans(, s, , s ) ) = minus( , , a.rT rans(, s, , do(a, s)) s = do(a, s) s si .nT rans (, s, s, , do(a, s ), si ) ( = s, s, , do(a, s ), si ) s si .nT rans (, nF inal ( , do(a, s )) )). = minus( ,
This says the following: if the next step of the plan is not an observable action, then the remaining program is what remains of ; if performs an observable ac minus cannot match that action, then tion, and the remaining program is what remains of can match the observable action per ; if formed by but it is not nal, then the remaining program is what remains of mi. nus what remains of Note that whether T rans holds for ) depends on whether nT rans minus(,
155
and the latter depends on holds for aT rans and ultimately T rans, so the denition might not appear to be well founded. We ensure that it is well founded by imposing the restriction that no minus of a can appear in the second argument minus. So in the axiom, we use nT rans which is dened just like nT rans, except that it is based on a version of T rans, T rans , that does not support the minus construct and does not include the T rans axiom for the minus construct. So T rans is just the existing T rans from [5], which is well dened, and nT rans is dened in terms of it. Then we can dene the new T rans that supports minus in terms of nT rans and we have a well founded denition. The same approach is used to dene F inal for minus. The construct minus is considered nished when is is not: nished, but ), s) F inal(minus(, s). F inal(, s) nF inal (, We use C to denote the extended ConGolog axioms: C together with the above two. Note that recursive procedures can be handled as in [5]. The above denition relies on a condition that may appear as secimposed on the ond argument in a minus: for any sequence of transitions involving the same should have only one possible actions, remaining program. More formally: s, 1 , s1 ) T rans (, , do(a1 , s1 )) T rans(1 , s1 , 2 , s2 ) T rans (, s, , do(a2 , s2 )) T rans(2 , s2 , do(a1 , s1 ) = do(a2 , s2 ) = This restriction seems quite natural be is a model of what is not allowed. cause
156
If there are many possibilities about what is not allowed after a given sequence of transitions, then the model seems ill formed or at least hard to work with. An example of what is not allowed as would be the program (a; b)|(a; c), because after observing the action a, there could be two possible remaining programs: b or c. Then we have T rans(minus((a; c), (a; b)|(a; c)), s, minus(c, b), do(a, s)) which is wrong because a; c is also ruled out. If rewritten as a; (b|c), this program is allowed. 3 Based on the above denition, to get the annotated situation from an observable one, we only need to apply nT rans a number of times, until the observable situation is reached. We dene nT rans as the reexive transitive closure of nT rans. The predicate allT rans(sr , sa , rem ) means that sa denotes a possible annotated situation that matches the observed situation sr , and rem is the remaining plan: allT rans(sr , sa , rem ) = nT rans (planLibrary, S0 , S0 , rem , sr , sa ) where S0 is the initial situation and planLibrary is a procedure that represents the plan library. The set of all the remaining programs and their corresponding annotated situations Sa for a given real situation S can be dened as follows: allP lans(S ) = {(, Sa )| D C |= allT rans(S, Sa , )} where D is the action theory for the domain.
3 We could try to drop this restriction and collect all the re, but it is not clear that these can always be nitely maining represented, e.g. n.(P ositiveInteger(n)?; a; b(n)).
def def
As mentioned earlier, our account also allows incremental calculation of the set of plans that the agent may be executing. If ( , Sa ) allP lans(S ) and D C |= nT rans( , S, Sa , , do(A, S ), Sa ), then (, Sa ) allP lans(do(A, S )). The converse is also true under some conditions that typically hold.
Hold(thing ): true if the agent holds the thing, false otherwise. We also use the following non-uent predicates: Room(r): r is a room; Object(t): t is an object; InP lace(thing, room): holds if thing is in its place when it is in room. There are ve procedures in the plan library: get(thing ): go to the room where thing is, and pick it up; putAway (thing ): go to the room where the thing should be, and put it down; cleanUp: while there are objects that are not in their places, get such an object, or put it away; brushT eeth: get the toothbrush, use the toothbrush, and either put away the toothbrush, or put it down (where the agent is); readBook : get the book, use the book, and either put away the book, or put it down. The procedures are dened below. We also use the following procedure: proc getT o(r) Room(r)?; if loc = r then goT o(r) endIf endProc getT o checks if the current location is already the destination room r. If not, the action goT o is executed. It is a helper procedure, which was only introduced for
157
4 Examples
The main example described here is a simulation of activities in a home. There are four rooms: the bedroom, kitchen, living room, and bathroom. There are also four objects: the toothbrush, book, spoon, and cup. Each object has its own place, where it should be located. The toothbrush should be in the bathroom, the book in the living room, and the spoon and cup in the kitchen. Initially, all objects are where they are supposed to be, except for two: the book is in the kitchen, and the toothbrush is in the living room. The location of the monitored agent is originally in the bedroom. There are four possible primitive actions: goT o(room): changes the location of the agent to be room; pickUp(object): only possible if the agent is in the same room as the object; this causes the object to be held; putDown(object): only possible if the agent holds the object; puts the object down; use(object): only possible if the agent holds the object. We use the following uents: loc: the room in which the agent is; loc(thing ): the room in which the thing is;
convenience, and was not deemed important enough to appear in the annotations. Hence, it does not have startP roc and endP roc actions. So, when the program is executed, the procedure getT o will not appear in the stack. The denition of most of the other procedures is straightforward: proc get(t) startP roc(get(t)); Hold(t)?; getT o(loc(t)); pickUp(t); endP roc(get(t)) endProc; proc putAway (t) startP roc(putAway (t)); Hold(t)?; r.InP lace(t, r)?; getT o(r); putDown(t); endP roc(putAway (t)) endProc; proc brushT eeth startP roc(brushT eeth); get(toothbrush); use(toothbrush); (putAway (toothbrush)| putDown(toothbrush)); endP roc(brushT eeth) endProc; proc readBook startP roc(readBook); get(book ); use(book); (putAway (book)|putDown(book )); endP roc(readBook ) endProc; Procedures brushT eeth and readBook have options: either the agent might put the thing away in its place, or it might put the thing down wherever it happens to be. In practice, a person might do either, and both executions should be recognized as part of the procedure. Perhaps the most complex procedure in this example is cleanUp. The main idea is that when executing this procedure, the agent will, at each iteration, get a thing that is not in its proper place, or put away something it already holds.
158
proc cleanUp startP roc(cleanUp); while t.Object(t) InP lace(t, loc(t)) do t.Object(t) InP lace(t, loc(t))?; (get(t)|putAway (t)) endWhile; endP roc(cleanUp) endProc The main plan library chooses some procedure to execute nondeterministically and repeats this zero or more times: proc planLibrary (cleanUp|brushT eeth| readBook |(t.get(t))) . endProc Lets look at an execution trace for the above example. Suppose that the rst action was goT o(kitchen). The following possible scenarios are then output by the system:
proc get(book) -> goTo(kitchen) proc get(cup) -> goTo(kitchen) proc get(spoon) -> goTo(kitchen) proc readBook -> proc get(book) -> goTo(kitchen) proc cleanUp -> proc get(book) -> goTo(kitchen)
The system is trying to guess what the user is doing by going to the kitchen. It lists the ve plans from the library that might have this rst action. Note that the possibilities of doing cleanUp by getting a cup or a spoon are not listed. This is because both the spoon and cup are already in their places, so if the agent picked them up, it would not be cleaning up. Now suppose that the next action is pickUp(book ). Then, the system can discard some of the above possibilities, namely those which involve taking something else. The new possible scenarios are:

proc get(book) -> goTo(kitchen); pickUp(book) proc readBook -> get(book) -> goTo(kitchen); pickUp(book) proc cleanUp -> proc get(book) -> goTo(kitchen); pickUp(book)
The next action is use(book ). The plan get(book) is nished, but there is no plan in the library that could start with the action use(book). So, this possibility can be discarded. The next action of cleanUp cannot match the observed actions as well. Thus the only remaining possible plan is readBook :
proc cleanUpm startP roc(cleanUpm ); minus( while t.Object(t) InP lace(t, loc(t)) do t.Object(t) InP lace(t, loc(t))?; (get(t)|putAway (t)); (any |nil); endWhile, [brushT eeth]); endP roc(cleanUpm ) endProc Suppose that the sequence of observed actions starts with the two actions goT o(livingRoom) and take(toothbrush). All three variants of cleanUp would match those actions, and produce the same scenario:
proc cleanUp_k -> proc get(toothbrush) -> goTo(livingRoom); pickUp(toothbrush)
proc readBook -> proc get(book) -> goTo(kitchen); pickUp(book); use(book)
Now, let us consider a different scenario. In order to demonstrate the use of the minus and anyBut constructs, we can dene two variants of cleanUp. In the rst one, cleanUpu , an arbitrary action is allowed at the end of every iteration of the loop. The second one, cleanUpm , together with the optional arbitrary action, introduces a constraint: a sequence of actions will not be matched if it involves the execution of procedure brushT eeth. This is achieved by using the minus construct.
where k is either nothing, or u or m, depending on the version of the procedure used. Now suppose that the next action is use(toothbrush). The original version of cleanUp does not match the observed action. The other two variants, cleanUpu and cleanUpm , would still match the situation, because the new action matches the unspecied action at the end of the loop. If the next action is goT o(bathroom), then both remaining procedures match this as well:
proc cleanUpu proc cleanUp_k -> startP roc(cleanUpu ); proc get(toothbrush) -> while t.Object(t) InP lace(t, loc(t)) goTo(livingRoom); do t.Object(t) pickUp(toothbrush); use(toothbrush); InP lace(t, loc(t))?; proc putAway(toothbrush) -> (get(t)|putAway (t)); (any |nil) goTo(bathroom) endWhile; endP roc(cleanUpu )]) where k can only be u or m. endProc
159
Now, if the next step is putDown(toothbrush), then cleanUpu matches it. However, cleanUpm does not. That is because cleanUpm has the minus construct, and the observed actions matched the exception part of it. The action putDown(toothbrush) can be considered the last action of brushT eeth, which was ruled out by the minus in cleanUpm . So, cleanUpm cannot match this sequence of actions. cleanUpu , which is identical to cleanUpm except for the minus construct, does match the action, and produces the following scenario:
proc cleanUp_u -> proc get(toothbrush) -> goTo(livingRoom); pickUp(toothbrush); use(toothbrush); proc putAway(toothbrush) -> goTo(bathroom); putDown(toothbrush)
5 Implementation and Experimentation

Our plan recognition system was implemented using a Prolog-based version of IndiGolog, an extension of ConGolog introduced in [6]. The implementation closely follows the denitions, without any optimization for performance. The implementation assumes that the axioms specifying the initial situation are represented as Prolog clauses and makes the closed world assumption. The system uses a user-dened domain specication and plan library. All procedures in the library need to satisfy some restrictions. Each procedure P that is to be reected in the scenario has to start and end with actions startP roc(P ) and endP roc(P ), respectively. The procedures can also use constructs anyBut and minus. The implementation can be used in interactive mode. Then the user is expected to enter the observed actions one by one. Also, at any point the user can issue one of the following commands: prompt - list all current hypotheses, reset - forget the previous actions and start fresh, and exit nish execution. We ran some experiments on the home activities domain discussed above, with a slight modication: the last option in the plan library is now (t.[get(t), putDown(t)]) instead of (t.get(t)). This was done ensure that there are arbirarily long executions of the plan library. For each n, where n is the length of an observed action sequence, we randomly selected 200 sequences of n actions that could be generated by the plan library. We then ran the plan recognition system on all of those and averaged the running time. The results appear in Figure 1. We can see that our system can identify matching plans for a sequence of 80 observed actions in less than one second
Another example that the system was tested on is that from [8] involving aircraft ying procedures. There is a single procedure called fireOnBoard. It involves three actions, performed sequentially, with possibly other actions interleaved. The three actions are fuelOff , fullT hrottle, and mixtureOff . The only restriction is that while executing this procedure, the action fuelOn must not occur. In our framework, this example can be represented as follows: proc fireOnBoard startP roc(fireOnBoard), minus([fuelOff ; any ; fullT hrottle; any ; mixtureOff ], [(anyBut([fuelOn])) ; fuelOn]); endP roc(fireOnBoard) endProc The above examples are kept simple to illustrate how the various constructs work. The system was tested on both of the above examples, and more complicated ones. All of the above traces were generated by the implementation.
160
on average in this test domain. As well, for this domain the running time seems to grow linearly with the length of the observed action sequence.
Figure 1: Average runtime (seconds) versus the length of the action sequence
6 Discussion
In this paper, we have described a framework for plan recognition in the Situation Calculus. The ConGolog programming language is used to specify plans. The system matches the actions of the monitored agent against the plan library and returns some scenarios, representing the execution paths that the agent may have followed. The main differences between our account of plan recognition and the one described by [8] are that ours is able to model procedure calls within plans and that it is incremental. Because our approach to plan recognition concentrates on procedures, it is able to distinguish sub-procedures from each other as well as from top-level plans. This allows the scenarios to be fairly detailed both as to how and why a certain plan was being executed. Because our formalism is incremental, it does not need to know the whole sequence of actions to interpret the next step; nor does it need to re-compute matching scenarios from scratch whenever a new action is made. It would be well-suited for real-time applications or continuous monitoring. The framework described here is easily extended with new annotations to specify, for example, the goals and preconditions of
each plan and/or possible reactions to it by the monitoring system. As mentioned earlier, to fully support the recognition of concurrent executions of plans, additional annotations to track which process performed each action should be introduced. Another possible extension would be to assign probabilities to actions and plans, similarly to what was done in [7]. This would make it possible to rank the possible execution hypotheses, select the most probable ones and use this to predict which actions the agent is more likely to execute next. One could also look at qualitative mechanisms for doing this. More experimental evaluation of our system is also needed. There has already been work on home care applications for a plan recognition system. For example, [10] describes a plan recognition system that includes strategies for monitoring and obtaining actions, as well as using learning to modify the plan libraries. Both of those techniques can potentially work with our system.
References
[1] Dorit Avrahami-Zilberbrand and Gal A. Kaminka. Fast and complete symbolic plan recognition. In Proc. of IJCAI-05, Edinburgh, UK, 2005. [2] Dorit Avrahami-Zilberbrand and Gal A. Kaminka. Hybrid symbolicprobabilistic plan recognition: Initial stepsd. In Gal Kaminka, David Pynadath, and Christopher Geib, editors, Modeling Others from Observations: Papers from the 2006 AAAI Workshop, Technical Report WS-06-13. American Association for Articial Intelligence, Menlo Park, CA., 2006. [3] Hung H. Bui. A general model for online probabilistic plan recognition. In Proc. of IJCAI03, pages 1309 1318, 2003.
161
[4] Sandra Carberry. Techniques for plan recognition. User Modeling and User-Adapted Interaction, 11(3148), 2001. [5] Giuseppe De Giacomo, Yves Lesprance, and Hector J. Levesque. ConGolog, a concurrent programming language based on the situation calculus. Articial Intelligence, 121:109169, 2000. [6] Giuseppe De Giacomo and Hector J. Levesque. An incremental interpreter for high-level programs with sensing. In Hector J. Levesque and Fiora Pirri, editors, Logical Foundations for Cognitive Agents, pages 86102. Springer-Verlag, 1999. [7] Robert Demolombe and Ana Mara Otermin Fernandez. Intention recognition in the Situation Calculus and Probability Theory frameworks. In Computational Logic in Multi Agent Systems, pages 358372, London, 2005. [8] Robert Demolombe and Erwan Hamon. What does it mean that an agent is performing a typical procedure? A formal denition in the Situation Calculus. In C. Castelfranci and W. Lewis Johnson, editors, Proceedings of the 1st International Joint Conference on Autonomous Agents and Multiagent Systems, pages 905 911, Bologne, 2002. ACM Press. [9] H. Levesque, R. Reiter, Y. Lesperance, F. Lin, and R. Scherl. GOLOG: A logic programming language for dynamic domains. Journal of Logic Programming, 31:5984, 1997. [10] C. Lin and J.Y. Hsu. IPARS: Intelligent portable activity recognition system via everyday objects, human movements, and activity duration. In Gal Kaminka, David Pynadath, and Christopher Geib, editors, Modeling Others from Observations: Papers from the 2006 AAAI Workshop,
162
Technical Report WS-06-13. American Association for Articial Intelligence, Menlo Park, CA., 2006. [11] John McCarthy and Patrick Hayes. Some philosophical problems from the standpoint of articial intellig ence. In B. Meltzer and D. Michie, editors, Machine Intelligence, volume 4, pages 463502. Edinburgh University Press, 1979. [12] Gordon Plotkin. A structural approach to operational semantics. Technical Report DAIMI-FN-19, Computer Science Dept., Aarhus University, Denmark, 1981. [13] Raymond Reiter. The frame problem in the situation calculus: A simple solution (sometimes) and a completeness result for goal regression. In V. Lifschitz, editor, Articial Intelligence and Mathematical Theory of Computation: Papers in Honor of John McCarthy, pages 359380. Academic Press, 1991. [14] Raymond Reiter. Knowledge in Action: Logical Foundations for Specifying and Implementing Dynamical Systems. MIT Press, 2001.
Communication, consensus et ordre de parole. Qui veut parler en premier?

N. Houy nhouy@free.fr L. Mnager menager@univ-paris1.fr
THEMA Universit Cergy-Pontoise 33 Boulevard du Port 95011 Cergy-Pontoise FRANCE
Universit Paris 1 Panthon-Sorbonne Centre dEconomie de la Sorbonne 106-112 Boulevard de lHpital 75647 Paris Cedex 13 FRANCE
Rsum : Parikh et Krasucki [1990] montrent que si des agents communiquent la valeur dune fonction f selon un protocole sur lequel ils se sont pralablement entendus, alors ils atteindront un consensus sur la valeur de f , condition que le protocole soit quitable et la fonction f convexe. On remarque que la valeur consensuelle de f ainsi que le montant dinformation apprise par les agents au cours du processus de communication dpendent du protocole choisi. Si les agents communiquent an dapprendre de linformation, il est alors possible que certains dentre eux soient en dsaccord quant au protocole de communication utiliser. On montre que sil est connaissance commune que deux agents ont des prfrences opposes sur deux protocoles, alors le consensus qui mergerait de lutilisation de lun ou lautre protocole est le mme. Mots-cls : Connaissance commune, consensus, protocoles de communication.
1 Introduction
Considrons lexemple introductif suivant. Alice et Bob sont assis lun en face de lautre, chacun portant un chapeau dont ils ne savent pas la couleur, mais dont ils savent quil peut tre rouge ou blanc. Supposons que les deux chapeaux soient blancs, et que quelquun demande aux enfants la probabilit quils attribuent lvnement Les deux chapeaux sont rouges. Comme chacun des enfants voit que le chapeau de lautre est blanc, chacun sait que la probabilit que les deux chapeaux soient rouges est 0. Supposons quAlice sexprime la premire, et dise que la probabilit est 0. Bob le savait dj, mais lannonce dAlice lui permet dapprendre que son propre chapeau est blanc. En effet, si son chapeau avait t rouge, alors Alice naurait pas pu liminer compltement la possibilit que les deux chapeaux soient rouges. Si Bob sexprime son tour, et dit quil pense aussi que la probabilit est 0, alors Alice napprendra rien, ni sur la probabilit de lvnement Les deux chapeaux sont rouges, ni sur la couleur de son chapeau. En effet, puisquelle sait quelle a rvl Bob que son chapeau lui tait blanc, elle sait aussi quil sait dsormais quil ny a aucune chance que les deux chapeaux soient rouges, indpendamment de la couleur de son chapeau elle. Par consquent, si Alice veut ap163
Abstract: Parikh and Krasucki [1990] showed that if rational agents communicate the value of a function f according to a protocol upon which they have agreed beforehand, they will eventually reach a consensus about the value of f , provided a fairness condition on the protocol and a convexity condition on the function f . In this article, we address the issue of how agents agree on a communication protocol in the case where they communicate in order to learn information. We show that if it is common knowledge among a group of agents that some of them disagree about two protocols, then the consensus value of f must be the same according to the two protocols. Keywords: Common knowledge, consensus, communication protocols.
Communication, ___________________________________________________________________________ consensus et ordre et parole. Qui veut parler en premier ?
prendre la couleur de son chapeau, elle na aucun intrt parler la premire. Cet exemple illustre le fait suivant. Lorsque les individus communiquent dans le but dapprendre de linformation les uns des autres, lordre de parole est important : lissue dun processus dchange dinformations entre les individus dpend, de manire cruciale, de la faon dont la communication est structure. On sait depuis Geanakoplos et Polemarchakis [1982] que lorsque des agents rationnels communiquent puis rvisent les probabilits a posteriori quils attribuent un vnement donn selon un protocole de communication public et simultan, alors ces agents atteignent un consensus sur la probabilit de cet vnement, cest--dire nissent par tous communiquer la mme probabilit. Cave [1983] et Bacharach [1985] ont tendu ce rsultat au cas o les agents communiquent des dcisions, en supposant que la manire dont les agents forment leurs dcisions satisfait une condition de cohrence, appele stabilit par lunion. Cependant, dans la plupart des situations o les individus sont amens changer entre eux des informations, la communication nest pas simultane. Les individus sexpriment, en gnral, les uns la suite des autres, selon un protocole de communication donn. Parikh et Krasucki [1990] tudirent le cas dans lequel les membres dun groupe communiquent deux--deux la valeur prive dune certaine fonction f . Ils identient des conditions sur la fonction f et sur le protocole de communication qui garantissent que les agents atteignent un consensus sur la valeur de la fonction. Ils montrent que si le protocole de communication est quitable, cest--dire tel que chaque participant reoive de linformation, mme indirectement, de la part de tous les autres participants, et si la fonction dont les valeurs sont communiques est convexe, cest dire si pour toute paire dvnements disjoints X, X , il existe a ]0, 1[ tel que f (X X ) = af (X )+(1 a)f (X ), alors
164
la communication permet aux agents datteindre un consensus sur la valeur de f . Dans cet article, on sintresse aux consquences du choix dun protocole de communication, dans un cadre o les individus veulent apprendre le plus dinformation possible des autres. La valeur du consensus atteint, ainsi que la quantit dinformation apprise par les agents au cours du processus de communication, dpendent du protocole choisi pour communiquer (qui parle quand). En particulier, il peut arriver quun agent apprenne plus dinformation en communiquant avec les autres selon un certain protocole que selon un autre. Il peut galement arriver que les protocoles les plus informatifs ne soient pas les mmes pour tous les agents. Ainsi, si lon fait lhypothse que les agents communiquent an dapprendre de linformation, il peut arriver quils soient en dsaccord quant au protocole de communication utiliser. Selon ltat du monde, Alice et Bob peuvent prfrer parler en premier ou en second, ou tre indiffrents. Si ni Alice, ni Bob ne veut parler en premier, la communication ne peut pas avoir lieu. Cependant, pouvons nous en conclure quAlice et Bob napprendront rien lun de lautre ? Le fait mme que chaque enfant ne veuille pas parler en premier est informatif pour lautre. Lobjet de cet article est prcisment dtudier les infrences que des agents rationnels peuvent faire de la connaissance commune que certains dentre eux sont en dsaccord quant au protocole de communication utiliser. Nous montrons que les situations suivantes sont possibles. Tout dabord, il peut tre connaissance commune dans un groupe dagents que certains dentre eux prfrent le mme protocole de communication. Ensuite, il peut tre connaissance commune que deux agents soient en dsaccord quant au protocole quils prfrent utiliser pour communiquer. Cependant, on montre le rsultat surprenant que dans ce cas, le consensus qui mergera de lutilisation de
lun ou lautre protocole sera le mme. A titre dexemple, sil est connaissance commune entre Alice et Bob que tous les deux prfrent parler en deuxime, alors la probabilit sur laquelle ils se mettront daccord lissue du processus de communication sera la mme, quAlice ou Bob parle en premier. Larticle est organis de la manire suivante. En section 2, on prsente le modle et on rappelle le rsultat de Parikh et Krasucki [1990]. En section 3, on dnit les prfrences sur les protocoles de communication et on prsente le rsultat principal. En Section 4, on donne une srie de rsultats de possibilit autour du rsultat principal, et on discute de la manire dont on dnit les prfrences en section 5. La dmonstration du thorme est prsente en annexe.
partitions, cest--dire la plus ne partition M telle que pour tout et pour tout i = 1, . . . , N , i ( ) M ( ). Un vnement E est dit connaissance commune sous ltat dans un groupe dagents lorsque E est ralis sous , que chacun sait sous que E est ralis, que chacun sait sous que chacun sait que E sest ralis etc... Aumann [1976] montra que, tant donn un groupe de N agents, lunion de leurs N partitions individuelles est la partition de connaissance commune dans le groupe dagents. Par consquent, on dit quun vnement E est connaissance commune en si et seulement si M ( ) E . Avant de communiquer, les agents se mettent daccord sur un protocole de communication qui sera appliqu tout au long du dbat. Le protocole dtermine quels agents sont autoriss sexprimer et quels agents sont autoriss couter chaque date. Dnition 1 Un protocole est une paire de fonctions (s, r) dnies de N dans 2{1,...,N } 2{1,...,N } . Si s(t) = S et r(t) = R, alors on interprte S et R comme les ensembles dmetteurs et de rcepteurs de la communication qui a lieu la date t. Notons que le type de protocoles que lon considre ici est plus gnral que celui considr par Parikh et Krasucki, car lon permet plusieurs agents dtre metteurs et rcepteurs de la communication au mme moment. Au cours du dbat, les agents communiquent en envoyant des messages, dont on suppose quils sont dlivrs instantanment. Autrement dit, la date t, les messages sont simultanment envoys par les agents i s(t) et reus par les agents j r(t). On suppose que le message envoy par un agent est la valeur prive dune certaine fonction f , dnie de lensemble des
165
2 Notions prliminaires
Soit lensemble des tats du monde, suppos ni, et 2 lensemble des vnements possibles de . On considre N agents, chaque agent i tant inform par une partition i de . Lorsque ltat se ralise, lagent i est inform que ltat du monde appartient i ( ), cest--dire la cellule de la partition de i qui contient . On dit quune partition est plus ne quune partition si et seulement si pour tout , ( ) ( ) et sil existe tel que ( ) ( ). Une partition est plus grossire quune partition si et seulement si est plus ne que . La partition i reprsente la capacit de lagent i distinguer entre eux les tats du monde. Ainsi, plus la partition dun agent est ne, plus son information est prcise, dans le sens o lagent est capable de mieux distinguer les tats du monde. On dit quun agent i muni dune partition i sait lvnement E sous ltat si et seulement si i ( ) E . On dnit lunion des partitions individuelles 1 , 2 , . . . , N comme le plus n grossissement commun de ces
vnements 2 dans R. Autrement dit, un agent dont linformation prive est X communique la valeur f (X ). Enn, lensemble des tats du monde , les partitions individuelles (i )i , ainsi que la rgle de message f dnissent un modle dinformation I = , (i )i , f . Dcrivons prsent la manire dont linformation prive des agents volue au cours du du processus de communication. A la date t, tous les metteurs i s(t) slectionns par le protocole = (s, r) envoient un message qui est entendu par tous les rcepteurs j r(t). Chaque agent infre alors lensemble des tats du monde compatibles avec les messages ventuellement envoys, et rvise sa partition dinformation en fonction. Etant donns un modle dinformation , (i )i , f et un protocole de communication , on dnit par rcurrence sur t lensemble i (, t) des tats possibles pour lagent i en et la date t, tant donn le protocole de communication : i (, 0) = i ( ) et pour tout t 1, i (, t + 1) = i (, t) { | f (j ( , t)) = f ( j (, t)) j s(t)} si i r(t), i (, t + 1) = i (, t) sinon. Deux hypothses sont faites sur le protocole de communication et sur la fonction f pour garantir que la communication itrative de la valeur de f conduise un consensus sur f . A linstar de Parikh et Krasucki, on suppose que le protocole de communication est quitable. Nous adoptons la dnition de Koessler [2001], qui adapte celle de Parikh et Krasucki au type de protocoles que lon considre : un protocole est quitable si et seulement si tous les participants ce protocole communiquent directement ou indirectement avec tous les autres. Cette condition est ncessaire pour quaucun agent ne soit exclu de la communication.
166
Hypothse 1 (A1) Le protocole est quitable, i.e. pour toute paire dindividus (i, j ), i = j , il existe un nombre inni de suites nies t1 < < tK , avec tk N pour tout k {1, . . . , K }, telles que i s(t1 ) et j r(tK ). Hypothse 2 (A2) f est convexe, i.e. pour toute paire dvnements E, E tels que E E = , il existe ]0, 1[ tel que f (E E ) = f (E ) + (1 )f (E ). Cette condition est satisfaite par les probabilits conditionnelles, et implique la condition de stabilit par lunion1 la Cave [1983]. Le prochain rsultat tablit que, sous les hypothse dquit du protocole et de convexit de la fonction f , f ( i (, t)) admet une valeur limite pour tout qui ne dpend pas de i. Autrement dit, sous les hypothses A1 et A2, les participants au protocole convergent vers un consensus sur la valeur de f . Proposition 1 (Parikh and Krasucki (1990)) Soit , (i )i , f un modle dinformation, et un protocole de communication. Sous les hypothses A1 et A2, il existe une date T telle que pour tout , pour tous i, j , et tous t, t T , f ( i (, t)) = f (j (, t )). Dans la suite, on notera i ( ) la valeur li ( , t ) , et sera appele la parmite de i i tition dinformation de lagent i au consensus. La valeur limite de f ( i (, t)), qui ne dpend pas de i, sera note f ( ( )) et sera appele valeur consensuelle de f sous ltat , tant donn le protocole .
1 f est stable par lunion si pour tous E, E tels que E E = , f (E ) = f (E ) f (E E ) = f (E ) = f (E ).
3 Qui veut parler en premier ? Un thorme dimpossibilit.

On fait lhypothse que les agents sont des preneurs de dcision, qui dsirent tre mieux informs au sens de Blackwell [1983]. Une partition est plus informative, au sens de Blackwell, quune partition , si et seulement si est plus ne que . Ainsi, on dira quun agent est mieux inform avec un protocole quavec un protocole si, au bout du compte, il a une partition au consensus plus ne avec quavec . La prfrence pour plus dinformation induit alors une prfrence dpendante des tats pour chaque agent sur lensemble des protocoles. On dit quun agent prfre un protocole un protocole sous ltat si il croit, lorsque ltat sest ralis, quil aura une partition plus ne avec quavec . Dnition 2 (Prfrences) Soit I := , (i )1 i 0 , f un modle dinformation, et , deux protocoles distincts. Lvnement i prfre est not BiI (, ), et est dni de la manire suivante : BiI (, ) = { | i ( ), i ( ) i ( ) et i ( ) s.t. i ( ) i ( )} Considrons nouveau lexemple des deux enfants donn en introduction, et dcrivons le formellement. Il y a quatre tats du monde, chaque tat dcrivant les couleurs des chapeaux dAlice et de Bob. Ainsi, un tat est not (Ac Bc ), avec c, c {r, w} dsignant les couleurs des deux chapeaux. Supposons sans perte de gnralit quAlice et Bob aient une probabilit a priori uniforme sur lensemble des tats du monde. Ils expriment chacun leur tour la probabilit a posteriori quils attribuent au fait que les deux chapeaux soient rouges, cest--dire leur valeur prive de la fonction f (.) = P ({(Ar Br )} | .). Chacun des enfants observe le chapeau de
lautre, mais ne connat pas la couleur de son propre chapeau. Par consquent, Alice et Bob sont munis des partitions dinformation suivantes :2
A : {(Ar Br ), (Aw Br )} 1 {(Ar Bw ), (Aw Bw )}0 2
B : {(Ar Br ), (Ar Bw )} 1 {(Aw Br ), (Aw Bw )}0 2
Si Alice parle en premier (protocole ), les partitions individuelles au consensus sont :

A : {(Ar Br )}1 {(Aw Br )}0 {(Ar Bw ), (Aw Bw )}0 B : {(Ar Br )}1 {(Ar Bw )}0 {(Aw Br )}0 {(Aw Bw )}0
Si Bob parle en premier (protocole ), les partitions individuelles au consensus sont :

A : {(Ar Br )}1 {(Aw Br )}0 {(Ar Bw )}0 {(Aw Bw )}0 B : {(Ar Br )}1 {(Ar Bw )}0 {(Aw Br ), (Aw Bw )}0
Si les deux chapeaux sont blancs, (i.e. dans ltat (Aw Bw )), Alice et Bob sont tous les deux mieux informs lorsquils parlent en second. Que se passe-t-il dans ce cas ? Supposons que ltat (Aw Bw ) se ralise, et quAlice et Bob attendent, face face, que lautre se dcide parler en premier. Alice sait que ltat du monde appartient {(Ar Bw ), (Aw Bw )}. Puisque Bob ne veut pas parler en premier, elle comprend que le vrai tat du monde nest pas (Ar Bw ), puisque Bob aurait t indiffrent entre parler en premier et en second dans cet tat. De mme, Bob sait que ltat du monde appartient {(Aw Br ), (Aw Bw )}. Il dduit du fait quAlice ne veut pas parler en premier que ltat du monde nest pas (Aw Br ), puisque, dans cet tat, Alice aurait t indiffrente entre parler en premier et en deuxime. Ainsi, le fait de savoir que lautre ne veut pas parler en premier permet Alice et Bob de comprendre
2 Lindice indique la probabilit a posteriori correspondante chaque cellule.
167
que ltat du monde est (Aw Bw ), cest-dire que les deux chapeaux sont blancs. A partir de ce moment, ils possdent tous les deux la mme information prive sous ltat (Aw Bw ), et deviennent tous les deux indiffrents entre parler en premier et en deuxime. Cet exemple soulve ainsi la question de savoir sil peut tre connaissance commune entre deux agents quils soient en dsaccord quant au protocole de communication quils prfrent pour communiquer. Plus gnralement, quelles infrences des agents rationnels peuvent-ils faire de la connaissance commune que certains dentre eux sont en dsaccord sur le protocole de communication utiliser ? On prsente maintenant le rsultat principal de cet article, qui tablit en particulier que, dans ce cas, la valeur du consensus atteint sera la mme, quel que soit le protocole utilis. Thorme 1 Soit I = , (i )i , f un modle dinformation tel que A1 et A2 sont satisfaites, et et deux protocoles distincts. Considrons a1 , a2 , b1 , b2 {, }, avec a1 = a2 et b1 = b2 , et considrons deux agents i = j . Enn, considrons les trois assertions suivantes : I (1) BiI (a1 , a2 ) et Bj (b1 , b2 ) sont connaissance commune en . I (2) BiI (a1 , a2 ) Bj (b1 , b2 ) et a1 = b2 . (3) f ( ( )) = f ( ( )). Les assertions (1), (2), et (3) ne peuvent pas tre vraies simultanment. Lassertion (1) signie que les prfrences de i et de j concernant et sont connaissance commune en . Lassertion (2) signie que i et j sont en dsaccord quant au protocole quils prfrent en (soit i prfre et j prfre en , soit i prfre et j prfre en ). Lassertion (3) signie que la valeur consensuelle de f sous ltat
168
nest pas la mme selon le protocole utilis. La signication de ce thorme dans lexemple donn en introduction est la suivante : Si (1) et (2) sont vraies, cest--dire sil est connaissance commune en quAlice et Bob prfrent parler en deuxime, alors (3) est fausse, i.e la valeur consensuelle de f sous est la mme, quAlice ou Bob parle en premier. Si (1) et (3) sont vraies, cest--dire sil est connaissance commune en quAlice prfre a1 {, } et que Bob prfre b1 {, }, et si la valeur consensuelle de f diffre selon que le protocole est ou , alors (2) est fausse, i.e Alice et Bob prfrent le mme protocole en (a1 = b1 ). Si (2) et (3) sont vraies, cest--dire si Alice et Bob ont des prfrences opposes sur et en , et si la valeur consensuelle de f diffre selon que le protocole est ou , alors (1) est fausse, i.e les prfrences dAlice ou de Bob ne sont pas connaissance commune en .
4 Rsultats de possibilit
Dans cette section, on donne quelques rsultats de possibilits autour du Thorme 1. Notons dabord que le rsultat dimpossibilit du Thorme 1 nest pas d au fait que deux des trois assertions ne peuvent pas tre vraies simultanment. En effet, il suft de retirer nimporte laquelle des trois assertions pour restaurer la possibilit. Proposition 2 (i) Les assertions (1) et (2) du Thorme 1 peuvent tre vraies simultanment. (ii) Les assertions (1) et (3) du Thorme 1 peuvent tre vraies simultanment. (iii) Les assertions (2) et (3) du Thorme 1 peuvent tre vraies simultanment.
Dans le cadre de lexemple dAlice et Bob, cette proposition tablit que (i) il peut tre connaissance commune entre eux que Alice et Bob prfrent diffrents protocoles, (ii) il peut tre connaissance commune entre eux quAlice et Bob prfrent le mme protocole entre et , et que la valeur consensuelle de f ne soit pas la mme selon ou , et (iii) Alice et Bob peuvent avoir des prfrences opposes sur et , alors que et conduisent des valeurs consensuelles de f diffrentes. On montre le point (i) laide de lexemple suivant, qui dcrit une situation o il est connaissance commune entre Alice et Bob que tous les deux prfrent parler en second. Le fait quils prfrent parler en second est relativement intuitif : lorsquun individu nest pas le premier parler, le premier message quil entend ne dpend que de linformation prive de lautre agent. Cependant, il peut tre connaissance commune que deux agents prfrent parler en premier.3 Exemple 1 Soit = {1, 2, 3, 4, 5, 6, 7} lensemble des tats du monde. Supposons quAlice et Bob soient munis dune probabilit a priori P uniforme sur . Ils communiquent tour tour leur valeur prive de la fonction f (.) = P ({1, 2, 7} | .), et sont dots des partitions dinformation suivantes :
Si Bob parle en premier (protocole ), les partitions dinformation au consensus sont : A = {1}1 {2}1 {3}0 {4}0 {5}0 {6}0 {7}1 B = {1, 7}1 {2}1 {3, 6}0 {4, 5}0 Dans chaque tat du monde, Alice et Bob prfrent parler en second : BA (, ) = BB (, ) = . Il est, par consquent, connaissance commune en chaque tat du monde quAlice prfre le protocole et Bob le protocole . Cependant, cela ne contredit pas le Thorme 1, puisque pour tout , f ( ( )) = f ( ( )). On montre le point (ii) laide de lexemple suivant, dans lequel il est connaissance commune que deux agents prfrent le mme protocole parmi et , alors que la valeur consensuelle de f nest pas la mme selon que le protocole utilis est ou . Exemple 2 Soit = {1, . . . , 9} lensemble des tats du monde. Supposons quAlice et Bob aient une probabilit a priori P uniforme sur . Ils communiquent tour tour leur valeur prive de la fonction f (.) = P ({1, 6, 7, 9} | .), et sont dots des partitions dinformation suivantes : A = {1, 2, 4, 5, 9} 2 {3, 6, 7, 8} 1 5 2 B = {1, 3, 7} 1 {2, 5, 8}0 {4, 6, 9} 2
3
A = {1, 2}1 {3, 4}0 {5, 6, 7}1/3 B = {1, 7}1 {2, 3, 6}1/3 {4, 5}0 Si Alice parle en premier (protocole ), les partitions dinformation au consensus sont : A = {1, 2}1 {3, 4}0 {5, 6}0 {7}1 B = {1}1 {2}1 {3}0 {4}0 {5}0 {6}0 {7}1
3 Cet exemple nest pas prsent ici car il implique 288 tats du monde, mais il est disponible sur demande.
Si Alice parle en premier (protocole ), les partitions dinformation au consensus sont : {3, 7} 1 {6}1 {8}0 A = {1}1 {2, 5}0 {4, 9} 1 2 2 B = {1}1 {2, 5}0 {4, 9} 1 {3, 7} 1 {6}1 {8}0
2
Si Bob parle en premier (protocole ), les partitions dinformation au consensus

169
sont :
2 {2, 5}0 {3, 6, 7} 2 {8}0 A = {1, 4, 9} 3 3 B = {1, 3, 7} 2 {2, 5, 8}0 {4, 6, 9} 2
Si Bob parle en premier (protocole ), les partitions dinformation au consensus sont : {8}1 {2}1 {6}0 {11}0 {12}1 A = {1, 3, 7} 1 3 {4, 5, 10} 1 {9}0 {13}0
3
Dans chaque tat du monde, Alice et Bob prfrent que Alice parle en premier : BA (, ) = BB (, ) = . Il est, par consquent, connaissance commune entre eux quAlice et Bob prfrent le protocole . Cependant, cela ne contredit pas le Thorme 1, puisque f ( (1)) = f ( (1)). Enn, on montre le point (iii) avec lexemple suivant, dans lequel la valeur consensuelle de f nest pas la mme avec et en un certain tat, alors mme que les deux agents sont en dsaccord quant au protocole quils prfrent parmi et en cet tat. Exemple 3 Soit = {1, . . . , 13} lensemble des tats du monde. Supposons que Alice et Bob aient une probabilit a priori P uniforme sur . Ils communiquent tour tour la valeur prive de la fonction f (.) = P ({2, 3, 4, 8, 12} | .), et sont dots des partitions dinformation suivantes :
1 {2, 6, 11, 12} 1 {4, 5, 10} 1 A = {1, 3, 7, 8} 2 3 2 {9}0 {13}0
{2}1 {4, 7, 10, } 1 {12}1 B = {1, 3, 5} 1 3 3 {9, 13}0 {6}0 {8}1 {11}0
La partition de connaissance commune est M = {}. Sous ltat 1, Alice et Bob prfrent tous les deux parler en deuxime, et f ( (1)) = 1/3 = f ( (1)) = 1/2. Cependant, cela ne contredit pas le rsultat du Thorme 1, puisquil nest pas connaissance commune que Bob prfre parler en deuxime. En effet, Bob prfre parler en premier dans les tats 6 et 8. Le Thorme 1 montre en particulier que la connaissance commune en que i et j sont en dsaccord propos de et implique que la valeur consensuelle de f en est la mme avec les protocoles et . Soulignons ici que ce rsultat nest pas d au fait que, dans ce cas, les vnements devenus connaissance commune en entre les agents, lissue de la communication, sont les mmes, quelque soit le protocole. Si ctait le cas, lgalit des valeurs consensuelles de f mergerait alors comme une consquence. Proposition 3 Soit I = , (i )1 i N , f un modle dinformation tel que A1 et A2 sont satisfaites, et , deux protocoles de communication distincts. Considrons a1 , a2 , b1 , b2 {, }, avec a1 = a2 et b1 = b2 , et considrons i = j . Enn, considrons les trois assertions suivantes :
I (1) BiI (a1 , a2 ) et Bj (b1 , b2 ) sont connaissance commune en . I (2) BiI (a1 , a2 ) Bj (b1 , b2 ) et a1 = b2 .
1 {2}1 {4, 7, 9, 10, 12, 13} 1 B = {1, 3, 5} 3 3 {6, 8}1/2 {11}0
Si Alice parle en premier (protocole ), les partitions dinformation au consensus sont :

1 {2}1 {11}0 {6, 12} 1 A = {1, 3, 7, 8} 2 2 {4, 10} 1 {5}0 {9}0 {13}0
1 {5}0 {2}1 {4, 10} 1 {7, 12} 1 B = {1, 3} 2 2 2 {9, 13}0 {6, 8} 1 {11}0
2
(3) ( ) = ( ).
170
Les assertions (1), (2), et (3) peuvent tre vraies simultanment. On montre cette proposition grce lExemple 1, dans lequel il est connaissance commune en chaque tat du monde que Alice et Bob prfrent parler en second. Dans cet exemple, les partitions de connaissance commune au consensus sont = {1, 2}{3, 4}{5, 6}{7} si Alice parle en premier, et = {1, 7}{2}{3, 6}{4, 5} si Bob parle en premier. Sous ltat 1 par exemple, (1) = {1, 2} = (1) = {1, 7}, bien que lon ait f ( (1)) = f ( (1)) daprs le Thorme 1. On sait depuis Geanakoplos et Polemarchakis [1982] que le consensus obtenu grce la communication peut tre inefcace, au sens o la valeur consensuelle de la fonction peut tre diffrente de celle qui aurait t obtenue si tous les individus avaient partag leur information prive. Formellement, tant donn un protocole , il est possible que f ( ( )) = f (J ( )), o J ( ) = iI i ( ). Lorsque deux individus sont en dsaccord propos de et , alors chacun dentre eux a une partition au consensus plus ne avec lun des deux protocoles. On peut ainsi se demander si la connaissance commune que deux agents sont en dsaccord, propos de deux protocoles, a des rpercussions positives sur lefcacit du consensus qui en rsultera. Le contre-exemple suivant montre que la connaissance commune que deux agents sont en dsaccord propos de et nimplique pas que le consensus obtenu avec et soit efcace. Exemple 4 Soit = {1, . . . , 19} lensemble des tats du monde, et supposons que Alice et Bob aient une probabilit a priori P uniforme sur . Ils communiquent tour tour leur valeur prive de la fonction f (.) =
P ({1, 3, 6, 7, 8, 9, 13, 17, 18} | .), et sont dots des partitions dinformation suivantes :
A = {1, 7, 8, 16} 3 {2, 3, 12, 15} 1 {5, 19}0 4 4 2 {9, 13}1 {4, 10, 14, 18} 1 { 6 , 11 , 17 } 4 3
B = {1, 2, 17} 2 {3, 4, 6, 7} 3 {5, 9, 14, 16} 1 3 4 4 {8, 12, 13, 18} 3 { 10 , 19 } 0 {11, 15}0 4
Si Alice parle en premier (protocole ), les partitions dinformation au consensus sont : A = {1, 7, 8}1 {16}0 {2, 15}0 {3, 12} 1 2 {11}0 {10, 14}0 {4, 18} 1 2 {5, 19}0 {6, 17}1 {9, 13}1
{6}1 {7}1 {5}0 B = {1}1 {2}0 {17}1 {3, 4} 1 2 {9}1 {14}0 {16}0 {8}1 {12, 18} 1 {13}1 2 {10}0 {19}0 {15}0
Si Bob parle en premier (protocole ), les partitions dinformation au consensus sont :

{5}0 A = {1}1 {7, 8}1 {16}0 {2}0 {3, 12} 1 2 {10}0 {4, 18} 1 { 15 } { 14 } { 19 } 0 0 0 2 {6}1 {11}0 {17}1 {9}1 {13}1
{6, 7}1 {8, 13}1 B = {1, 17}1 {2}0 {3, 4} 1 2 {5, 14, 16}0 {9}1 {12, 18} 1 2 {10, 19}0 {11, 15}0
Dans chaque tat du monde, Alice et Bob prfrent parler en second. Daprs le Thorme 1, la probabilit consensuelle sera alors la mme quAlice ou Bob parle en premier, dans chaque tat du monde. Cependant, on peut remarquer que la probabilit consensuelle est 1/2 sous ltat 3, alors quelle aurait t f ({2, 3, 12, 15} {3, 4, 6, 7}) = f ({3}) = 1 si Alice et Bob avaient rvl linformation prive que chacun a reu sous ltat 3.
171
5 Discussion
Dans cet article, on sest intress la question des consquences du choix dun protocole de communication dans un groupe dagents, dans un cadre o les individus prfrent apprendre de linformation les uns des autres. On a montr que sil est connaissance commune entre les agents que certains dentre eux sont en dsaccord sur le protocole de communication quils prfrent utiliser parmi deux protocoles, alors le consensus qui mergera de lutilisation de lun ou lautre protocole sera le mme. La manire dont on a dni les prfrences sur les protocoles a deux consquences. Tout dabord, elle implique que les agents prfrent tre plus informs toutes choses gales par ailleurs, et sapplique par consquent uniquement aux situations de dcision dans lesquelles les agents valorisent linformation toujours positivement. Dans les situations de jeux, les agents ne peuvent pas prfrer les protocoles grce auxquels ils sont plus informs toutes choses gales par ailleurs, puisquils se proccupent galement du montant dinformation apprise par leurs opposants au cours du processus de communication. Une deuxime consquence de la manire dont on dnit les prfrences sur les protocoles est quelles ne sont pas compltes. En effet, il est possible quun agent ne soit pas capable de comparer deux protocoles, puisque deux partitions dinformation ne peuvent pas toujours tre ordonnes dans le sens du rafnement. Une manire de complter les prfrences serait de les dnir de la manire suivante, plus gnrale. Supposons que chaque agent i ait une fonction dutilit Ui : Di R, o Di lensemble daction de lagent i. On dit que lagent i prfre un protocole un protocole sous ltat il anticipe sous quil aura une plus grande esprance dutilit avec le protocole quavec le protocole , i.e. si E [maxdDi E (Ui (d, .) |
172
i (.)) | i ( )] > E [maxdDi E (Ui (d, .) | i (.)) | i ( )]. Cependant, on naurait pas le rsultat du Thorme 1 dans ce cas : avec de telles prfrences, il peut tre connaissance commune que deux agents soient en dsaccord propos de deux protocoles, sans que cela nimplique lgalit des valeurs de consensus. Exemple 5 Soit = {1, 2, 3, 4, 5, 6, 7} lensemble des tats du monde, et considrons trois agents, munis dune probabilit a priori P uniforme sur . Les trois agents communiquent la valeur de la fonction f (.) = P ({1, 5} | .) selon deux protocoles round-robin. Dans le protocole , lagent 1 parle secrtement lagent 3, qui parle secrtement lagent 2, qui parle secrtement lagent 1, etc... Dans le protocole , lagent 2 parle secrtement lagent 3, qui parle secrtement lagent 1, qui parle secrtement lagent 2, etc... Les trois agents sont munis des partitions dinformation suivantes : 1 = {1, 2, 6, 7} 1 {3, 4, 5} 1 4 3 2 = {1, 2, 3, 7} 1 {4, 5, 6} 1 4 3 3 = {1, 3, 4} 1 {2, 5, 6, 7} 1
3
Si le protocole est utilis, les partitions dinformation au consensus sont : 1 = {1}1 {2, 6, 7}0 {3, 4}0 {5}1 2 = {1}1 {2, 3, 7}0 {4, 6}0 {5}1 3 = {1}1 {3, 4}0 {2, 6, 7}0 {5}1 Si le protocole est utilis, les partitions dinformation au consensus sont :
{2, 7}0 {3, 5} 1 {4}0 1 = {1, 6} 1 2 2 2 = {1, 3} 1 {2, 7}0 {4}0 {5, 6} 1 2 2 1 {4}0 {2, 7}0 {5, 6} 1 = { 1 , 3 } 3
2
On peut facilement trouver une fonction dutilit commune aux agents 1 et 2 telles quil soit connaissance commune entre les agents 1, 2 et 3 quils ont des prfrences
opposes sur et . Supposons que lensemble dactions des agents 1 et 2 soit D = {x, y }, et quils soient munis de la fonction dutilit suivante : U (x, ) = 1 si {1, 3, 4} 0 sinon 1 si {2, 5, 6, 7} 0 sinon
Annexe : Dmonstration du Thorme 1

Soit un modle dinformation I = , (i )i , f , et , deux protocoles distincts. Montrons que si les assertions (1) et (2) du Thorme 1 sont vraies, alors lassertion (3) est fausse. On montre que sil existe deux agents i, j et un tat tels I (, ) sont connaisque BiI (, ) and Bj sance commune en , alors f ( ( )) = f ( ( )). Clairement, le rsultat tient toujours si lon change et . Rappelons que M ( ) dsigne lunion des partitions individuelles avant que la communication nait lieu : M = n i=1 i , et que dsigne lunion des partitions individuelles au consensus, tant donn le pro tocole : = n i=1 i .
I (, ) sont connaissance Si BiI (, ) et Bj commune en , alors on a
U (y, ) =
Munis de cette fonction dutilit, les dcisions des agents 1 et 2 lissue du processus de communication seraient les suivantes : Agent 1 : 1 = {1}x {2, 6, 7}y {3, 4}x {5}y 1 = {1, 6}x ou y {2, 7}y {3, 5}x ou y {4}x Agent 2 : 2 = {1}x {2, 3, 7}x ou y {4, 6}x ou y {5}y 2 = {1, 3}x {2, 7}y {4}x {5, 6}y Lagent 1 ne commet derreur dans aucun tat lissue du protocole , alors quil en commet ncessairement une dans les tats 1, 6, 3 et 5 lissue du protocole . Ainsi, lagent 1 prfre dans tous les tats du monde. De mme, lagent 2 ne commet derreur dans aucun tat lissue du protocole , alors quil en commet ncessairement une dans les tats 2, 3, 7, 4 et 6 lissue du protocole . Ainsi, lagent 2 prfre dans tous les tats du monde. Par consquent, il est connaissance commune entre les agents 1, 2 et 3 que 1 et 2 ont des prfrences opposes sur et , bien que la valeur consensuelle de f ne soit pas la mme avec et . Sous ltat 1 par exemple, la valeur consensuelle de la probabilit de {1, 5} est 1 avec le protocole , et est 1/2 avec le protocole .
M ( ) Bi (, ) Bj (, ) Comme ( ) M ( ) et ( ) M ( ) , on a ( ) ( ) M ( ) . Par consquent, on a

I ( ) ( ) BiI (, ) Bj (, ) (1)
Soit ( ) ( ) (qui nest pas vide puisque ( ) ( )). Par dnition de lunion des partitions, on a i ( ) ( ) et i ( ) ( ). Comme ( ) ( ), on a ( ) = ( ) et ( ) = ( ). Par consquent,
i ( ) ( ) et i ( ) ( ) (2)
Daprs (1), BiI (, ). Cela im plique que i ( ) i ( ). Cependant,

173

i ( ) ( ) by (2). On a par consquent i ( ) ( ) ( )
Comme cest le cas pour tout ( ) ( ), on a ( ) ( ) =

( ) ( )
i ( )
Daprs la Proposition 1 et Parikh et Krasucki [1990], i, j, f ( i ( )) = f ( j ( )) pour tout . Par dnition de lunion, cela implique que ( ), f ( i ( ) = f (i ( )). Comme f est convexe, f est aussi stable par lunion, et par consquent f ( ( ) ( )) = f ( ( )). Le mme raisonnement appliqu j ( ) implique que f ( ( ) ( )) = f ( ( )). Ainsi, f ( ( )) = f ( ( ))
[6] Koessler F., [2001], Common knowledge and consensus with noisy communication, Mathematical Social Sciences, 42, pp 139-159. [7] Parikh R., Krasucki P., [1990], Communication, Consensus and Knowledge, Journal of Economic Theory, 52, 178-189. [8] Sebenius and Geanakoplos J., [1983], Dont bet on it : contingent agreements with asymmetric information , Journal of the American Statistical Association, 78, 424-426.
Remerciements
Nous remercions Franoise Forges, John Geanakoplos, Frdric Koessler, Yaw Nyarko, Dov Samet, Jean-Marc Tallon, Jean-Christophe Vergnaud et Nicolas Vieille, ainsi que trois rapporteurs anonymes, pour leur nombreux commentaires. Ce travail a t ralis avec le soutien nancier du Ministre Franais de la Recherche (Actions Concertes Incitatives).
Rfrences
[1] Aumann R. J., [1976], Agreeing to Disagree, The Annals Of Statistics, 4, 1236-1239. [2] Bacharach M., [1985], Some Extensions of a Claim of Aumann in an Axiomatic Model of Knowledge, Journal of Economic Theory, 37, 167-190. [3] Blackwell D., [1953], Equivalent Comparison of Experiments, Annals of Mathematical Statistics, 24, pp 265-272. [4] Cave J., [1983], Learning To Agree, Economics Letters, 12, 147-152. [5] Geanakoplos J., Polemarchakis H., [1982], We Cant Disagree Forever, Journal Of Economic Theory, 26, 363-390.
174
Fusion de bases propositionnelles : une mthode base sur les R-ensembles

Hue Julien hue@univ-tln.fr Wurbel Eric wurbel@univ-tln.fr
Papini Odile odile.papini@esil.univmed.fr
LSIS UMR CNRS 6168 - quipe INCA Universite du Sud Toulon-Var Avenue de l Universit - BP20132 83957 LA GARDE CEDEX - FRANCE
LSIS UMR CNRS 6168 - quipe INCA Universit de la Mditerrane - ESIL Avenue de Luminy 13288 MARSEILLE CEDEX - FRANCE
Rsum : La prise de dcision collective conduit linteraction de plusieurs agents an dlaborer une dcision commune cohrente. Dun point de vue informatique, ce problme peut se ramener celui de la fusion de diffrentes sources dinformations. Dans le domaine de la reprsentation des connaissances pour lintelligence articielle, plusieurs approches ont t proposes pour la fusion de bases de croyances propositionnelles, cependant, la plupart dentre elles lont t sur un plan smantique et sont peu utilisables en pratique. Ce papier propose une nouvelle approche syntaxique pour la fusion de bases de croyances, appele Fusion par Rensembles (ou RSF). La notion de R-ensemble, initialement dnie dans le contexte de la rvision de croyances, est tendue la fusion et la plupart des oprations classiques de fusion sont captures syntaxiquement par RSF. An dimplanter efcacement RSF, ce papier montre comment RSF peut tre cod en un programme logique avec smantique des modles stables, puis prsente une adaptation du systme Smodels permettant de calculer efcacement les R-ensembles. Finalement, une tude exprimentale prliminaire montre que la mise en uvre utilisant la programmation logique avec smantique des modles stables semble prometteuse pour raliser la fusion de bases de croyances sur des applications relles. Mots-cls : Fusion de croyances, Raisonnement sur les croyances, Reprsentation des connaissances Abstract: Collective decision making leads to interaction between agents in order to elaborate a consistent common decision. From a data-processing point of view, this problem can be brought back to the merging of different sources of information. In knowledge representation for articial intelligence, several approaches have been proposed for propositional bases fusion, however, most of them are de-
ned at a semantic level and are untractable. This paper proposes a new syntactic approach of belief bases fusion, called Removed Sets Fusion (RSF). The notion of removed-set, initially dened in the context of belief revision is extended to fusion and most of the classical fusion operations are syntactically captured by RSF. In order to efciently implement RSF, the paper shows how RSF can be encoded into a logic program with answer set semantics, then presents an adaptation of the smodels system devoted to efciently compute the removed sets in order to perform RSF. Finally a preliminary experimental study shows that the answer set programming approach seems promising for performing belief bases fusion on real scale applications. Keywords: Belief merging, reasoning about beliefs,Knowledge representation
1 Introduction
Dans le contexte de la prise de dcision collective, plusieurs experts ou agents intelligents sont amens interagir an dlaborer une dcision commune de faon rationnelle. La prise de dcision collective a t tudie dans le domaine de la thorie du choix social et de rcents travaux [28], [26], [15] ont montr le lien entre ces travaux et ceux dvelopps dans le domaine de lintelligence articielle, en particulier concernant la fusion. La fusion dinformations issues de diffrentes sources est un problme important dans plusieurs domaines de linformatique comme la reprsentation des connaissances pour lintelligence articielle, la prise de dcision ou les bases de donnes. Le but de la fu175
Fusion ___________________________________________________________________________ de bases propositionnelles : une mthode base sur les R-ensembles
sion est dobtenir un point de vue global exploitant la complmentarit des diffrentes sources, rsolvant les conits possibles et enlevant les redondances existantes entre les sources. Parmi les diffrentes approches de la fusion dinformations provenant de sources multiples, les approches logiques ont obtenues un intret croissant ces dix dernires annes [1, 23, 16, 24, 5]. La plupart de ces approches ont t dnies dans le cadre de la logique classique, le plus souvent propositionnelle, et ont t dnies smantiquement. Diffrents postulats caractrisant le comportement rationnel des oprateurs de fusion ont t proposs [12] et plusieurs oprateurs ont t dnis selon que des priorits (implicites ou explicites) sont prises en compte ou non [14], [13], [7], [25], [19]. Plus rcemment, de nouvelles approches ont t proposes comme la fusion smantique de bases propositionnelles, notamment partir de la distance de Hamming [11] ou la fusion syntaxique dans le cadre possibiliste [8, 2] qui est un vritable avantage du point de vue de lefcacit calculatoire. Ce papier propose une nouvelle approche pour la fusion syntaxique de bases de croyances propositionnelles. Nous montrons que les oprateurs classiques de fusion, Card, , Max, Gmax, initialement dnis au niveau smantique, peuvent tre capturs dans notre cadre syntaxique. Nous montrons ensuite quune implantation efcace de ces oprateurs, base sur la programmation logique avec smantique des modles stables, peut tre ralise. En particulier, ce papier se concentre sur les trois points suivants : Nous tendons la Revision par Rensembles (RSR1 ) la fusion de bases de croyances propositionnelles, que nous appelons Fusion par R-ensembles (RSF2 ). Nous montrons comment la notion de R-ensemble, cest dire les sous1 RSR : Removed Set Revision en anglais 2 RSF : Removed Set Fusion en anglais
ensembles de clauses retirer pour restaurer la cohrence, initialement dnie dans le contexte de la rvision de bases de croyances [21, 29] est gnralise au cas de fusion de bases de croyances. Nous montrons ensuite comment les oprateurs classiques de fusion sont capturs dans ce cadre en associant chaque stratgie de fusion une relation de prfrence entre les sous-ensembles de clauses. Ces dix dernires annes, la programmation logique avec smantique des modles stables est apparue comme tant un outil efcace pour manipuler des systmes de raisonnement non-monotone. De plus, plusieurs systmes efcaces ont t dvelopps [9], [4], [22], [20], [18]. Nous proposons de formaliser la Fusion par R-ensembles dans le cadre de la programmation logique avec smantique des modles stables et dadapter le systme Smodels pour calculer les modles stables prfrs qui correspondent aux R-ensembles ce qui permet de dnir une mthode effective de fusion. Une tude exprimentale prliminaire permet dillustrer le comportement de RSF pour les stratgies Card et qui semble prometteur pour raliser la fusion sur des applications relles. Ce papier est organis comme suit. La section 2 xe les notations et donne un rappel sur la fusion, la Revision par Rensembles et la programmation logique avec smantique des modles stables. La section 3 prsente ensuite la Fusion par R-ensembles. La section 4 montre comment la Fusion par R-ensembles est mise en uvre dans la programmation logique avec smantique des modles stables et prsente une adaptation du systme Smodels pour le calcul des modles stables prfrs et la ralisation de la Fusion par R-ensembles. La section 5 prsente ensuite une premire tude exprimentale qui montre que cette implantation, grce la programmation logique avec smantique des modles stables, semble prometteuse
176
avant de conclure en section 6.
2 Prliminaires et notations
On considre un langage propositionnel L dni sur un alphabet P datomes. Un littral est un atome ou la ngation de cet atome. Les connecteurs usuels de la logique propositionnelle sont nots : , , et on note Cn la consquence logique. Une base de croyances K est un ensemble ni de formules propositionnelles dnies sur le langage propositionnel L. 2.1 Fusion Soit E = {K1 , . . . , Kn } un multiensemble de n bases de croyances cohrentes fusionner, E est appel ensemble de croyances. Les n bases de croyances K1 , . . . , Kn ne sont pas ncessairement diffrentes et lunion des bases de croyances prenant en compte la rptition est note ; la conjonction et la disjonction sont respectivement notes et . Pour simplier les notations, on note K lensemble de croyances constitu du singleton E = {K }. Lopration de fusion est dnie comme tant une fonction qui, chaque ensemble de croyances, associe une base de croyances cohrente, note (E ). Dans la littrature, (E ) est gnralement dnie de deux manires diffrentes : en tenant compte ou pas de lexistence dune priorit implicite. Ce papier ne tient pas compte des priorits implicites. Il y a deux faons immdiates de dnir (E ) selon que les sources sont conictuelles ou pas, la conjonction classique : (E ) = Ki E Ki dans le cas o les sources ne sont pas contradictoires et la disjonction classique : (E ) = Ki E Ki dans le cas de sources conictuelles. Entre ces deux cas opposs, plusieurs mthodes ont t proposes suivant limportance des diffrentes bases.
En particulier, les oprateurs classiques de fusion suivants ont t proposs. Loprateur de cardinalit, not Card [1], tient en compte du nombre de bases de croyances de E . Loprateur Somme, not [17, 23], suit le point de vue de la majorit. Loprateur Max [24] essaie de satisfaire au mieux toutes les bases de E . Loprateur Gmax [12], qui est un rafnement de loprateur Max. Diffrents postulats permettant de caractriser le comportement rationnel des oprateurs de fusion ont t proposs [12] et ces oprateurs ont t classs en deux familles : les oprateurs majoritaires et les oprateurs darbitrage. 2.2 La programmation logique avec smantique des modles stables Un programme logique normal P est un ensemble de rgles de la forme c a1 , . . . , an , not b1 , . . . , not bm o les c, ai (1 i n), bj (1 j m) sont des atomes et le symbole not reprsente la ngation par chec. Pour une rgle r comme ci-dessus, on introduit les notations te te(r) = c et corps(r) = {a1 , , an , b1 , , bm }. De plus, corps+ (r) = {a1 , , an } reprsente lensemble des atomes positifs prsents dans le corps et corps (r) = {b1 , , bm } en reprsente lensemble des atomes ngatifs. Enn, corps(r) = corps+ (r) corps (r). Soit r une rgle, r+ reprsente la rgle te te(r) corps+ (r), que lon obtient partir de r en supprimant tous les atomes ngatifs dans le corps de r. Un ensemble datomes X est clos sous un programme P ssi r P , te te(r) X lorsque corps(r) X . Le plus petit ensemble datomes qui est clos sous un programme P est not CN (P ). La rduction, ou transformation de
177
Gelfond-Lifschitz [10], P X , est un programme P qui est dni, relativement un ensemble X datomes, par : P X = {r+ | r P et corps (r) X = }. Un ensemble datomes X est un modle stable de P ssi CN (P X ) = X . Dnition 1. Soit L un ensemble de littraux et A un ensemble datomes. On dit que L couvre A ssi A Atome(L). Lexemple suivant permet dillustrer le concept de modle stable.
exemple. Les modles stables sont les consquences que lon peut tirer du programme logique. Soit P le programme logique constitu des trois rgles suivantes :
la taille de lespace de recherche en choisissant latome qui permet le plus de dductions. La fonction heuristic(A) tente de rduire le nombre datomes quil reste choisir et permet une dtection plus rapide des conits.
f p, not h
h p, not f
Algorithme 1 smodels(A) A expand(A) si conflict(A) alors renvoyer F aux sinon si A couvre Atome(E ) alors renvoyer V rai sinon x heuristic(A) si smodels(A {x}) alors renvoyer V rai sinon renvoyer smodels(A {not x}) nsi nsi
Pour le programme prcdent, les modles stables du programme P sont {p, h} et {p, f }. Contrairement la programmation logique standard, comme par exemple, PROLOG, o on dispose dun seul ensemble de consquences, appel modle minimal, (intersection des modles de Herbrand associs au programme) la programmation logique avec smantique des modles stables fournit plusieurs ensembles de consquences qui peuvent tre contradictoires et permet de formaliser le raisonnement non monotone. 2.3 Smodels Smodels est la premire et la plus simple des mthodes de calcul de modles stables [27]. Cest un algorithme de Branch and Bound (voir Algorithme 1) qui construit, au fur et mesure, un ensemble datomes A reprsentant un modle stable potentiel. Pour ce faire, il utilise les fonctions suivantes : expand(A) qui calcule les consquences immdiates de A, conflict(A) qui dtecte les conits qui peuvent se produire et heuristic(A) qui tente de rduire
178
2.4 Revision par R-ensembles Nous rappelons brivement lapproche Revision par R-ensembles (RSR). Lapproche RSR [29] traite de la rvision dun ensemble de formules propositionnelles par un ensemble de formules propositionnelles3 . Soient K et A deux ensembles nis de clauses. Lapproche RSR consiste choisir un ensemble minimal de clauses retirer de K , appel R-ensemble [21], an de restaurer la cohrence de K A. Plus formellement : Dnition 2. Soient K et A deux ensembles de clauses cohrents tels que K A est incohrent. R, un sous-ensemble de clauses de K , est un R-ensemble de K A ssi (i) (K \R) A est cohrent ; (ii) R K , si (K \R ) A est cohrent, alors | R || R | 4 .
3 partir de maintenant, on considre les formules propositionnelles dans leurs formes normales conjonctives (CNF) associes. 4 | R | reprsente le nombre de clauses de R.
On note R(K A) la collection des Rensembles de K A, la Revision par Rensembles est dnie comme suit : Dnition 3. Soient K et A deux ensembles de clauses cohrents. La Revision par R-ensembles est dnie par : K RSR A =def RR(K A) Cn((K \R) A).
R8 = {d, s, d o}. Ainsi que tous leurs sur-ensembles. Le nombre de R-ensembles Potentiels est exponentiel par rapport au nombre de clauses de E . Ainsi, seuls les R-ensembles Potentiels les plus pertinents, selon la stratgie P choisie, doivent tre slectionns. Pour cela, une relation de prfrence selon la stratgie P , note P , est dnie sur lensemble des R-ensembles potentiels et X P X signie que X est prfr X selon la stratgie P . Dnition 5. Soit E = {K1 , . . . , Kn } un ensemble de croyances tel que K1 . . . Kn est incohrent, X K1 . . . Kn est un R-ensemble de E selon P ssi 1. X est un R-ensemble Potentiel de E ; 2. Il nexiste pas de R-ensemble potentiel X K1 . . . Kn tel que X <P X . On note FP R(E ) la collection des Rensembles5 de E selon P . La Fusion par R-ensembles est dnie comme suit. Dnition 6. Soit E = {K1 , . . . , Kn } un ensemble de croyances. Lopration de fusion P (E ) est dnie par : P (E ) = {Cn(K1 . . . Kn \X )}
X FP R(E )
3 Fusion par R-ensembles

Nous proposons un nouveau cadre syntaxique, la Fusion par R-ensembles (RSF), qui consiste fusionner plusieurs bases de croyances propositionnelles. Lapproche consiste retirer un sous-ensemble des clauses de lunion des bases de croyances, daprs une stratgie P donne, dans le but de restaurer la cohrence. Ce cadre capture les oprateurs classiques de fusion et peut tre mis en uvre efcacement. Elle gnralise lapproche RSR que nous avons brivement rappele, et requiert donc la gnralisation de la notion de R-ensemble. Soient E = {K1 , . . . , Kn } un ensemble de croyances o Ki , 1 i n est une base de croyances cohrente et X, X deux sous-ensembles de K1 . . . Kn . Dnition 4. Soit E = {K1 , . . . , Kn } un ensemble de croyances tel que K1 . . . Kn est incohrent, X K1 . . . Kn est un R-ensemble Potentiel de E ssi (K1 . . . Kn )\X est cohrent. Soient 3 bases de croyances propositionnelles, K1 = {d, s o}, K2 = {s, d o, d o}, K3 = {s, d, o}.
Exemple.
Nous montrons maintenant comment capturer les oprateurs classiques de fusion dans notre cadre. 3.1 Reprsentation des oprateurs classiques de fusion avec RSF Les diffrentes stratgies de fusion correspondant aux oprateurs classiques peuvent tre captures grce une relation de prfrence dnie sur les R-ensembles Potentiels.
5 Si K 1
Les R-ensembles potentiels de E = {K1 K2 K3 } sont : R1 = {s o, d o, s, d, o} ; R2 = {s, d o, d, o} ; R3 = {d, s} ; R4 = {s, d} ; R5 = {d, s, o, s o} ; R6 = {d, o, s} ; R7 = {d, s, d o} ;
...
Kn est cohrent FP R(E ) = .
179
Loprateur Card. Loprateur Card est captur dans notre cadre comme suit :
Soient X et X deux R-ensembles Potentiels de E : X Card X ssi | X || X |. Soit FCard R(E ) la collection des Rensembles de E selon Card, lopration de fusion Card est reprsente par : Card (E ) = X FCard R(E ) {Cn((K1 . . . Kn )\X )} La stratgie Card minimise le nombre de clauses retirer de E et ne tient pas compte des rptitions. Elle est quivalente loprateur Comb4 dni dans [1].
Loprateur .
La stratgie Max essaie de rpartir au mieux les clauses retirer entre les bases de croyances de E et minimise le nombre de clauses retirer dans la base de croyance la plus implique dans lincohrence.
Lopration Gmax.
Loprateur Gmax est captur dans notre cadre comme suit : Pour chaque R-ensemble Potentiel X et chaque base de croyances Ki , on dnit E pi X =| X Ki |. Soit LX la squence 1 n (pX , . . . , pX ) trie par ordre dcroissant. Soient X et X deux R-ensembles Potentiels de E : X Gmax X ssi E 6 LE X <lex LX .
Loprateur est captur dans notre cadre comme suit : Soient X et X deux R-ensembles Potentiels de E : X X ssi 1in | X Ki | 1in | X Ki |.
Soit FGmax R(E ) la collection de R-ensembles de E selon Gmax, lopration de fusion Gmax est = reprsente par : Gmax (E ) { Cn (( K . . . 1 X FGmax R(E ) Kn )\X )} La stratgie Gmax est un rafnement de la stratgie Max, elle retire les clauses dans les bases de croyances daprs lordre dcroissant du nombre de clauses impliques dans lincohrence. Nous illustrons notre approche grce lexemple suivant, tir de [23]. Considrons la situation suivante : Un professeur demande ses lves quels langages, parmi les suivants, ils souhaitent tudier : SQL (not s), O2 (not o), Datalog (not d). Le premier souhaite tudier SQL ou O2 mais pas Datalog (K1 = {d, s o}). Le second veut tudier seulement Datalog ou O2 mais pas les deux (K2 = {s, d o, o d}). Le troisime veut tudier les trois (K3 = {s, d, o}). Dans cet exemple, le dcideur est le professeur, et les trois groupes dtudiants peuvent tre assimils trois agents. Le professeur doit prendre une dcision en respectant au mieux le choix des tudiants selon
Exemple.
6 On note < lex
Soit F R(E ) la collection de Rensembles de E selon , Lopration de fusion est reprsente par : (E ) = . . . Kn )\X )} X F R(E ) {Cn((K1 La stratgie minimise le nombre de clauses retirer de E en prenant en compte la rptition. Il est identique loprateur intersection dvelopp dans [25].
Loprateur Max. Loprateur Max est captur dans notre cadre comme suit :
Soient X et X deux R-ensembles potentiels de E : X max X ssi max1in | X Ki | max1in | X Ki | et X X . Soit FMax R(E ) la collection de Rensembles de E selon Max, lopration de fusion Max est reprsente par : Max (E ) = X FMax R(E ) {Cn((K1 . . . Kn )\X )}
180
lordre lexicographique
une stratgie donne. Soit E = {K1 K2 K3 } lensemble de croyances correspondant. Dans cette situation, le rsultat de la fusion sera : FCard R(E ) = {{s, d}, {s, d}} and Card (E ) = {{d, s o, d o, o d, s, o}, {d, s o, s, d o, o d, o}} ; = FCard R(E ) F R(E ) (E ) = Card (E ) ; and
4.1 La traduction en un programme logique Soit E = {K1 , . . . , Kn } un ensemble de croyances. Lensemble de tous les littraux positifs de PE est not V + . Lensemble de tous les littraux ngatifs de PE est not V . Lensemble de tous les atomes reprsentant les clauses sont dnis par R+ = i i | c Ki } et CL(rc ) reprsente les {rc i dans PE , clauses de Ki correspondant rc + i i ) = c. autrement dit rc R , CL(rc chaque modle stable S de PE , nous associons le R-ensemble Potentiel CL(R+ S ). 1. Dans la premire tape, nous introduisons des rgles permettant de construire une bijection entre les modles stables de PE et les interprtations de V + . Pour chaque atome, a V + on introduit deux rgles : a not a et a not a o a V est latome ngatif correspondant a. 2. Dans la seconde tape, nous excluons les modles stables S qui correspondent aux interprtations qui ne sont pas des modles de (K1 . . . Kn )\Ci avec Ci = {c | rc S }. Pour chaque clause c of Kj telle que c = bo . . . bn bn+1 . . . bm , j on introduit la rgle suivante rc bo , . . . , bn , bn+1 , . . . , bm . Cette traduction permet de gnrer lensemble des modles possibles ainsi que les ensembles de rgles qui leurs sont associs. Grce au traitement dcrit dans la section 4.2, nous pourrons dnir quels sont les ensembles prfrs selon la stratgie choisie. Elle est diffrente de celle propose dans [3] pour RSR car nous considrons uniquement les atomes positifs R+ reprsentant les clauses.
Exemple. Soit E = {K1 K2 K3 } dni dans lexemple. Nous avons :
FMax R(E ) = {{s, d}} and Max (E ) = {{d, s o, d o, o d, s, o}} ; FGmax R(E ) = {{s, d}} and Gmax (E ) = {{d, s o, d o, o d, s, o}}. Nous prsentons maintenant une implantation de lapproche RSF pour les stratgies Card et .
4 Mise en uvre de RSF par la programmation logique avec smantique des modles stables
Nous montrons maintenant comment construire un programme logique, not PE , tel que les modles stables prfrs de PE correspondent au R-ensembles de E . Dabord, nous montrons comment traduire la Fusion par R-ensembles en un programme logique, dans le mme esprit que [20], an dobtenir une bijection entre les modles stables de PE et les R-ensembles Potentiels de E . Puis, nous dnissons la notion de modle stable prfr an de raliser la Fusion par R-ensembles.
181
V + = {s, d, o} ; Preuve. La proposition prcdente peut tre rexprime comme {CL(S R+ ) | V = {s , d , o } ; + 1 1 2 2 2 3 3 3 S est un modle stable prfr selon P } = R = {rd , rso , rs , rdo , rdo , rs , rd , ro }. La traduction en un programme logique FP R(E ). Pour simplier, la preuve ne PE correspondant au problme de fusion sera donne que pour Card, la trame reste identique pour . est la suivante : s not s d not d s not s d not d o not o o not o 1 1 2 rs r r d d o s , o s s 2 2 3 s rdo d , o rdo d, o rs 3 3 rd d ro o Soit S un ensemble datomes, on dnit IS comme tant IS = {a | a S } {a | a S }. La proposition suivante tablit la correspondance entre les modles stables de PE et les interprtations de (K1 . . . Kn )\CL(R+ S ). Proposition 1. Soit E = {K1 , . . . , Kn } un ensemble de croyances. Soit S V un ensemble datomes. S est un modle stable de PE ssi IS est une interprtation de V + qui satisfait (K1 . . . Kn )\CL(R+ S ). An de calculer les modles stables correspondant aux R-ensembles, nous introduisons la notion de modles stables prfrs daprs une stratgie P . Dnition 7. Soit PE un programme logique. Soient S et S deux ensembles datomes de PE . S est un modle stable prfr de PE selon P ssi : 1. S est un modle stable de PE ; 2. Pour chaque modle stable S de PE , S nest pas prfr S selon P . La correspondance entre les modles stables prfrs et les R-ensembles est donne par la proposition suivante pour les stratgies Card et . Proposition 2. Soit E = {K1 , . . . , Kn } un ensemble de croyances. X est un Rensemble de E selon la stratgie P ssi il existe un modle stable prfr S de PE selon P tel que CL(R+ S ) = X .
182
On cherche donc prou| ver que {CL(S R+ ) S est un modle stable prfr selon P } = FCard R(E ). Dans un premier temps, on | montre que {CL(S R+ ) S est un modle stable prfr selon P } FCard R(E ). Pour cela, on suppose quil existe un ensemble S appartenant lensemble des modles stables prfrs de PE selon Card et quil est impossible que le R-ensemble potentiel correspondant ne fasse pas partie des R-ensembles de E selon Card. Ainsi, on pose X = CL(S R+ ). Par la proposition 1, (K1 . . . Kn )\X est cohrent. Supposons maintenant que X nappartienne pas FCard R(E ), il existe donc X tel que (K1 . . . Kn )\X est cohrent et X <Card X . On peut en dduire quil existe une interprtation IS sur lensemble des atomes de E qui satisfait (K1 . . . Kn )\X . S est le modle stable associ X et S = {a : a IS } {a : a IS } {rc : c X }. On sait que X = CL(S R+ ) et, par la proposition 1, que S est un modle stable de PE . Cela entraine que S est prfr S car |X | = |S R+ | ce qui est contradictoire avec lhypothse que S est un modle stable prfr. On montre maintenant que FCard R(E ) {CL(S R+ ) | S est un modle stable prfr selon P }. X est un R-ensemble de E donc (K1 ... Kn )\X est cohrent. Il existe donc une interprtation IS sur lensemble des atomes de E qui satisfait (K1 . . . Kn )\X . On note S le modle stable de PE correspondant X . Par la proposition 1, on sait que S est un
modle stable de PE . Supposons que S ne soit pas un modle stable prfr de PE selon Card, cela suppose quil existe S tel que |CL(S R+ )| = |S R+ | < |CL(S R+ )| = |S R+ |. Mais X = CL(S R+ ) et (K1 . . . Kn )\X est cohrent. X nappartiendrait donc pas FCard R(E ) ce qui est contraire lhypothse. Soit PE le programme logique correspondant lexemple prcdent. La collection des modles stables prfrs de PE selon les stratgies Card et 2 3 est : {S1 = {s, d , o, r s , rd }, S2 = 3 3 {s , d , o, rs , rd }}.
Exemple.
2. Linterprtation qui correspond A est complte et A est aussi prfr que les meilleurs modles stables dj calculs. Dans ce cas, A est ajout la collection des modles stables candidats ; 3. Linterprtation qui correspond A est complte et A est prfr aux modles stables prcdemment calcules. Dans ce cas, la collection constitue par le singleton A remplace la collection des modles stables candidats. Une autre adaptation de Smodels concerne lheuristique originale heuristic(A). Si un atome a est choisi, alors latome a ne peut plus tre dduit. Les seuls autres atomes pouvant tre dduit sont ceux qui repri . sentent les rgles rc Lutilisation de lheuristique standard i conduit maximiser le nombre de rc dduit, ce qui est contradictoire avec les objectifs de RSF et ne tend pas tirer prot de la rduction de lespace de recherche. Nous modions cette heuristique an de slectionner les atomes qui minimisent le nombre datomes dduits. De cette manire, le premier modle stable aura plus de chances dtre un modle stable prfr daprs la stratgie choisie. Cette nouvelle fonction est appele mheuristic(A). Les adaptations de lalgorithme original de Smodels consistent : (i) ne pas calculer des sous-ensembles de R+ conduisant des modles stables qui retirent plus de clauses que les meilleurs modles dj calculs ; (ii) ne pas calculer plusieurs fois les mmes sous-ensembles de littraux de R+ ; (iii) tirer avantage dlagages dans larbre de recherche.
= Etant donn que R+ 1 1 2 2 2 3 3 3 , rd , ro } les {rd , rso , rs , rdo , rdo , rs R-ensembles sont CL(R+ S1 ) = {s, d} et CL(R+ S2 ) = {s, d}. 4.2 Calcul des modles stables prfrs : lalgorithme rsf Lalgorithme rsf calcule les modles stables prfrs correspondant aux Rensembles. Cet algorithme est une modication de celui de Smodels qui slectionne les modles stables prfrs selon la stratgie P choisie. Il construit, tape par tape, une collection de modles stables candidats. la n du calcul, cette collection contient tous les modles stables prfrs correspondant aux R-ensembles. La slection des modles stables prfrs est ralise grce la fonction ConditionP (A), o A est un ensemble datomes. Cette fonction compare le modle stable candidat A en cours ceux qui ont dj t calculs. Les trois comportements possibles de la fonction ConditionP (A) sont : 1. A ne peut plus conduire aucun modle stable prfr. Dans ce cas, le calcul est arrt et lalgorithme revient en arrire ;
5 Etude exprimentale prliminaire

Nous prsentons les rsultats dune tude exprimentale prliminaire sur lapproche RSF. Les tests ont t conduit sur un Cen183
trino cadenc 1,73GHz et quip dun 1GO de RAM. notre connaissance, il nexiste pas dautres implantations ralisant la fusion de bases de croyances propositionnelles, ni de plateforme de tests pour la fusion. Les tests prliminaires suivants ne sont pas assez exhaustifs pour conclure sur lefcacit de RSF. Nanmoins, ils montrent la viabilit de lapproche. An de pouvoir conclure sur lefcacit de RSF, nous devrons dvelopper une plateforme de tests plus complte. Les tests sont gnrs alatoirement daprs plusieurs paramtres : le nombre de bases (nb), le nombre de clauses dans chacune des bases (nc), le nombre de variables dans les bases (nv), la taille des clauses (sc) et un paramtre qui mesure quel point les bases diffrent les unes des autres (d). Les bases de tests sont construites comme suit. Nous construisons une interprtation I. Ensuite, nous gnrons alatoirement des clauses qui sont ajoutes si elles satisfont I. Dune base lautre, nous changeons linterprtation daprs le paramtre (d) qui reprsente le pourcentage de variables changes. Pour chaque ensemble de paramtres, nous avons test 10 ensembles de bases de tests diffrents. Un test est considr comme un chec si, au bout de 300 secondes, il na pas abouti. Nous conservons le temps dexcution moyen des tests russis. Les tableaux suivants prsentent le pourcentage de tests russis et, en secondes, le temps dexcution pour le calcul de tous les Rensembles. La table 1 montre le comportement de lalgorithme RSF pour 3 bases de clauses ternaires. Lapproche RSF ralise la fusion de 3 bases dans un temps raisonnable jusqu un total de 3000 clauses pour 8000 variables. En faisant varier nv/nc, la table 2 exhibe un pic de difcult lorsque nv/nc
184
Algorithme 2 rsf (A) A expand(A) si conflict(A) alors renvoyer F aux nsi si (1) ConditionP (A) = 1 alors renvoyer F aux sinon si A conduit un R-ensemble dj calcul alors renvoyer F aux sinon si A couvre Atome(E ) alors si (2) ConditionP (A) = 0 alors A est ajout lensemble des solutions renvoyer V rai sinon (3){A} devient lensemble des solutions renvoyer V rai nsi nsi x mheuristic(A) rsf (A {x}) rsf (A {not x})
nc 100 200 400 600 800 1200
nv Succes(%) T emps(s) 2, 1 100 1000 7, 2 100 2000 4000 100 37, 6 6000 100 105, 2 8000 100 221, 4 12000 0
dels. Une tude exprimentale prliminaire est prsente et les rsultats semblent prometteurs pour la ralisation de la fusion de bases de croyances sur des applications relles. Nous envisageons galement dimplanter RSF pour les stratgies Max et Gmax. Une exprimentation plus profonde devra tre conduite sur des applications relles an de pouvoir donner une valuation plus prcise des performances de lapproche RSF. Cette exprimentation sera conduite dans le cadre dun projet europen pour la fusion dinformation spatiale. De plus, le dveloppement dune plateforme de tests pour la fusion sera utile, non seulement pour tester RSF, mais, plus globalement, pour dautres futurs travaux portant sur limplantation des oprateurs de fusion. La Fusion par R-ensembles rend possible limplantation efcace des oprateurs classiques de fusion Card et , et, il gnralise RSR car la rvision de bases de croyances peut tre considre comme la fusion de deux bases de croyances lune tant prfre lautre [6]. De ce fait, RSR revient fusionner deux sources selon la stratgie Card. Notre cadre peut tre tendu dans plusieurs directions. Par exemple, permettre de grer les contraintes que la fusion de bases de croyances (E ) doit satisfaire ou la fusion de bases de croyances avec priorit. Un travail futur dtaillera la caractrisation smantique de la mthode de Fusion par R-ensembles. Cette caractrisation repose sur lensemble de clauses falsies de K1 . . . Kn par une interprtation. Selon la stratgie P de fusion choisie, un prordre peut tre dni sur les interprtations partir dune relation de prfrence, selon P , sur lensemble des clauses falsies de K1 . . . Kn .
185
TAB . 1 Resultats pour nb = 3, sc = 3 et d = 20%.
nc 400 400 400 200 200 200
nv Succes(%) T emps(s) 68, 7 40 200 13, 5 20 400 17, 5 70 800 2, 2 90 100 11, 1 90 200 2, 1 90 400
TAB . 2 Resultats pour nb = 3, sc = 3 et d = 20%. se rapproche de 1. En analysant le temps dexcution, nous avons observ que lheuristique permettant de choisir latome consomme beaucoup de temps et doit tre amliore encore.
6 Conclusion
Ce papier prsente une approche nouvelle pour raliser la fusion syntaxique de plusieurs bases de croyances propositionnelles et montre que les oprateurs classiques de fusion Card, , Max, Gmax, initialement dnis au niveau semantique peuvent tre capturs dans notre cadre syntaxique. Ce papier montre que RSF peut tre traduit de manire efcace en un programme logique avec smantique des modles stables pour les stratgies Card et et propose une implantation partir du systme Smo-
7 Remerciements
Ce travail a t ralis avec le soutien de Communaut Europenne travers le projet VENUS (contrat IST034924) du programme Information Society Technologies (IST) of the 6th FP of RTD. Les auteurs sont seuls responsables du contenu de cet article. Il ne reprsente pas lopinion de la Communaut Europenne et la Communaut Europenne nest pas responsable de lutilisation qui pourrait tre faite des donnes gurant dans cet article.
Rfrences
[1] Chitta Baral, Sarit Kraus, Jack Minker, and V. S. Subrahmanian. Combining knowledge bases consisting of rst order theories. In ISMIS, pages 92101, 1991. [2] S. Benferhat, D. Dubois, S. Kaci, and H. Prade. Possibilistic Merging and Distance-based Fusion of Propositional Information. AMAI02, 34((13)) :217252, 2002. [3] J. Bennaim, S. Benferhat, O. Papini, and E. Wrbel. An answer set programming encoding of prioritized removed sets revision : application to gis. In J. Alferes and Springer Verlag J. Leite, editors, Proc. of JELIA04, pages 604616, Lisbonne, Portugal, Septembre 2004. Lecture notes in Articial Intelligence. Logics for AI. [4] P. Cholewinski, V. Marek, A. Mikitiuk, and M. Truszczynski. Computing with default logic. AI, 112 :105 146, 1999. [5] L. Cholvy. Reasoning about merging information. Handbook of Defeasible Reasoning and Uncertainly Management Systems, 3 :233263, 1998. [6] J. Delgrande, D. Dubois, and J. Lang. Iterated revision as prioritized merging. In Proc. of KR06, pages 210 220, Windermere, GB, 2006.
186
[7] James Delgrande, Didier Dubois, and Jrme Lang. Iterated revision as prioritized merging. In International Conference on Principles of Knowledge Representation and Reasoning (KR), Lake District (UK), 02/06/200605/06/2006, pages 210220, http ://www.aaai.org/Press/press.php, 2006. AAAI Press. [8] D. Dubois, J. Lang, and H. Prade. Possibilistic Logic. in Handbook of Logic in Articial Intelligence and Logic Programming, 3 :439513, 1994. [9] T. Eiter, N. Leone, C. Mateis, G. Pfeifer, and F. Scarcello. the kr system dlv : progress report, comparison and benchmarks. In Proc. of KR98, pages 406417, 1998. [10] Michael Gelfond and Vladimir Lifschitz. The stable model semantics for logic programming. In Robert A. Kowalski and Kenneth Bowen, editors, Proc. of the Fifth Int. Conference on Logic Programming, pages 10701080, Cambridge, Massachusetts, 1988. The MIT Press. [11] S. Konieczny, J. Lang, and Pierre Marquis. Distance-based merging : A general framework and some complexity results. In Proc. of KR02, pages 97108, 2002. [12] S. Konieczny and R. Pino Prez. On the logic of merging. In Proc. of KR98, pages 488498, 1998. [13] Sbastian Konieczny. On the difference between merging knowledge bases and combining them. In Anthony G. Cohn, Fausto Giunchiglia, and Bart Selman, editors, KR2000 : Principles of Knowledge Representation and Reasoning, pages 135144, San Francisco, 2000. Morgan Kaufmann. [14] C. Lafage and J. Lang. Logical representation of preferences for group
[15]
[16] [17] [18] [19] [20]
[21]
[22]
[23]
[24]
decision making. In Proc. of KR00, pages 457468, Breckenridge, CO, 2000. Jrme Lang. Some representation and computational issues in social choice. In L. Godo, editor, European Conference on Symbolic and Quantitative Approaches to Reasoning with Uncertainty (ECSQARU05) - LNAI 3571, Barcelone, 06/07/05-08/07/05, pages 15 26, Berlin Heidelberg, juillet 2005. Springer-Verlag. L010. J. Lin. Integration of weighted knowledge bases. AI, 83 :363378, 1996. J. Lin and A. O. Mendelzon. Merging databases under constraints. IJCIS98, 7(1) :5576, 1998. T. Linke. More on nomore. In Proc. of NMR02, 2002. T. Meyer, A. Ghose, and S. Chopra. Syntactic representations of semantic merging operations, 2001. I. Niemel and P. Simons. An implementation of stable model and wellfounded semantics for normal logic programs. In Proc. of LPNMR97, pages 420429, 1997. O. Papini. A complete revision function in propositionnal calculus. In B. Neumann, editor, Proc. of ECAI92, pages 339343. John Wiley and Sons. Ltd, 1992. P. Rao, K. Sagonas, Swift, D. S. Warren, and J. Friere. Xsb : A system for efciently computing well-founded semantics. In Proc. of LPNMR97, pages 430440, 1997. P. Z. Revesz. On the semantics of theory change : arbitration between old and new information. 12th ACM SIGACT-SGMIT-SIGART symposium on Principes of Databases, pages 71 92, 1993. P. Z. Revesz. On the semantics of arbitration. Journal of Algebra and Computation, 7(2) :133160, 1997.
[25] R.Fagin, G.M.Kuper, J.D.Ullman, and M.Y.Vardi. Updating logical databases, 1986. [26] Konieczny S. and Pino Prez R. Propositionnal belief base merging or how to merge belief/goals coming from several sources and some links with social choice theory. European Journal of Operational Research, 160(3) :785802, 2005. [27] P. Simons. Extending and implementing the stable model semantics, 2000. [28] Meyer T., Ghose A., and Chopra S. Social choice, merging, and elections. In Proceedings of ECSQARU01, volume LNAI 1695, pages 466477, 2001. [29] E. Wrbel, R. Jeansoulin, and O. Papini. Revision : An application in the framework of gis. In Anthony G. Cohn, Fausto Giunchiglia, and Bart Selman, editors, Proc. of KR00, pages 505516, Breckenridge, Colorado, USA, April 2000. KR, inc., Morgan Kaufmann.
187
SBGM: Conciliation et mesures de conits

Sbastien Konieczny konieczny@cril.fr CRIL - CNRS, Universit dArtois, Lens, France Rsum : Nous proposons la dnition de nouveaux oprateurs de conciliation. Ces oprateurs sont bass sur un processus itratif de slection/affaiblissement des croyances/buts des agents, jusqu trouver un consensus (accord) entre les agents. Pour dnir un oprateur particulier, il faut donc choisir la fonction de slection et la fonction daffaiblissement. Dans les travaux prcdents la fonction de slection tait dnie arbitrairement. Nous proposons de prendre comme fonction de slection une mesure de conit base sur la valeur de Shapley, qui permet de dnir la part de conit imputable chaque agent. Cela mne une formalisation plus intuitive de ces processus de ngociation abstraits. Mots-cls : Ngociation, conciliation, mesure de conit Abstract: We propose to dene new conciliation operators. Those operators are based on an iterative selection/weakening process of the beliefs/goals of the agents, until a consensus (agreement) is found between the agents. To dene a particular operator, it just need to choose a choice function and a weakening function. In previous works the choice function was dened arbitrarily. We propose to take as choice function a measure of conict based on the Shapley value, that allows to dene the quantity of conict due to each agent. This leads to a more intuitive formalization of those abstract negotiation processes. Keywords: Negotiation, conciliation, measure of conict
thode effective pour raliser un processus de ngociation entre agents. Toutes ces approches ont en commun quelles peuvent tre vues comme un jeu entre les agents, contraint par un protocole x, o chaque agent propose quelque chose, et o les autres agents peuvent accepter ce qui a t propos, le contester, ou proposer une autre solution, etc. Ces protocoles de ngociation peuvent donc tre vus comme des jeux (non-coopratifs) information incompltes, puisque, comme les changes entre les agents seffectuent dans le cadre dun protocole x, le rsultat de la ngociation ne prend pas en compte lintgralit de lopinion de chaque agent, mais simplement ce qui a t dclar lors de linteraction. Cela signie en particulier que 1) il se peut quun accord optimal ne soit pas trouv parce que des points importants nont pas t voqus au cours de linteraction 2) le rsultat du processus de ngociation peut varier suivant lordre dans lequel les agents ont pris la parole. Ces problmes peuvent tre vus comme des dfauts inhrents ce genre de protocoles, qui ne peuvent pas garantir quun accord optimal est atteint. Une question intressante est de tenter de dnir ce que pourrait tre cet accord optimal. Il ny a pas de rponse dnitive cette question : ce quest le meilleur accord entre plusieurs agents qui poursuivent leurs propres buts est une des questions principales qui est tudie en thorie des jeux depuis des annes. Le problme de marchandage (bargaining problem [14]) peut tre considr comme la forme la plus pure/typique de la ngociation : parmi un ensemble dissues possibles1 un ensemble
1 Habituellement
1 Introduction
La ngociation se dnit comme un processus ayant pour but de trouver un accord entre diffrents agents. De nombreux protocoles de ngociation ont t proposs dans la littrature multi-agents. Beaucoup de ces protocoles sont bass sur largumentation, les jeux de dialogue, etc. La plupart de ces travaux sont descriptifs, cest--dire quils proposent une m-
on suppose que lensemble des issues est
189
SBGM: ___________________________________________________________________________ concialiation et mesures de conflits
de joueurs (deux dans le cas typique) doit se mettre daccord sur une issue. Sils narrivent pas se mettre daccord, le rsultat sera une issue dtermine lavance. Le problme est alors, tant donnes ces seules hypothses, de dterminer quel est le rsultat optimal/juste pour ce marchandage. Comme on peut sy attendre il ny a pas une unique dnition de cette optimalit, et cela laisse la place de nombreux concepts de solution [17]. Ce problme forme une partie centrale de la thorie des jeux coopratifs. Les jeux coopratifs, o les agents peuvent signer des accords, se distinguent des jeux non-coopratifs, o les agents doivent participer une interaction an de tenter datteindre le meilleur rsultat de leur point de vue. Il est connu que pour la plupart des jeux la solution cooprative est meilleure pour tous les agents que la solution non-cooprative. Les protocoles de ngociation usuels peuvent tre vus comme des jeux noncoopratifs. Une question intressante est donc dtudier quelle pourrait tre leur contrepartie en terme de jeux coopratifs. Cela permettrait de trouver de meilleures solutions quavec ces protocoles. Nous appelons ce type doprateurs des oprateurs de conciliation [4]. Cela ne signie pas que les oprateurs de conciliation sont meilleurs que les protocoles de ngociation. Ils peuvent trouver de meilleures solutions, mais en contrepartie ils ne prennent pas en compte les problmes de communication qui se posent lors dapplications relles, ils supposent que les agents fournissent lintgralit de leurs opinions et quils sont sufsamment coopratifs pour accepter quun autre agent dtermine quel est le rsultat. Ces hypothses sont trs fortes si lon considre des agents autonomes, nanmoins les oprateurs de conciliation peuvent tre vus comme une idalisation de la ngociation, lorsque les limitations imposes par limun ensemble compact (ferm et born) convexe.
plmentation ninterfrent pas avec la recherche de laccord optimal. Le problme de la modlisation de la ngociation commence tre tudi sous langle de la thorie du changement de croyances [1, 2, 3, 18, 13, 12, 10, 4]. Le problme est de dnir des oprateurs qui prennent comme donne un prol de croyances (i.e un multi-ensemble de bases de croyances exprimes en logique propositionnelle) et qui produisent un nouveau prol contenant moins de conits. Lide suivie dans [2, 3, 10] pour dnir des oprateurs de conciliation est dutiliser un processus itratif : chaque tape un ensemble dagents est slectionn. Ces agents doivent alors assouplir leur point de vue (i.e. affaiblir logiquement leur base). Ce processus sarrte lorsquun accord, appel consensus, est atteint. Plusieurs oprateurs intressants peuvent tre dnis lorsque lon xe la fonction de slection (la fonction qui slectionne les agents devant saffaiblir chaque tour) et la fonction daffaiblissement. Dans [10] la fonction de slection est base sur une notion de distance. Cela peut tre justi lorsque cette distance a un sens pour une application particulire, mais sinon, ce nest quun choix arbitraire. Ce que nous proposons dans cet article est dutiliser comme fonction de slection une mesure de conit, qui permettra de savoir la quantit de conit imputable chaque agent. Et les agents qui devront affaiblir leur point de vue seront donc ceux qui apportent le plus de conits. Nous montrerons que les mesures dincohrences existantes ne sont pas satisfaisantes pour cela, et nous utiliserons des mesures dincohrences bases sur la valeur de Shapley (un concept de solution issue de la thorie des jeux coopratifs) proposes rcemment [9]. Aprs une brve section prliminaire, nous introduirons le cadre des Belief Game Models la section 3. Section 4 nous don-
190
nerons les dnitions des principales mesures dincohrence et nous dnirons les mesures dincohrence de Shapley. Section 5 nous dnirons les oprateurs de Belief Game Models utilisant les valeurs dincohrence de Shapley. Nous conclurons avec quelques perspectives de ce travail section 7.
Deux prols 1 et 2 sont quivalents (1 2 ) si et seulement si il existe une bijection entre 1 et 2 tel que chaque base de 1 est logiquement quivalente son image dans 2 .
3 Belief Game Model

Dans [1, 2] Richard Booth introduit les Belief Negotiation Models, qui sont des oprateurs de conciliation qui permettent datteindre un consensus entre les agents grce un processus de slectionaffaiblissement. Cette approche est une abstraction intressante de la ngociation. Lide est que la ngociation a pour but de trouver un consensus entre plusieurs agents ayant des points de vue conictuels (i.e. des bases dont la conjonction est incohrente). Pour y parvenir certains agents devront affaiblir leur point de vue an de pouvoir parvenir un consensus (i.e des bases dont la conjonction est cohrente). Une itration de ce processus se compose dune tape de slection, o lon choisit les agents qui doivent affaiblir leur point de vue (on peut choisir lun agent aprs lautre, choisir les agents les plus problmatiques, etc.). Une fois cette slection effectue la seconde tape est daffaiblir les bases des agents choisis. Ce processus est itr jusqu ce quun consensus soit atteint. Ce travail a t repris dans [10], o une classe particulire doprateurs, les Belief Game Models (appels BGM dans la suite) a t dnie. Voir [10] pour les dtails sur le lien exact entre les Belief Negotiation Models et les BGM. Nous nous intresserons aux BGM dans la suite : Dnition 1 Une fonction de slection est une fonction g : E E telle que g () Si , alors g () t.q. Si , alors g () g ( )
191
2 Prliminaires
On considre un langage propositionnel L sur un alphabet ni P de variables propositionnelles. Une interprtation est une application de P vers {0, 1}. Lensemble de toutes les interprtations est not W . Une interprtation est un modle dune formule L si et seulement si elle la rend vraie au sens usuel. mod() dnote lensemble des modles de la formule , i.e. mod() = { W | |= }. Inversement, si X est un ensemble dinterprtations, form(X ) dnote la formule ( quivalence logique prs) dont lensemble des modles est X . est cohrente si et seulement si elle possde au moins un modle. Une base est une formule propositionnelle (ou un ensemble de formules propositionnelles considr conjonctivement), qui reprsente les croyances ou les buts dun agent (on parlera dopinion dans la suite). Soit n bases 1 , . . . , n , on appelle prol le multi-ensemble compos de ces n bases = (1 , . . . , n ) (on utilise un multi-ensemble car plusieurs agents peuvent avoir des bases identiques). On note la conjonction des bases de , cest--dire = 1 . . . n . On dit que le prol est cohrent, si est cohrent. Lunion sur les multi-ensembles est note et linclusion sous ensembliste est note . Le cardinal dun ensemble ou dun multi-ensemble est not #(E ). Soit K lensemble de toutes les bases cohrentes, et E lensemble de tous les prols nis non-vides.
La fonction de slection a pour but de determiner les agents qui doivent saffaiblir chaque itration. Comme la fonction daffaiblissement doit affaiblir les bases, et comme il ny a pas de base plus faible logiquement que la base tautologique, la seconde condition indique quau moins une base non tautologique doit tre slectionne. Cela signie donc qu chaque itration au moins une base sera affaiblie. La dernire condition est une condition danonymat (ou dindpendance la syntaxe), qui indique que la slection des bases affaiblir ne dpend que du contenu de ces bases et pas de leur nom, ou de la faon dont ce contenu est reprsent. Dnition 2 Une fonction daffaiblissement est une fonction : L L telle que : () Si (), alors Si , alors () ( ) La fonction daffaiblissement doit permettre daffaiblir logiquement la base des agents qui ont t slectionns. Les deux premires conditions assurent que la base sera remplace par une base strictement plus faible logiquement ( moins que la base soit dj une tautologie). La dernire condition est une condition dindpendance de syntaxe : le rsultat de la fonction daffaiblissement ne dpend que du contenu informationnel des bases, et pas de leur syntaxe. La fonction daffaiblissement stend sur les prols : soit un sous-ensemble de ,
Dans certains cas le rsultat de la ngociation doit obir certaines contraintes (contraintes physiques, normes, etc.). On supposera que ces contraintes dintgrit sont reprsentes par une formule propositionnelle, note . Un oprateur BGM est donc dni par : Dnition 3 La solution de la conciliation dun prol pour un BGM N = g, sous les contraintes dintgrit , not N (), est le prol N dni par : 0 = i+1 = g(i ) (i ) N est le premier i qui est cohrent avec La solution de la conciliation dun prol est donc le rsultat dun jeu bas sur les opinions/croyances des agents. A chaque itration certaines bases sont slectionnes pour tre affaiblies, jusqu ce quun consensus soit atteint. Voyons prsent deux exemples de fonctions daffaiblissement et deux familles de fonctions de slection. Dnition 4 Soit une base . La fonction daffaiblissement drastique oublie toutes les informations dune base, i.e. : () = . La fonction daffaiblissement par dilatation est dnie par : mod( ()) = { W | |= dH (, ) 1} o dH est la distance de Hamming entre interprtations, i.e. le nombre de variables propositionnelles sur lesquelles les deux interprtations diffrent. Soient deux interprtations et , alors dH (, ) = |{a P | (a) = (a)}|. Avant de donner des exemples de fonction de choix, nous avons besoin de quelques dnitions :
() =
()
\
Donc les seules bases qui sont affaiblies sont celles de , les autres bases ne changent pas.
192
Dnition 5 Une (pseudo)distance d entre deux bases est une fonction d : L L IN telle que d(, ) = 0 ssi et d(, ) = d( , ). Deux exemples de telles distances sont : dD (, ) = dH (, ) = 0 si 1 sinon
|=, |=
la cohrence (et donc du consensus) dans le prol. Les bases slectionnes sont alors celles qui ont le plus mauvais score par rapport ces sous-ensembles maximaux cohrents. Naturellement il y a plusieurs faons de dnir ce score, ce qui donne diffrentes fonctions. Dnition 8 Soit MAXCONS() lensemble des maxcons de , i.e. les sousensembles maximaux (pour linclusion ensembliste) cohrents de . Formellement, MAXCONS() est lensemble de tous les multi-ensembles M tels que : M , M |= et si M M , alors M |= . Dnition 9 Une fonction de slection base de formules g mc est dnie par : g mc () = {i | h(i , MAXCONS()) est minimal} On peut dnir de nombreuses telles fonctions, nous nen citerons quune. Dnition 10 hmc1 (, MAXCONS()) = #({M | M MAXCONS() et M }) Pour cette fonction de slection le score dune base est le nombre de maxcons auxquels cette base appartient. Illustrons prsent sur un exemple [16] quel est le comportement de quelques oprateurs BGM, les oprateurs g dH , , , g dH ,max , , et g mc1 , . Exemple 1 Considrons trois agents = {1 , 2 , 3 } avec les bases suivantes 1 = {b (a c)}, 2 = {(a b c) (a b c)},
193
min
dH (, )
Dnition 6 Une fonction dagrgation est une fonction f qui associe un entier naturel chaque tuple dentiers naturels satisfaisant les proprits de (nondcroissance), (minimalit) et d(identit). Si x y , alors f (x1 , . . . , x, . . . , xn ) f (x1 , . . . , y, . . . , xn ). (non-dcroissance) f (x1 , . . . , xn ) = 0 si et seulement si (minimalit) x1 = . . . = xn = 0. (identit) f (x) = x. On dit quun fonction dagrgation est symtrique si elle satisfait galement : Pour toute permutation , f (x1 , . . . , xn ) = f (x(1) , . . . , x(n) ) (symtrie) Dnition 7 Une fonction de slection symtrique base de modles g d,h est dnie par : g d,h () = {i | h(d(i , 1 ), . . . , d(i , n )) est maximale} o h est une fonction dagrgation symtrique, et d une distance entre bases. Ces fonctions de slection choisissent donc les bases qui sont les plus loin des autres, selon une distance dtermine. Une autre famille de fonctions de slection se base sur les sous-ensembles maximaux cohrents de bases. Ces sous-ensembles maximaux cohrents peuvent tre considrs comme les lments les plus proches de
3 = {a b c}. Pour les calculs donns ci-dessous il est plus simple de considrer ces bases comme lensemble de leurs modles : Mod(1 ) = {(1, 0, 0), (0, 0, 1), (1, 0, 1)}, Mod(2 ) = {(0, 1, 0), (0, 0, 1)}, Mod(3 ) = {(1, 1, 1)}. Il ny a pas de contraintes pour le rsultat, donc = . g dH , , : Comme nest pas cohrent, effectuons la premire itration. d(1 , 2 ) = 0, d(1 , 3 ) = 1, d(2 , 3 ) = 2. Donc h (1 ) = 1, h (2 ) = 2, dH , h () = (3 ) = 3. Cela donne g {3 }. Donc 3 est remplac par 31 = (3 ) = form({(1, 1, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1)}). Nous navons toujours pas obtenu un prol cohrent, il est ncessaire deffectuer une seconde itration. Calculons les nouvelles distances. d(1 , 2 ) = 0, d(1 , 31 ) = 0, d(2 , 31 ) = 1. Donc h (1 ) = 0, h (2 ) = 1, h (31 ) = 1. d H , Cela donne g () = {2 , 31 }, et 2 est remplac par 21 = (2 ) = form({(0, 1, 0), (0, 0, 1), (1, 1, 0), (0, 0, 0), (0, 1, 1), (1, 0, 1)}), et 31 est remplac par 32 = (31 ) = form({(1, 1, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1), (0, 1, 0), (1, 0, 0), (0, 0, 1)}). Nous avons atteint un prol cohrent, le rsultat est le donc le prol = {1 , 21 , 32 }, et la conjonction (consensus) est la base dont les modles sont {(0, 0, 1), (1, 0, 1)}. g dH ,max , : Comme nest pas cohrent, il faut effectuer une premire itration. d(1 , 2 ) = 0, d(1 , 3 ) = 1, d(2 , 3 ) = 2. Donc hmax (1 ) = 1, max hmax (2 ) = 2, h (3 ) = 2. Cela donne g dH ,max () = {2 , 3 }. Donc 2 est remplac par 21 = (2 ) = form({(0, 1, 0), (0, 0, 1), (1, 1, 0), (0, 0, 0), (0, 1, 1), (1, 0, 1)}), et 3 est remplac = form({(1, par 31 = (3 ) 1, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1)}). Le prol obtenu est cohrent, le rsultat est donc = {1 , 21 , 31 }, et le modle de
194
la conjonction est {(1, 0, 1)}. : nest pas cohrent, et = {{1 , 2 }, {3 }}. 1 mc1 1 hmc ( ) = h ( 2 ) = hmc 1 (3 ) = 1, et g mc1 () = . Il faut donc affaiblir les trois bases : 11 = (1 ) = form({(1, 0, 0), (0, 0, 1), (1, 0, 1), (0, 0, 0), (1, 1, 0), (0, 1, 1), (1, 1, 1)}), 21 = (2 ) = form({(0, 1, 0), (0, 0, 1), (1, 1, 0), (0, 0, 0), (0, 1, 1), (1, 0, 1)}), et 31 = (3 ) = form({(1, 1, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1)}). Ce prol est cohrent, le rsultat est donc = {11 , 21 , 31 }.
MAXCONS()
g mc1 ,
4 Mesures dincohrence de Shapley

Nous souhaitons utiliser comme fonction de slection pour les BGM, des fonctions prenant en compte la quantit de conit imputable chaque base. Ce seront donc les agents/bases qui posent le plus de problmes qui devront saffaiblir. Nous allons commencer par introduire les mesures dincohrences usuelles. Le problme est que ces mesures sont dnies pour une unique base/source/agent, et ne permettent pas dimputer chaque agent dun groupe sa part de conit. 4.1 Mesures dincohrences bases sur les variables Une mthode pour valuer lincohrence dun ensemble de formules est de regarder quelle est la proportion du langage concerne par lincohrence. Il nest donc pas possible dutiliser la logique classique cette n puisque lincohrence contaminerait lensemble de la base (et du langage). Mais si on compare les deux prols 1 = {a, a, b c, d} et 2 = {a, a, b c, c b, d, d}, on remarque que dans 1 lincohrence concerne principalement la variable a, alors que dans 2 toutes les variables sont incluses dans un conit. Cest
ce genre de distinctions que ces approches permettent. Une mthode an de circonscrire lincohrence aux variables directement concernes est dutiliser des logiques multivalues, et plus prcisment des logiques tri-values, avec une troisime valeur de vrit indiquant quil y a un conit sur la valeur de vrit (vrai ou faux) de la variable. Nous navons pas ici la place de dtailler lensemble des mesures qui ont t proposes, voir [5, 7, 11, 8, 6] pour plus dtails sur ces approches. Nous ne donnerons ici quun seul exemple de mesure, qui est un cas spcial des degrs de contradiction dnis dans [11]. Lide de la dnition de ces degrs est que, tant donn un ensemble de tests sur la valeur de vrit de certaines formules du langage (typiquement sur les variables propositionnelles), le degr de contradiction est le cot minimal (grossirement le nombre de tests ncessaires) dun plan de test qui assure de retrouver la cohrence. La mesure dnie ici est le nombre (normalis) minimum de variables propositionnelles ayant la valeur de vrit conictuelle dans les LPm -modles [15] de la base. Introduisons tout dabord la relation de LPm -consquence. Une interprtation pour LPm associe chaque variable propositionnelle une des trois valeurs de vrit F, B, T, la troisime valeur de vrit B signiant intuitivement la fois vrai et faux. 3P est lensemble de toutes les interprtations de LPm . Les valeurs de vrit sont ordonnes comme suit : F <t B <t T. ( ) = T, () = F () = B ssi () = B () = T ssi () = F ( ) = mint ( (), ( )) ( ) = maxt ( (), ( )) Lensemble des modles dune formule
est : ModLP () = { 3P | () {T, B}} On dnit ! comme lensemble des variables incohrentes dune interprtation w, i.e. ! = {x P | (x) = B}. Les modles minimaux dune formule sont alors les plus classiques : min(ModLP ()) = { ModLP () | ModLP () t.q. ! !} La relation de LPm -consequence est alors dnie par : |=LPm ssi min(ModLP ()) ModLP () Donc est une consequence de si tous les modles les plus classiques de sont des modles de . Les modles dun prol tant les interprtations qui sont modles de chacune de ses bases, on dnit la mesure dincohrence LPm , note ILPm : Dnition 11 Soit un prol . ILPm = minModLP () (| ! |) |P|
La mesure dincohrence dune base est donc dnie comme le nombre minimum de variables (divis par le nombre total de variables) concernes par une incohrence dans les LPm -modles de cette base. Ce qui signie intuitivement que la mesure dincohrence dune base exprime quel point le moins incohrent des modles de cette base est incohrent. Exemple 2 Soit 4 = {a, a, b c, b}. On trouve ILPm (4 ) = 2 3
Donc les mesures dincohrences bases sur les variables, comme celle-ci, permettent de dcrire nement la quantit de
195
conit dune base (ou dun prol), mais sont incapables de prendre en compte la distribution de ce conit entre les formules. En fait la mesure serait identique avec la base 4 = {a a b b c}. Cest un gros problme si on veut utiliser ces mesures pour les BGM, puisque nous voulons tre capables de savoir quelle est la part du conit imputable chaque formule (agent). A cette n, nous allons utiliser une notion issue de la thorie des jeux. 4.2 Jeux coalitionnels - Valeur de Shapley Dans cette section nous donnons la dnition des jeux coalitionnels et de la valeur de Shapley. Dnition 12 Soit un ensemble de n joueurs N = {1, . . . , n}. Un jeu coalitionnel est dni par une fonction v : 2N IR, telle que v () = 0. Ce cadre dnit un jeu dune manire trs abstraite, en se focalisant sur les diffrentes coalitions possibles. Une coalition est juste un sous-ensemble de N . Cette fonction exprime le gain que peut obtenir chaque coalition dans le jeu v lorsque tous ses membres cooprent. Le problme est alors de savoir comment ce gain doit tre partag entre les joueurs2 Expliquons ceci sur un exemple. Exemple 3 Soit N = {1, 2, 3}, et soit le jeu coalitionnel v suivant : v ({1}) = 1, v ({1, 2}) = 10, v ({2}) = 0, v ({1, 3}) = 4, v ({3}) = 1, v ({2, 3}) = 11, v ({1, 2, 3}) = 12
2 On se place ici dans le cas dutilits transfrables (TU), cest--dire quon suppose que lutilit est une unit commune tous les joueurs et quelle est partageable lenvie (grossirement on peut la voir comme une monnaie).
La grande coalition (forme de tous les joueurs) peut apporter 12 aux trois joueurs. Cest la plus grande utilit atteignable par le groupe. Mais ce nest pas le but principal de chacun des joueurs. En particulier on peut remarquer que deux coalitions peuvent apporter quasiment autant : la coalition {1, 2} donne 10 et la coalition {2, 3} apporte 11, qui ne doivent tre partags quentre deux joueurs. On peut galement remarquer que tous les joueurs ne partagent pas la mme situation dans ce jeu. En particulier le joueur 2 est toujours dun grand intrt pour toute coalition quil rejoint. Il semble donc en position desprer un meilleur gain que les autres joueurs dans ce jeu. Par exemple il peut proposer au joueur 3 de former la coalition {2, 3}, ce qui apporte 11, qui seraient partags en 8 pour le joueur 2 et 3 pour le joueur 3. Comme il sera difcile pour le joueur 3 de gagner plus que cela avec une autre coalition, il sera tent daccepter. Un concept de solution pour les jeux coalitionnels doit prendre en compte ce genre darguments. Cela signie que si lon dsire rsoudre ce jeu en dnissant quel est lutilit qui est due chaque agent, cela ncessite dtre capable de quantier lutilit quun agent est en droit de revendiquer tant donn le pouvoir que lui confre sa position dans le jeu. Dnition 13 Une valeur est une fonction qui associe chaque jeu v un vecteur dutilit S (v ) = (S1 , . . . , Sn ) dans IRn . Cette fonction donne lutilit que peut esprer chaque agent i dans le jeu v , cest dire quelle mesure, en un sens, le pouvoir de i dans le jeu v . Shapley propose une solution ce problme en dnissant une valeur dont lide peut tre explique comme suit : On considre que les coalitions se forment suivant un ordre donn (un premier joueur
196
entre dans la coalition, puis un second, etc.), et que lutilit impute chaque joueur est son utilit marginale (cest-dire lutilit quil apporte la coalition existante), donc pour une coalition C qui ne contient pas i, lutilit marginale de i est v (C {i}) v (C ). Comme on ne peut faire a priori aucune hypothse sur lordre dans lequel les coalitions se forment, on suppose quils sont tous quiprobables. Cela mne la formule suivante :
Si (v ) = (c 1)!(n c)! (v (C ) v (C \ {i})) n!
C N
Dnition 14 Une mesure dincohrence I est appele mesure dincohrence basique si elle satisfait les proprits suivantes : I () = 0 ssi est consistant (Consistance) 0 I ( ) 1 (Normalisation) I ( ) I () (Monotonie) 3 Si est une formule libre de {}, alors I ( {}) = I () (FFI) Si et , alors I ( {}) I ( { }) (Dominance) La proprit de consistance impose quune base consistante a un degr dincohrence nul. La proprit de monotonie exprime le fait que la quantit de conit dune base ne peut quaugmenter lorsquon ajoute de nouvelles formules (construites sur le mme langage). La proprit FI indique quajouter une formule qui napporte aucun conit dans la base ne change pas le degr de conit. La proprit de dominance exprime le fait que ce sont les formules logiquement fortes qui sont susceptibles de gnrer le plus de conits. La proprit normalisation nest pas aussi indispensable que les autres, elle nest l que pour simplier lexpression des degrs. On peut prsent dnir les valeurs dincohrences de Shapley [9] : Dnition 15 Soit une mesure dincohrence basique I . La valeur dincohrence de Shapley (SIV) correspondante, note SI , est dnie comme la valeur de Shapley du jeu coalitionnel dni par la fonction I , i.e. en notant n la cardinalit de et c la cardinalit de C , soit :
SI () = (c 1)!(n c)! (I (C ) I (C \ {})) n! C
o c est la cardinalit de C . Exemple 4 La valeur de Shapley du jeu dni dans lexemple 3 est ( 17 , 35 , 20 ). 6 6 6
Ces valeurs montrent que cest le joueur 2 qui a la meilleure position dans ce jeu, comme nous lavions expliqu intuitivement lorsque nous avons donn lexemple 3. 4.3 Mesures dincohrences utilisant la valeur de Shapley Etant donn une mesure dincohrence, lide est de lutiliser comme la fonction dnissant un jeu coalitionnel, et ensuite dutiliser la valeur de Shapley pour calculer la part de conit qui peut tre impute chaque base du prol [9]. Cela permet de combiner la puissance des valeurs dincohrences bases sur les variables et dutiliser la valeur de Shapley pour connatre la part de responsabilit de chaque formule. On ne demande que quelques proprits la mesure dincohrence.
formule libre dune base K est une formule de K qui nappartient aucun sous-ensemble minimal inconsistant de la base.
3 Une
197
Notons que cette SIV donne une valeur pour chaque base du prol , donc si on considre la base comme le vecteur = (1 , . . . , n ), alors SI () exprime le vecteur de la SIV correspondant, i.e.
SI () = (SI (1 ), . . . , SI (n ))
adquate pour slectionner les bases qui devront saffaiblir. Une SIV indique quelle part du conit global est imputable chaque agent. La fonction de slection choisit alors les agents les plus conictuels, et la base de ces agents est alors affaiblie laide de la fonction daffaiblissement. Dnition 16 Un Shapley Belief Game Model (SBGM) est un BGM N = SI , , o SI est une SIV. La solution dun prol pour un SBGM N = SI , sous les contraintes dintgrit , not N (), est le prol N dni par : 0 = i+1 = argmax(SI (i )) (i ) N est le premier i qui est cohrent avec Voyons prsent un exemple de SBGM. Exemple 6 Considrons le SBGM N = SILPm , . Soient trois agents = {1 , 2 , 3 } avec les bases suivantes : 1 = {b (a c)}, 2 = {(a b c) (a b c)}, 3 = {a b c}. Comme calcul exemple 5, on a 1 4 SILPm (1 ) = 18 , SILPm (2 ) = 18 , 7 et SILPm (3 ) = 18 . La valeur maximale est celle de SILPm (3 ), donc 3 est lagent le plus conictuel, il est donc choisi pour laffaiblissement. 31 = (3 ) = form({(1, 1, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1)}). Nous navons toujours pas atteint un prol cohrent cette tape, il faut donc recommencer le processus. Les nouvelles valeurs dincohrence sont : SILPm (1 ) = 0, SILPm ( 2 ) = 1 , et SILPm (31 ) = 1 . 6 6 Les deux bases les plus problmatiques sont ici 2 et 31 , elles doivent donc tre affaiblies. 2 est remplac par
Voyons cela sur lexemple suivant 1. Exemple 5 Considrons trois agents = {1 , 2 , 3 } avec les bases suivantes 1 = {b (a c)}, 2 = {(a b c) (a b c)}, 3 = {a b c}. Alors ILPm (1 ) = ILPm (2 ) = ILPm (3 ) = ILPm ({1 , 2 }) = 0. 1 ILPm ({1 , 3 }) = 3 , ILPm ({2 , 3 }) = 2 , 3 2 ILPm ({1 , 2 , 3 }) = 3 .
Donc SILPm (1 ) = 7 SILPm (3 ) = 18 .
1 , 18
SILPm (2 ) =
4 , 18
et
Donc, daprs cette valeur dincohrence de Shapley, cest lagent 3 qui gnre le plus de conits dans le groupe (prol), et 1 est lagent le moins problmatique. A notre connaissance, les SIV sont les seules valeurs dincohrences qui permettent de discriminer nement les incohrences, en examinant la proportion du langage implique dans les incohrences, tout en dcrivant la distribution du conit entre les diffrentes bases/formules. Voir [9] pour plus de dtails sur les proprits de ces valeurs dincohrences. Voyons prsent comment utiliser cette ide pour dnir des oprateurs BGM.
5 Shapley Belief Game Model

Lide est donc de dnir des BGM qui utilisent une SIV comme fonction de slection, an de disposer dune mthode plus
198
21 = (2 ) = form({(0, 1, 0), (0, 0, 1), (1, 1, 0), (0, 0, 0), (0, 1, 1), (1, 0, 1)}), et 31 est remplac par 32 = (31 ) = form({(1, 1, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1), (0, 1, 0), (1, 0, 0), (0, 0, 1)}). Un prol cohrent est obtenu, le rsultat est donc = {1 , 21 , 32 }.
(free) Si i est une base libre4 de , alors i = i . Dans [12] Meyer et al. dnissent des oprateurs de concession (qui sont des oprateur de conciliation dnis uniquement pour 2 agents). Leurs oprateurs satisfont les proprits de Booth (sc1), (sc2), et (sc3). Ils demandent galement deux proprits supplmentaires. Reformules avec nos notations, cela donne, avec = {1 , 2 } :
(C5) Si 1 2 est consistant alors 1 . 1 2 2 (C6) Si 2 est consistant et 2 1 1 nest pas consistant, alors 1 2 (1 2 ) nest pas consistant.
6 Proprits des SBGM

Il ny a pas de caractrisation logique gnrale des oprateurs de conciliations, nanmoins certains auteurs ont tudi des proprits doprateurs de conciliation particuliers. Par exemple Booth dnit les oprateurs de contraction sociale laide des proprits suivantes (nous reformulons ces proprits avec nos notations, voir [3] pour la formulation originale). Notons = {1 , . . . , n } le prol initial et = { 1 , . . . , n } le prol obtenu par contraction sociale. Pour simplier on ne considrera que le cas sans contraintes dintgrit ici. (sc1) i , i i (sc2) est consistant (sc3) Si est consistant, alors = Il est facile de montrer que : Proposition 1 Tout SBGM satisfait (sc1), (sc2), et (sc3). Booth propose galement des proprits supplmentaires, comme par exemple : (sc5) Si i ,j =i j est cohrent, j alors i = i (sc5) nest pas satisfait par les SBGM, mais cette proprit est montre trop contraignante dans [3]. SBGM satisfont la proprit plus faible :
Les auteurs justient ces deux proprits par des arguments dquit entre agents. Le rsultat de la concession ( 1 2 ) doit tre soit incohrent avec les bases originales (1 2 ), ou il doit impliquer leur conjonction. Ces proprits semblent apporter une certaine quit entre les agents (par exemple le rsultat de la concession ne peut pas tre consistant avec seulement une des bases initiales). Mais cela est obtenu avec des conditions trs restrictives. Il est soulign dans [13] que les BNM de Booth ne satisfont pas ces proprits. Les SBGM, qui sont un cas particulier de BNM, ne les satisfont pas non plus.
7 Perspectives
Ce travail est un premier pas vers ltude des oprateurs de conciliation et des SBGM. Il reste beaucoup faire. Il serait intressant par exemple de caractriser logiquement les oprateurs de conciliation, comme des oprateurs abstraits de ngociation. Plus spciquement, il serait
4 Une base libre K de est une base qui appartient tout sous-ensemble maximal (pour linclusion ensembliste) consistant de .
199
intressant dtudier plus prcisment les proprits logiques des SBGM. Une autre question intressante est de dterminer si les SBGM sont implmentables, ou approximables, par un protocole de ngociation. Remerciements Ce travail a bnci du nancement de la rgion Nord-Pas-de-Calais et du FEDER.
Rfrences
[1] R. Booth. A negotiation-style framework for non-prioritised revision. In Proc. of TARK01, pages 137150, 2001. [2] R. Booth. Social contraction and belief negotiation. In Proc. of KR02, pages 374384, 2002. [3] R. Booth. Social contraction and belief negotiation. Information Fusion, 7(1) :1934, 2006. [4] O. Gauwin, S. Konieczny, and P. Marquis. Conciliation and consensus in iterated belief merging. In Proc. of ECSQARU05, pages 514526, 2005. [5] J. Grant. Classications for inconsistent theories. Notre Dame Journal of Formal Logic, 19 :435444, 1978. [6] J. Grant and A. Hunter. Measuring inconsistency in knowledgebases. Journal of Intelligent Information Systems, 2006. [7] A. Hunter. Measuring inconsistency in knowledge via quasi-classical models. In Proc. of AAAI2002, pages 6873, 2002. [8] A. Hunter and S. Konieczny. Approaches to measuring inconsistent information. In Inconsistency Tolerance, volume LNCS 3300, pages 189234. Springer, 2005.
200
[9] A. Hunter and S. Konieczny. Shapley inconsistency values. In Proc. of KR06, pages 249259, 2006. [10] S. Konieczny. Belief base merging as a game. Journal of Applied Non-Classical Logics, 14(3) :275 294, 2004. [11] S. Konieczny, J. Lang, and P. Marquis. Quantifying information and contradiction in propositional logic through epistemic tests. In Proc. of IJCAI03, pages 106111, 2003. [12] T. Meyer, N. Foo, D. Zhang, and R. Kwok. Logical foundations of negotiation : Outcome, concession and adaptation. In Proc. of AAAI04, pages 293298, 2004. [13] T. Meyer, N. Foo, D. Zhang, and R. Kwok. Logical foundations of negotiation : Strategies and preferences. In Proc. of KR04, pages 311318, 2004. [14] J. Nash. The bargaining problem. Econometrica, 28 :155162, 1950. [15] G. Priest. Minimally inconsistent LP. Studia Logica, 50 :321331, 1991. [16] P. Revesz. On the semantics of arbitration. International Journal of Algebra and Computation, 7 :133160, 1997. [17] W. Thomson. Handbook of Game Theory with Economic Applications, volume 2, chapter Cooperative Models of Bargaining, pages 1237 1284. North-Holland, 1994. [18] D. Zhang, N. Foo, T. Meyer, and R. Kwok. Negotiation as mutual belief revision. In Proc. of AAAI04, pages 317322, 2004.
Application de la thorie de la rvision ladaptation en raisonnement partir de cas : ladaptation conservatrice

J. Lieber lieber@loria.fr LORIA (UMR 7503 CNRS INRIA Universits de Nancy), BP 239, 54 506 Vanduvre-ls-Nancy, FRANCE Rsum : Le raisonnement partir de cas a pour objectif de rsoudre un problme par adaptation de la solution dun problme dj rsolu qui a t slectionn dans une base de cas. Cet article prsente une approche de ladaptation appele adaptation conservatrice et qui consiste garder le plus possible de la solution adapter, tout en assurant la consistance avec le contexte du problme rsoudre et les connaissances du domaine. Cette ide peut tre lie la thorie de la rvision : la rvision dune ancienne base par une nouvelle consiste effectuer un changement minimal sur la premire tout en tant cohrent avec la deuxime. Cela conduit une formalisation de ladaptation conservatrice sur la base dun oprateur de rvision en logique propositionnelle. Puis, cette thorie de ladaptation conservatrice est confronte une application laide la dcision partir de cas en cancrologie : un problme de cette application est la description dun patient atteint dun cancer du sein et une solution, une recommandation thrapeutique. Des adaptations effectues par des experts qui peuvent tre modlises par des adaptations conservatrices sont prsentes. Ces exemples montrent par exemple une faon dadapter des traitements contre-indiqus ou des traitements inapplicables. Mots-cls : raisonnement partir de cas, raisonnement partir de cas et de connaissances du domaine, adaptation, adaptation conservatrice, thorie de la rvision, reprsentation logique des cas, application en cancrologie Abstract: Case-based reasoning aims at solving a problem by the adaptation of the solution of an already solved problem that has been retrieved in a case base. This paper denes an approach to adaptation called conservative adaptation; it consists in keeping as much as possible from the solution to be adapted, while being consistent with the context of the problem to be solved and with the domain knowledge. This idea can be related to the theory of revision: the revision of an old knowledge base by a new one consists in making a minimal change on the former, while being consistent with the latter. This leads to a formalization of conservative adaptation based on a revision operator in propositional logic. Then, this theory of conservative adaptation is confronted to an application of case-based decision support to oncology: a problem of this application is the description of a patient ill with breast cancer, and a solution, a therapeutic recommendation. Examples of adaptations that have actually been performed by experts and that can be captured by conservative adaptation are presented. These examples show a way of adapting contraindicated treatment recommendations and treatment recommendations that cannot be applied. Keywords: case-based reasoning, knowledgeintensive case-based reasoning, adaptation, conservative adaptation, theory of revision, logical representation of cases, application to oncology
1 Introduction
Le raisonnement partir de cas (R PC [21]) a pour objectif de rsoudre un problme laide dun ensemble de problmes dj rsolus. Le problme rsoudre sappelle problme cible, dnot par cible dans cet article, et les problmes dj rsolus sont les problmes sources, dnots par srce. Un cas est la reprsentation dun pisode de rsolution de problme, cest--dire quil reprsente au moins un problme pb et une solution Sol(pb) de pb : un tel cas est dnot par un couple (pb, Sol(pb)). Un problme source, srce, est un problme qui a dj t rsolu en une solution Sol(srce). Le couple (srce, Sol(srce)) est un cas source et lensemble des cas sources est la base de cas. On distingue classiquement trois tapes du R PC : la remmoration, ladaptation et la mmorisation. La remmoration slectionne un cas source (srce, Sol(srce)) jug simi201
Application ___________________________________________________________________________ de la thorie de la rvision [...]
laire cible, selon un certain critre de similarit. Ladaptation a pour objectif de rsoudre cible en sappuyant sur le cas remmor (srce, Sol(srce)). Ainsi, une adaptation qui russit donne une solution Sol(cible) de cible, en gnral par modication de Sol(srce). Finalement, la mmorisation value lutilit de stocker le nouveau cas (cible, Sol(cible)) dans la base de cas et le stocke effectivement, si cest utile. Les approches knowledge intensive ( dfaut de trouver une traduction satisfaisante) du R PC sont celles pour lesquelles les connaissances du domaine jouent un rle fondamental (et pas uniquement la base de cas) [1]. Cest le cas pour ladaptation conservatrice, comme nous allons le voir ci-dessous.
Le R PC et ladaptation. En gnral, on considre que le R PC sappuie sur le
ladaptation est la suivante : Sol(cible) est obtenue en gardant de Sol(srce) le plus possible tout en conservant la cohrence. (adaptation conservatrice) Ladaptation conservatrice tend respecter le principe du R PC au sens o elle tend rendre la similarit T (Sol(srce), Sol(cible)) maximale. La section 2 dcrit le principe de ladaptation conservatrice plus en dtail. Elle fait le lien entre cette approche de ladaptation et la thorie de la rvision : les deux sappuient sur la notion de changement minimal. La section 3 prsente les principes de base de la thorie de la rvision. Cette thorie consiste en un ensemble de postulats quun oprateur de rvision doit satisfaire. La section 4 donne une formalisation de ladaptation conservatrice fonde sur un oprateur de rvision donn. Ce travail est motiv dun point de vue pratique par une application en cancrologie : le systme K ASIMIR, pour lequel un problme reprsente une classe de patients et une solution, une proposition de traitement pour ces patients. La section 5 montre comment certaines adaptations effectues par les experts dans ce cadre peuvent tre modlises par ladaptation conservatrice. La section 6 discute ce travail et la section 7 prsente des conclusions et des perspectives.
Plan de larticle.
principe suivant :
Des problmes similaires ont des solutions similaires. (principe du R PC) Ce principe a t formalis dans [9] par
T (Sol(srce), Sol(cible)) S (srce, cible)
(traduit avec nos notations) o S et T sont des mesures de similarit respectivement entre problmes et entre solutions. Il y a plusieurs faons de spcier ltape dadaptation en accord avec le principe du R PC, commencer par ladaptation nulle : Sol(cible) := Sol(srce) (adaptation nulle) Ladaptation nulle est justie dans [21] par la phrase People often do very little adaptation. Une limite de ladaptation nulle est le fait que lafrmation Sol(srce) rsout cible peut tre contradictoire avec les connaissances du domaine. Dans ce cas, une stratgie pour
202
2 Principe de conservatrice
ladaptation
Considrons lexemple suivant : Exemple 1 Lon a invit Carole et veut lui prparer un repas qui lui plaise. Son problme cible peut tre dni par les caractristiques alimentaires de Carole. Supposons que Carole soit vgtarienne (dnot par la variable propositionnelle v ) et
quelle a dautres caractristiques (dnotes collectivement par a), non dtailles dans cet exemple : cible = v a. De son exprience en tant que hte, Lon se rappelle avoir invit Simone il y a quelques temps et il pense que celle-ci ressemble beaucoup Carole, du point de vue de ses gots alimentaires, lexception du fait quelle nest pas vgtarienne : srce = v a. Il a propos Simone un repas avec une salade (s), du buf (b) et un dessert (d), et elle a apprci les deux premiers mais na pas mang de dessert. Lon a alors retenu le cas (srce, Sol(srce)) avec Sol(srce) = s b d. Par ailleurs, Lon a certaines connaissances a propos de lalimentation : il sait que le buf est de la viande, que la viande et le tofu sont des aliments riches en protines et que les vgtariens ne mangent pas de viande. Ses connaissances du domaines sont donc modlises par :
CDLon = (b vi) (vi p) (t p) (v vi)
o b, vi, t et p sont les variables propositionnelles pour il existe du buf/de la viande/du tofu/de la nourriture riche en protine qui est apprci(e) par linvite . Selon ladaptation conservatrice, quel repas devrait tre propos Carole ? Sol(srce) nest pas une solution satisfaisante pour cible : Sol(srce) cible CDLon est insatisable. Cependant, les informations s et d peuvent tre gardes dans Sol(srce) an de rsoudre cible. De plus, la contradiction porte sur le fait que le buf propos est de la viande, pas sur le fait que cest une nourriture riche en protine. Ainsi, une solution de cible suivant le principe de ladaptation conservatrice pourrait tre s p d. Une autre pourrait tre de remplacer le buf par du tofu : s t d. Comme cet exemple lillustre, le processus dadaptation consiste en un dplacement du contexte source vers le contexte cible. Si ce processus est conservateur, alors ce dplacement doit se faire avec un changement minimal et, en mme temps, doit
conduire une solution cohrente avec le contexte cible. Les deux concepts sont interprts dans le cadre de connaissances permanentes , i.e. indpendantes dun contexte particulier, savoir les connaissances du domaine. Ainsi, ladaptation conservatrice sappuie sur trois types de connaissances : (BC1 ) Les connaissances prcdentes, qui peuvent tre modies (mais doivent ltre de faon minimale) : ce sont les connaissances en lien avec le contexte du problme source et de sa solution ; (BC2 ) Les nouvelles connaissances, qui ne peuvent pas tre modies durant ce processus : ce sont les connaissances lies au contexte du problme cible ; (CD) Les connaissances permanentes (vraies dans tout contexte), i.e., les connaissances du domaine du systme de R PC considr, p. ex., lontologie contenant les termes du vocabulaire avec lequel les cas sont reprsents. La question qui se pose est Quel changement minimal doit tre effectu sur la base de connaissances BC1 pour tre en cohrence avec la base de connaissances BC2 ? Quand BC1 et BC2 ne sont pas contradictoires, il ny a pas de raison de changer BC1 et ladaptation conservatrice donnera un rsultat impliquant logiquement BC1 , ce qui revient une adaptation nulle. Ce principe du changement minimal de base de connaissances se retrouve dans la thorie de la rvision : tant donn deux bases de connaissances et , la rvision de par est une base de connaissances qui entrane et effectue un changement minimal sur pour tre cohrent [3]. BC1 et BC2 doivent chacun tre cohrent avec les connaissances du domaine CD. Ainsi, ladaptation conservatrice consiste, tant donn un oprateur de rvision , calculer (CD BC1 ) (CD BC2 ) et infrer de cette nouvelle base de connaissances les informations qui sont relatives Sol(cible).
203
Par consquent, avant de formaliser ladaptation conservatrice, il est ncessaire dintroduire la notion doprateur de rvision.
oprateur de rvision en logique propositionnelle doivent satisfaire sont : (R1) (loprateur de rvision doit retenir toutes les connaissances de la base de connaissances ) ; (R2) Si est satisable, alors (si la nouvelle base de connaissances nest pas en contradiction avec lancienne, alors toutes les connaissances des deux bases doivent tre gardes) ; (R3) Si est satisable alors est galement satisable ( ne conduit pas une base de connaissances insatisable, moins que la nouvelle base de connaissances soit ellemme insatisable) ; (R4) Si et alors (loprateur de rvision suit le principe de non pertinence de la syntaxe) ; (R5) ( ) ( ) ; (R6) Si ( ) est satisable alors ( ) ( ) . pour , , , et , cinq formules propositionnelles. (R5) et (R6) sont moins faciles comprendre que (R1) (R4), mais sont expliques dans [15]. Ces deux postulats sont lis avec lide selon laquelle un oprateur de rvision est cens effectuer un changement minimal : garde le plus possible de tout en tant cohrent avec .
Les oprateurs de rvision sappuyant sur une distance et loprateur de Dalal. Dans [15],
3 Rvision dune connaissances
base
de
La rvision dune base de connaissances a t formalise indpendamment dune logique particulire par la thorie AGM de la rvision [3] . Les postulats AGM ont t adapts au cas propositionnel dans le cadre dune approche smantique de la rvision par [15] et cest ce travail qui est prsent ici, puisque notre papier se limite ce formalisme.
Prliminaires. Les formules propositionnelles sont construites sur V , un ensemble de variables propositionnelles, suppos ni dans cet article. Une interprtation I est une fonction de V dans la paire {vrai, faux}. Si a V , I (a) est aussi dnot par aI . I est tendu lensemble des formules de la manire usuelle ((f g )I = vrai ssi f I = vrai et g I = vrai, etc.). Un modle dune formule f est une interprtation I telle que f I = vrai. Mod(f ) dnote lensemble des modles de f . f est satisable signie que Mod(f ) = . f entrane g (resp., f est quivalente g ) est dnot par f g (resp., f g ) et signie que Mod(f ) Mod(g ) (resp., que Mod(f ) = Mod(g )), pour deux formules f et g . Finalement, g f h (resp., g f h) signie que g entrane h (resp., g est quivalente h) tant donn f : f g h (resp., f g f h). Postulats de Katsuno et Mendelzon.
Soit un oprateur de rvision. est une formule exprimant la rvision de par , selon loprateur : est l ancienne base de connaissances (qui doit tre rvise), est la nouvelle base de connaissances (qui contient les connaissances rvisant lancienne). Les postulats quun
204
une caractrisation et une tude bibliographique des oprateurs de rvision en logique propositionnelle est prsente. Ce papier met en vidence une classe doprateurs de rvision fond chacun sur une distance entre interprtations. Soit dist une telle distance. Pour un rel 0, soit G la fonction qui associe une formule propositionnelle construite sur un ensemble de variables V une autre formule G ( )
sur V , telle que :

Mod(G ( )) = I I : interprtation sur V et dist(Mod( ), I )
on dnit les bases de connaissances suivantes : BC1 = srceSol(srce) BC2 = cible
G ralise une gnralisation : G ( ) pour toute formule et tout rel 0. De plus, G0 ( ) . Finalement, si 0 , alors G ( ) G ( ). Pour et , deux formules satisables sur V , soit la plus petite valeur telle que G ( ) est satisable ( = dist(Mod( ), Mod()) ralise ceci : G ( ) est satisable et si < alors G ( ) est insatisable). dist peut tre dni par : dist = G ( ) . Si lun au moins de et est insatisable, alors dist . Alors dist peut tre interprt comme suit : elle est obtenue en gnralisant de faon minimale (suivant lchelle ({G ( )} , )) an dtre cohrente avec , et ensuite, elle est spcialise par conjonction avec . Lintuition du changement minimal de dist est li la distance dist entre interprtations : dist est la base de connaissances dont les interprtations sont les interprtations de qui sont les plus proches de celles de , selon dist. Loprateur de rvision de Dalal D [5] est un tel oprateur de rvision. Il correspond la distance de Hamming entre interprtations dnie par : dist(I , J ) est le nombre de variables propositionnelles a V telles que aI = aJ . Cest cet oprateur qui a t choisi dans les exemples de cet article.
Soit un oprateur de rvision. La adaptation conservatrice consiste dabord calculer CCAC = (CD BC1 ) (CD BC2 ), o CD dnote les connaissances du domaine, puis dduire de CCAC des connaissances pertinentes pour rsoudre cible (CCAC reprsente les connaissances sur la cible infres par adaptation conservatrice).
Exemple.
Lexemple 1 (section 2) peut tre trait comme suit : BC2 = v a
CD = CDLon BC1 = v a s b d
Avec D , loprateur de rvision de Dalal, on peut montrer que CCAC = (CD BC1 ) D (CD BC2 ) CDLon v a s b vi p d
(a)
(b)
Le problme cible = v a = (a) est consquence de CCAC : cela sera vrai quel que soit loprateur de rvision choisi, daprs le postulat (R1). Dans lexemple 1, deux solutions plausibles taient proposes : Sol1 (cible) = s p d et Sol2 (cible) = s t d. La premire peut tre dduite de CCAC : (b) Sol1 (cible). Mais (b) indique plus prcisment quun aliment riche en protine qui nest pas de la viande est (devrait tre) apprci par linvite : vi p. Cela nentrane pas quelle apprciera le tofu. prsent, considrons CDLon la connaissance de Lon avec la connaissance additionnelle que le seul aliment riche en protine et disponible chez Lon en dehors de la viande est le tofu : CDLon = CDLon (p vi t). En substituant CDLon
205
4 Formalisation de ladaptation conservatrice

On suppose que les cas et connaissances du domaine du systme de R PC considr sont reprsents en logique propositionnelle. Pour appliquer le principe de ladaptation conservatrice prsent dans la section 2,
La -adaptation conservatrice.
par CDLon il vient :

CCAC = (CDLon BC1 ) D (CDLon BC2 ) CDLon v a s b vi t p d
(a)
(b )
et (b )
Sol2 (cible).
ne contredit pas les connaissances du domaine. Ainsi, (R3) entrane que ds que le problme cible est spci de faon cohrente avec les connaissances du domaine, ladaptation conservatrice donne un rsultat satisfaisant. (R4) signie simplement que ladaptation conservatrice suit le principe de non pertinence de la syntaxe. (R5) et (R6) traduisent, selon [15], lide de changement minimal et, dans le contexte de ladaptation conservatrice, le fait que celle-ci fait un changement minimal sur le contexte source pour tre en accord avec le contexte cible.
prsent les postulats (R1) (R6) dans le cadre de ladaptation conservatrice.
Les postulats de la rvision et ladaptation conservatrice. Nous pouvons reconsidrer
(R1) appliqu ladaptation conservatrice donne CCAC CD cible. Si cette assertion tait viole, cela signierait quil existe un modle I de CCAC tel que I Mod(CD cible) = Mod(CD) Mod(cible), ce qui entrerait en contradiction : Soit avec la dnition du problme cible (ce qui signierait que ladaptation conservatrice rsoudrait un autre problme cible !) ; Soit les connaissances du domaine (qui doivent tre respectes par ce mode dadaptation). Ainsi, le postulat (R1) empche ces deux types de contradiction. Supposons que CD BC1 BC2 soit satisable : autrement dit srce Sol(srce) cible est consistant tant donn la base de connaissances CD. Alors, (R2) entrane CCAC CD BC1 BC2 . Donc, CCAC srce Sol(srce) cible : si cible est consistant avec srce Sol(srce) dans CD, alors, on peut infrer de ladaptation conservatrice que Sol(srce) rsout cible. Cela est cohrent avec le principe de cette adaptation : Sol(cible) est obtenu en gardant de Sol(srce) le plus possible, et si lafrmation Sol(srce) rsout cible nest pas contradictoire avec CD, alors, ladaptation conservatrice revient une adaptation nulle. (R3) donne : si CD BC2 est satisable alors CCAC est satisable. La satisabilit de CD BC2 = CD cible signie que la spcication du problme cible
206
5 Application : adaptation conservatrice de traitements du cancer du sein

La projet K ASIMIR a pour objet la gestion de rfrentiels en cancrologie (similaires des protocoles de dcision). De tels rfrentiels doivent tre adapts pour certains cas mdicaux. Cette section montre deux exemples de telles adaptations effectues par des experts cancrologues et comment ces exemples sont modliss par ladaptation conservatrice.
Le projet K ASIMIR. Un grand effort de recherche a t mis sur la cancrologie durant ces dernires dcennies dans le monde. Par voie de consquence, la complexit de la prise de dcision a beaucoup augment dans ce domaine. Le projet K ASIMIR a pour objet la gestion des connaissances dcisionnelles en cancrologie. Une grande partie de cette connaissance est constitue par des rfrentiels. Par exemple, le rfrentiel du traitement du cancer du sein est un document indiquant comment un patient atteint de cette maladie devrait tre trait. Ainsi, ce rfrentiel peut tre vu comme un ensemble de rgles Pat Ttt, o Pat dnote une classe
de patients et Ttt, un traitement pour les patients dans Pat. Malheureusement, pour environ un tiers des patients, ce rfrentiel ne peut tre appliqu (par exemple cause de contreindications). En effet, il est impossible en pratique de lister toutes les situations spciques qui empchent lapplication du rfrentiel : cela constitue une instance du problme de la qualication [19]. Il a t montr que, dans la plupart de ces situations, les cancrologues adaptent le rfrentiel pour trouver une recommandation de traitement (ce qui signie quils rutilisent le rfrentiel mais ne se contentent pas de lappliquer littralement). Plus prcisment, tant donn la description dun patient cible, cible, une rgle Pat Ttt telle que Pat est similaire cible est slectionne dans le rfrentiel, et Ttt est adapt pour correspondre aux particularits de cible. Si on assimile les rgles Pat Ttt des cas sources (srce, Sol(srce)) srce = Pat et Sol(srce) = Ttt alors ce processus est un processus de R PC, avec la particularit que les cas sources sont des cas gnraux (aussi appels ossied cases dans [21]).
Le systme K ASIMIR. Le systme K ASI MIR a pour objectif dassister les mde-
et de faon semi-automatique [7, 6]. Ladaptation conservatrice apparat comme une direction prometteuse de recherche pour K ASIMIR, comme le montre la suite de cette section.
Exemples. Deux exemples correspondant des situations relles sont prsentes ci-dessous et modlises par des adaptations conservatrices. Le premier est ladaptation dun traitement contre-indiqu. Le deuxime est ladaptation dun traitement inapplicable. Dautres exemples dadaptation conservatrice lis K ASI MIR sont prsents dans le rapport de recherche [18]. Notons que ces exemples ont t simplis et que les connaissances prsentes ne sauraient tre utilises comme connaissances mdicales.
cins dans leurs prises de dcision. La dernire version de K ASIMIR est implant en un portail smantique (i.e., un portail du Web smantique [10]), utilisant OWL DL comme formalisme de reprsentation, qui est quivalent la logique de descriptions SHOIN (D) [22]. Ce systme effectue des applications du rfrentiel : tant donn un rfrentiel crit en OWL DL et la description dun patient, il met en vidence les traitements que le rfrentiel recommande. Il implante aussi un processus dadaptation fond sur des connaissances dadaptation [8]. Les tudes actuelles visent acqurir cette connaissance dadaptation de la part des experts
Exemple 2 Certaines hormones du corps humain facilitent la multiplication des cellules. En particulier, les strognes facilitent le dveloppement de certaines cellules cancreuses, en particuliers, celles du sein. Une hormonothrapie est un traitement long qui vise inhiber les effets des hormones an de rduire le risque davoir une nouvelle tumeur qui se dveloppe aprs que les autres types de traitement (chirurgie, chimiothrapie et radiothrapie) aient t appliqus. Le tamoxifne est une drogue dhormonothrapie qui inhibe laction des strognes sur les cellules cancreuses. Malheureusement, le tamoxifne est contre-indiqu pour les personnes ayant une maladie du foie. Le rfrentiel du traitement du cancer du sein ne tient pas compte de cette contre-indication et les mdecins doivent substituer le tamoxifne par un autre traitement ayant le mme bnce thrapeutique (ou un bnce thrapeutique similaire). Par exemple, il peuvent utiliser des anti-aromatases (drogues non contreindiques pour les personnes souffrant du foie) la place du tamoxifne, ou un traitement consistant en lablation des ovaires
207
(qui sont des organes produisant des strognes). Cet exemple peut tre formalis comme suit. Les rgles du rfrentiel conduisant recommander le tamoxifne sont formalises par c1 tam, c2 tam, . . . cn tam. Cela peut sexprimer par une seule rgle c tam, o c = c1 c2 . . . cn . Cette rgle correspond au cas source (srce, Sol(srce)) avec srce = c et Sol(srce) = tam. Considrons prsent une femme atteinte dun cancer du sein telle que (1) lapplication du rfrentiel conduit recommander du tamoxifne et (2) qui souffre dune maladie du foie. Ce cas mdical peut tre formalis par cible = maladie-foie, o est tel que CD c (voir ci-dessous). Les connaissances du domaine sont : CD = ( c) (maladie-foie tam) (tam anti-oestrognes) (anti-aromatases anti-oestrognes) (ovariectomie anti-oestrognes) maladie-foie tam reprsente la contre-indication au tamoxifne pour les personnes souffrant dune maladie du foie. x anti-oestrognes pour x {tam, anti-aromatases, ovariectomie} indique que si le traitement x est recommand alors un traitement anti-strognes est recommand. Lovariectomie consiste en lablation des ovaires.
Avec cette connaissance additionnelle, anti-aromatases ovariectomie est dduit de CCAC. On peut noter que cet exemple est trs similaire lexemple 1 : la viande est, en un sens, contre-indique par les vgtariens. Exemple 3 La grande majorit des personnes souffrant du cancer du sein sont des femmes (environ 99%). Cela explique pourquoi le rfrentiel du traitement du cancer du sein a t labor pour elles. Quand des mdecins sont confronts au cas dun homme atteint de ce cancer, ils adaptent le rfrentiel. Par exemple, considrons un homme ayant les caractristiques c, tel que, pour une femme ayant les mmes caractristiques, le rfrentiel recommande une mastectomie totale (ablation du sein), une chimiothrapie au FEC 100 (FEC est un ensemble de drogues et 100 correspond la dose) et une ovariectomie. La chirurgie et la chimiothrapie peuvent toutes deux tre appliques un homme, mais pas lovariectomie (pour des raisons videntes). Ladaptation consiste en gnral garder la chirurgie et la chimiothrapie et remplacer lovariectomie par un traitement anti-strognes, tel que le traitement au tamoxifne ou aux anti-aromatases.
La rgle du rfrentiel utilis dans cet exemple est le cas source (srce, Sol(srce)) avec La D -adaptation conservatrice donne : srce = c femme et Sol(srce) = mastectomie-totale FEC-100 CCAC = (CD c tam) ovariectomie : mastectomie-totale (resp., FEC-100, ovariectomie) dnote les D (CD maladie-foie) CD cible tam anti-oestrognes personnes pour lesquelles une mastectomie totale (resp., une chimiothrapie Si les seuls traitements anti-strognes au FEC 100, une ovariectomie) est quon puisse effectuer dans lunit de recommande. Le problme cible est soin en-dehors du tamoxifne sont les cible = c homme. Les connaissances anti-aromatases et lovariectomie, alors du domaine sont celles de lexemple 2 la connaissance suivante peut tre ajou- (dnotes ci-dessous par CDex. 2 ), le fait te CD : anti-oestrognes (tam que lovariectomie est impossible pour un anti-aromatases ovariectomie). homme et le fait que les hommes ne sont
208
pas des femmes : CD =CDex. 2 (homme ovariectomie) (femme homme) Ladaptation conservatrice donne : CCAC CD cible mastectomie-totale FEC-100 ovariectomie anti-oestrognes Si les seules thrapies anti-strognes possibles dans lunit de soin sont les trois mentionnes ici, CD peut tre remplac par :
comme application dune adaptation par gnralisation et spcialisation. En particulier, dans lexemple 3, Sol(srce) est gnralis en remplaant ovariectomie par anti-oestrognes puis spcialis en tam anti-aromatases. Cette proprit de la D adaptation conservatrice peut tre comprise grce la dnition des oprateurs de rvision dist (cf. section 3).
Adaptation conservatrice et dcomposition de problme. Dans [13], ladaptation est
considre selon trois taxonomies. Une dentre elles est celle des oprateurs dadaptation. Considrons les deux types oprateurs suivants : (1) les oprateurs de CD = CD tam anti-aromatases dcomposition en sous-buts et (2) les opanti-oestrognes ovariectomie rateurs dinteraction entre buts. (1) Un oprateur de dcomposition en sous-buts Alors, la D -adaptation conservatrice vise dcomposer la tche dadaptation en donne CCAC tel que CCAC CCAC(tam sous-tches. (2) Un oprateur dinteraction anti-aromatases). entre buts gre les interactions entre les parties de la solution : il dtecte et rpare les mauvaises interactions. On peut consi6 Discussion drer que ladaptation conservatrice effecPlusieurs propositions de taxonomies des tue une combinaison des oprations des approches de ladaptation ont t pro- types (1) et (2). La spcication du proposes dans la littrature du R PC. blme cible la formule cible peut Dans [18], ladaptation conservatrice est tre vue comme la spcication dun but situe dans plusieurs de ces taxonomies. (le but tant de trouver une solution consisCi-dessous, la partie principale de ce tra- tante avec cible). Si cible cible1 cible2 alors cible1 et cible2 sont deux vail est prsent. sous-buts du problme cible. Ladaptation conservatrice donne une solution qui est Adaptation conservatrice et adaptation par gconsistante avec ces sous-buts. Par consnralisation et spcialisation. Dans [21] est quent, cette approche de ladaptation gre introduite lapproche par abstraction et re- linteraction entre sous-buts de la mme spcialisation de ladaptation qui consiste faon quune combinaison doprateurs de en (1) abstraire la solution Sol(srce) de types (1) et (2). Cependant, si loprateur srce en une solution Sol(A) dun pro- de rvision est considr comme une bote blme abstrait A et (2) spcialisation de noire, alors la distinction entre (1) et (2) Sol(A) an de rsoudre cible. Selon [4], nest pas visible. cette adaptation devrait plutt tre qualie dapproche par gnralisation et spcialisation (versus une approche par abs- Adaptation conservatrice et adaptaiton par cotraction et rafnement), mais cette distinc- pie, modication et test. Dans [11], un modle gnral de ladaptation en R PC est tion nest pas faite dans [21]. prsent dans un formalisme de tches : en Chaque exemple dadaptation conserva- sappuyant sur lanalyse de plusieurs systrice prsent dans cet article peut tre vu tmes de R PC implantant un processus
209
dadaptation, est propos une dcomposition hirarchique de ladaptation en tches et sous-tches. Lide est que, en gnral, les procdures dadaptations par transformation implantes dans les systmes de R PC peuvent tre modlises suivant ce schma, en considrant un sous-ensemble de ces tches. Ladaptation conservatrice peut tre vue comme une faon dinstancier le sous-ensemble de tches suivant : Copie de la solution (similaire une adaptation nulle) ; Slection et modication des diffrences (en enlevant, substituant et/ou ajoutant des informations) ; Test de consistance. En fait, pour ladaptation conservatrice, cest loprateur de rvision qui effectue ces tches : il effectue un changement minimal qui peut tre vu comme une squence des tches de copie, modication et test. De plus, elle utilise les connaissances du domaine an de slectionner les caractristiques modier pour obtenir la consistance. Par consquent, ladaptation conservatrice peut galement tre vu comme une instanciation des tapes rutiliser et rviser du cycle de R PC de [2] : ltape rutiliser est effectue par une simple copie et ltape rviser par un oprateur de rvision. On peut noter que, notre connaissance, ltape rviser de ce cycle na pas encore t lie la thorie AGM de la rvision : nous navons trouv quun article sur une approche du R PC utilisant des techniques de rvision [20], pas pour le raisonnement en lui-mme, mais pour la maintenance de la base de cas et dune base de rgles suite des volutions dans le temps (selon [14], il sagit plus dune problmatique de mise jour que de rvision).
avec la remmoration qui est cense tre plus simple concevoir et implanter. Cet article prsente une approche de ladaptation qui sappuie sur la thorie de la rvision : elle consiste garder le plus possible du cas source tout en tant cohrente avec le problme cible et les connaissances du domaine. Ladaptation conservatrice est dnie et formalise dans le cadre de la logique propositionnelle. De plus, des exemples montrent que ladaptation conservatrice modlise certaines adaptations effectues par les experts en cancrologie. Cette approche de ladaptation sappuie fortement sur les connaissances du domaine : une de ses caractristiques notables est que les connaissances dadaptation sur lesquelles elle sappuie font partie des connaissances du domaine CD, par opposition, par exemple, aux approches de ladaptation qui sappuient sur un ensemble de rgles dadaptation. La section 6 met en vidence les ressemblances entre ladaptation conservatrice et dautres approches gnrales de ladaptation dnies dans la littrature du R PC, en particulier, le maintien de la cohrence, lextension de ladaptation nulle et, au moins pour les dist -adaptations conservatrices, le fait quelles soient des approches par gnralisation et spcialisation. Plusieurs aspects thoriques de ladaptation conservatrice ont t abords dans [18] et qui requirent une tude plus approfondie. Certains dentre eux sont prsents ci-dessus. Lun deux est la conception dune remmoration approprie pour une adaptation conservatrice. Une telle remmoration sappuie sur lhypothse selon laquelle le rsultat dune adaptation conservatrice est meilleur que celui dune autre adaptation conservatrice si la premire effectue moins de changement que la deuxime. Cela conduit prfrer le cas source (srce1 , Sol(srce1 )) au cas source (srce2 , Sol(srce2 )) si
7 Conclusion et perspectives
Ladaptation est souvent considre comme une tche difcile du raisonnement partir de cas, en comparaison
210
1 < 2 , avec
i = dist(Mod(CD srcei Sol(srcei )), autre perspective est la Mod(CD cible)) (i {1, 2}) Une combinaison de plusieurs cas ... (srce1 , Sol(srce1 )), Les limites de ce critre de prfrence sont sources n dune part quil est insufsant pour distin- (srce , Sol(srcen )) pour rsoudre guer deux cas sources ayant le mme i et un seul problme cible cible. Il est endautre part que son implantation nave est visag dtudier cette question grce la notion de fusion de bases de connaissances complexe. propositionnelles [16] : tant donn un La connaissance sur laquelle ladaptation multi-ensemble {1 , . . . n } de bases de conservatrice sappuie est CD. Or, cette connaissances fusionner et une base de connaissance est gnralement incomplte connaissances consistante (reprsentant (cf. le problme de la qualication men- les contraintes dintgrit), un oprateur tionn la section 5), ce qui fait quune so- de fusion construit une base de connaislution infre par cette adaptation peut tre sances ({1 , . . . n }) qui est cohrente contradictoire avec les connaissances de avec et garde le plus dinformations lexpert (mais pas avec CD). De lanalyse possible des i . Cela tend la notion de de cette contradiction, certaines connais- rvision : dni par = ({ }) sances du domaine peuvent tre acquises est un oprateur de rvision. De la mme et ajoutes CD : en sinspirant de [12], un faon, une approche de combinaison des systme de R PC peut apprendre de nou- cas qui tend ladaptation conservatrice velles connaissances partir de ses checs. consiste calculer ({1 , . . . n }) avec Un travail en cours tudie la mise en place i = CD srcei Sol(srcei ), pour pratique de cette ide. i {1, 2, . . . n} et = CD cible. La pertinence de cette approche pour des Ladaptation conservatrice ne modlise problmes pratiques de combinaison de que certaines adaptations effectues par cas en R PC reste tudier. les experts. Dautres adaptations peuvent tre modlises grce des extensions Dun point de vue pratique, le dveloppede cette approche de ladaptation, comme ment et lutilisation dun outil dadaptacela est montr dans [18]. Par exemple, tion conservatrice intgrer dans le sysune approche de ladaptation consiste en tme K ASIMIR sont des perspectives. Une (1) trouver une substitution telle que premire implantation de D a t effec (srce) CD cible, (2) appliquer sur tue mais pas optimise ( titre dexemple, Sol(srce) pour obtenir une premire so- lopration de rvision la plus complexe lution Sol1 (cible) de cible, et (3) r- prsente dans [18] sappuie sur 16 vaparer Sol1 (cible) an de la rendre co- riables propositionnelles et demande envihrente avec les connaissances du do- ron 25 secondes sur un PC actuel). maine. Ltape (3) peut tre effectue par un oprateur de rvision. En particulier, Une autre perspective pratique est lintdans [18], lexemple bien connu de ladap- gration de ladaptation conservatrice dans tation de la recette du buf aux haricots le systme K ASIMIR, ce qui soulve deux verts en une recette du buf aux broco- difcults. La premire est que les cas et lis effectue par le systme C HEF [12] les connaissances du domaine de K ASI est redcrite en sappuyant sur loprateur MIR sont reprsents en OWL DL, formade rvision D . Cela montre aussi, plus lisme quivalent la logique de descripgnralement, que les oprateurs de rvi- tions SHOIN (D). Par consquent, soit sions peuvent tre utiliss de diffrentes les problmes dadaptation exprims en
211
manires comme des outils pour concevoir des processus dadaptation.
OWL DL sont traduits en logique propositionnelle et rsolus dans ce formalisme soit un oprateur de rvision est implant pour une logique de descriptions compatible avec K ASIMIR (ce qui demanderait une formalisation de ladaptation conservatrice en logique de descriptions ; une premire proposition pour cela a t faite dans [18]). Le deuxime problme dintgration est li au module dadaptation dj existant dans K ASIMIR [8], qui sappuie sur des rgles dadaptation. Comment ladaptation conservatrice et cette approche par rgles de ladaptation peuvent tre intgres an de donner un unique module dadaptation permettant des processus dadaptation complexes (chacun deux tant compos dune adaptation conservatrice et dadaptations par rgles) ? Cette question devrait tre traite grce des travaux antrieurs sur la composition et la dcomposition de ladaptation [17].
Remerciements
Lauteur tient remercier Pierre Marquis qui, il y a quelques annes, lui a appris les bases de la thorie de la rvision, a, plus rcemment, suggr des rfrences intressantes sur cette thorie et a fait des remarques constructives sur le rapport de recherche [18] (par exemple, lide dutiliser un oprateur de fusion est de lui). Il remercie galement les relecteurs pour leurs remarques qui serviront galement de base des rexions futures. Enn, il remercie sa lle qui, pour quelque raison mystrieuse, est lorigine de ce travail.
Rfrences
[1] Aamodt (A.). Knowledge-Intensive Case-Based Reasoning and Sustained Learning. In : Proceedings of the 9th European Conference on Articial Intelligence (ECAI90), d. par Aiello (L. C.). August 1990.
212
[2] Aamodt (A.) et Plaza (E.). Casebased Reasoning : Foundational Issues, Methodological Variations, and System Approaches. AI Communications, vol. 7, n1, 1994, pp. 3959. [3] Alchourrn (C. E.), Grdenfors (P.) et Makinson (D.). On the Logic of Theory Change : partial meet functions for contraction and revision. Journal of Symbolic Logic, vol. 50, 1985, pp. 510530. [4] Bergmann (R.). Learning Plan Abstractions. In : GWAI-92, 16th German Workshop on Articial Intelligence, d. par Ohlbach (H. J.), pp. 187198. Springer Verlag, Berlin, 1992. [5] Dalal (M.). Investigations into a theory of knowledge base revision : Preliminary report. In : AAAI, pp. 475479. 1988. [6] dAquin (M.), Badra (F.), Lafrogne (S.), Lieber (J.), Napoli (A.) et Szathmary (L.). Case Base Mining for Adaptation Knowledge Acquisition. In : Proceedings of the 20th International Joint Conference on Articial Intelligence (IJCAI07). pp. 750755. Morgan Kaufmann, Inc., 2007. [7] dAquin (M.), Lieber (J.) et Napoli (A.). Adaptation Knowledge Acquisition : a Case Study for CaseBased Decision Support in Oncology. Computational Intelligence (an International Journal), vol. 22, n 3/4, 2006, pp. 161176. [8] dAquin (M.), Lieber (J.) et Napoli (A.). Case-Based Reasoning within Semantic Web Technologies. In : Twelfth International Conference on Articial Intelligence : Methodology, Systems, Applications (AIMSA-06), pp. 190200. 2006. [9] Dubois (D.), Esteva (F.), Garcia (P.), Godo (L.), de Mntaras (R. L.) et Prade (H.). Fuzzy set modelling
[10]
[11]
[12]
[13]
[14]
[15]
[16]
in case-based reasoning. Int. J. of Intelligent Systems, vol. 13, 1998, pp. 345373. Fensel (D.), Hendler (J.), Lieberman (H.) et Wahlster (W.) (dit par). Spinning the Semantic Web. Cambridge, Massachusetts, The MIT Press, 2003. Fuchs (B.) et Mille (A.). A Knowledge-Level Task Model of Adaptation in Case-Based Reasoning. In : Case-Based Reasoning Research and Development Third International Conference on CaseBased Reasoning (ICCBR-99), d. par Althoff (K.-D.), Bergmann (R.) et Branting (L. K.). pp. 118131. Springer, Berlin, 1999. Hammond (K. J.). Case-Based Planning : A Framework for Planning from Experience. Cognitive Science, vol. 14, n3, 1990, pp. 385443. Hanney (K.), Keane (M. T.), Smyth (B.) et Cunningham (P.). Systems, Tasks and Adaptation Knowledge : Revealing Some Revealing Dependencies. In : Case-Based Reasoning Research and Development First International Conference, ICCBR95, Sesimbra, Portugal, d. par Veloso (M.) et Aamodt (A.), pp. 461 470. Springer Verlag, Berlin, 1995. Katsuno (H.) et Mendelzon (A.). On the Difference Between Updating a Knowledge Base and Revising It. In : KR91 : Principles of Knowledge Representation and Reasoning, d. par Allen (James F.), Fikes (Richard) et Sandewall (Erik), pp. 387 394. San Mateo, California, Morgan Kaufmann, 1991. Katsuno (H.) et Mendelzon (A.). Propositional knowledge base revision and minimal change. Articial Intelligence, vol. 52, n 3, 1991, pp. 263294. Konieczny (S.), Lang (J.) et Marquis (P.). DA2 merging operators. Ar-
[17]
[18]
[19]
[20]
[21]
[22]
ticial Intelligence, vol. 157, n 1-2, 2004, pp. 4979. Lieber (J.). Reformulations and Adaptation Decomposition. In : Formalisation of Adaptation in CaseBased Reasoning, d. par Lieber (J.), Melis (E.), Mille (A.) et Napoli (A.). Third International Conference on Case-Based Reasoning Workshop, ICCBR-99 Workshop number 3, S. Schmitt and I. Vollrath (volume editor), LSA, University of Kaiserslautern, 1999. Lieber (J.). A Denition and a Formalization of Conservative Adaptation for Knowledge-Intensive CaseBased Reasoning Application to Decision Support in Oncology (A Preliminary Report). Rapport de recherche, LORIA, 2006. McCarthy (J.). Epistemological Problems of Articial Intelligence. In : Proceedings of the 5th International Joint Conference on Articial Intelligence (IJCAI77), Cambridge (Massachussetts), pp. 10381044. 1977. Pavn Rial (R.), Laza Fidalgo (R.), Gmez Rodriguez (A.) et Corchado Rodriguez (J. M.). Improving the Revision Stage of a CBR System with Belief Revision Techniques. Computing and information systems journal, vol. 8, n2, 2001, pp. 4045. Riesbeck (C. K.) et Schank (R. C.). Inside Case-Based Reasoning. Hillsdale, New Jersey, Lawrence Erlbaum Associates, Inc., 1989. Staab (S.) et Studer (R.) (dit par). Handbook on Ontologies. Berlin, Springer, 2004.
213
Debating over heterogeneous descriptions

M. Morge morge@di.unipi.it
Jean-Christophe Routier routier@lifl.fr
Dipartimento di Informatica University of Pisa Largo B. Pontecorvo, 3 I-56127 Pisa, Italy

LIFL - USTL Batiment M3 - F-59655 VILLENEUVE DASCQ Cedex FRANCE
Rsum : Lhtrognit smantique des ontologies est un obstacle majeur linteroprabilit dans les systmes multi-agents ouverts. Nous proposons dans cet article un cadre formel pour que les agents dbattent partir de terminologies htrognes. cette intention, nous proposons un cadre de reprsentation argumentatif qui permet de grer des descriptions conictuelles. Nous prsentons galement un modle dagents qui expliquent les termes quils utilisent et prennent en compte les explications de leurs interlocuteurs. Finalement, nous proposons un systme dialectique permettant aux agents de particper un dialogue pour atteindre un accord sur une terminologie commune. Mots-cls : Intelligence articielle, Systme MultiAgents, Dialogue, Argumentation, Ontologie, Logique de Description Abstract: A fundamental interoperability problem is caused by the semantic heterogeneity of agentsontologies in open multi-agent systems. In this paper, we propose a formal framework for agents debating over heterogeneous terminologies. For this purpose, we propose an argumentation-based representation framework to manage conicting descriptions. Moreover, we propose a model for the reasoning of agents where they justify the description to which they commit and take into account the description of their interlocutors. Finally, we provide a dialectical system allowing agents to participate in a dialogue in order to reach an agreement over heterogeneous ontologies. Keywords: Articial Intelligence, Multi-agent system, Dialogue, Argumentation, Ontology, Description logic
applications, such as software agents. In open systems that agents can dynamically join or leave, a fundamental interoperability problem is caused by the semantic heterogeneity of agents at the knowledge level. The current approaches such as standardization, adopted by [5], and ontology alignment, considered by [4], are not suitable in open systems. Since standardization requires that all parties involved reach a consensus on the ontology, this idea seems very unlikely. On the other hand, ontology alignment uses some mappings to translate messages. However, we do not know a priori which ontologies should be mapped within an open multiagent system. Argumentation is a promising approach for (1) reasoning with inconsistent information, (2) facilitating rational interaction, and (3) resolving conicts. In this paper, agents have their own denitions of concepts and they discover through the dialogue whether or not they share these denitions. If not, they are able to learn the denition of their interlocutor. For this purpose, we extend the formal framework for inter-agents dialogue based upon the argumentative techniques proposed by [7]. (1) We propose here an argumentationbased representation framework, offering a way to manage contradictory concept denitions and assertions. (2) We propose a model of agent reasoning to put forward some representations and take into account the representations of their interlocutors. (3) Finally, we provide a dialectical system
215
1 Introduction
Traditionally, ontologies have been used to achieve semantic interoperability between
Debating ___________________________________________________________________________ over heterogeneous descriptions
in which a protocol enables two agents to reach an agreement about their representations. Paper overview. Section 2 introduces the example of dialogue that will illustrate our framework. In Section 3, we provide the syntax and the semantics of the description logic which is adopted in this paper. Section 4 presents the argumentation framework that manages interaction between conicting representations. In accordance with this background, Section 5 describes our agent model. In Section 6, we dene the formal area for agents debate. Section 7 describes the protocol used to reach an agreement. Section 8 presents some related works. Section 9 draws some conclusions and future works.
9. customer : Why is it free software ? 10. provider : xpdf is free software because it is opensource. 11. customer : Why is it opensource ? 12. provider : xpdf is opensource because it is copyleft. 13. customer : OK, I will consider xpdf. In this dialogue, two participants share the concept free. However, their denitions are divergent. On one side, the customer considers free software as non-proprietary software. On the other side, the service provider considers free software as a zero price software. This dialogue reveals the conict in the denitions of this concept and resolves it. Throughout the following we will assume the service provider gives priority to the customers concepts.
2 Natural language
[11] denes a dialogue as a coherent sequence of moves from an initial situation to reach the goal of participants. For instance, the goal of a dialogue may consist in resolving a conict about a representation. Before we start to formalize such dialogues, let us rst discuss the following natural language dialogue example between a customer and a service provider : 1. customer : Do you know free software to view my PDF ? 2. provider : acrobat is free software. 3. customer : Why is it a free software ? 4. provider : acrobat is free because it is a freeware. 5. customer : In my humble opinion, acrobat is not a free software. 6. provider : Why is it not free software ? 7. customer : Since acrobat is freeware, it is not free software. 8. provider : OK, however xpdf is free software.
216
3 Description Logic
In this section, we provide the syntax and the semantics for the well-known ALC language proposed by [8] and which is adopted in the rest of the paper. The data model of a knowledge base (KBase, for short) can be expressed by means of the Description Logic (DL, for short) which has a precise semantic and effective inference mechanisms. Moreover, most ontologies markup languages (e.g. OWL) are partly founded on DL. The syntax of the representation adopted here is taken from standard constructors proposed in the DL literature. In ALC , concepts, denoted C, D, . . . are interpreted as unary predicates and primitive roles, denoted R, S, . . ., as binary predicates. We call description a complex concept which can be built using constructors. The syntax of ALC is dened by the following BNF denition : C ||C |C |C D|C D|R.C |R.C . The semantics is dened by an interpretation I = (I , I ), where I is the non-empty domain of the interpretation and I stands for the interpretation function.
A KBase K = T , A contains a T-box T and an A-box A. The T-box includes a set of concept denition (C D) where C is the concept name and D is a description given in terms of the language constructors. The A-box contains extensional assertions on concepts and roles. For example, a (resp. (a, b)) is an instance of the concept C (resp. the role R) iff aI C I (resp. (aI , bI ) RI ). We call claims, the set of concept denitions and assertions contained in the KBase. A notion of subsumption between concepts is given in terms of the interpretations. Let C, D be two concepts. C subsumes D (denoted C D) iff for every interpretation I its holds that C I DI . Indeed, C D amounts to C D and D C . Similarly, C D amounts to C D and D C . The KBase can contain partial denitions, i.e. axioms based on subsumption (C D). Below we will use ALC in our argumentation-based representation framework.
Denition 1 Let A = {a1 , . . . , an } be a set of audiences. The value-based KBase AK = K, V, promote is dened by a triple where : K = T , A is a KBase, i.e. a nite set of claims in ALC ; V is a non-empty nite set of values {v 1 , . . . , v t } ; promote : K V is a total mapping from the claims to values. We say that the claim relates to the value v if promotes v . For every K, promote() V . Values are arranged in hierarchies. For example, an audience will value both justice and utility, but an argument may require the determination of a strict preference between the two. The relevance of an argument is the value promoted by the most general claims in its premise. Since audiences are distinguished by their hierarchies of values, the values have different priorities for different audiences. Each audience ai is associated with an individual value-based KBase which is a 4-tuple AKi = K, V, promote, i where : AK = K, V, promote is a value-based KBase as previously dened ; i is the priority relation of the audience ai , i.e. a strict complete ordering relation on V . A priority relation is a transitive, irreexive, asymmetric, and complete relation on V . It straties the KBase into nite non-overlapping sets. The priority level of a non-empty KBase K K (written leveli (K )) is the most important value promoted by one element in K . Arguments, that are consequence relations between a premise and a conclusion, are built on this common KBase. Denition 2 Let K be a KBase in ALC . An argument is a pair A = , , where is a claim and K is a non-empty set of claims such that : is consistent and minimal (for set inclusion), and . is the premise of A, written =
217
4 Argumentation-based representation framework

The seminal work of [3] formalizes the argumentation reasoning within a framework made of abstract arguments and a contradiction relation to determine their acceptance. We present in this section, an argumentation framework built around the underlying logic language ALC , where claims (concept denitions and assertions) can be conicting and have different relevances depending on the considered audience. The KBase is a set of sentences in a common language, denoted ALC , associated with a classical inference, denoted , and shared by a set of audiences (denoted A = {a1 , . . . , an }). The audiences share a value-based KBase, i.e. a set of claims promoting values :
premise(A), and is the conclusion of A, written = conc(A). In other words, the premise is a set of claims from which the conclusion can be inferred. A is a sub-argument of A if the premise of A is included in the premise of A. A is a trivial argument if the premise of A is a singleton (premise(A ) = {conc(A )}). Since the KBase K can be inconsistent, the set of arguments (denoted A(K)) may contain conicting arguments. Denition 3 Let K be a KBase in ALC and A = , , B = , A(K ) two arguments. A attacks B iff : 1 , 2 such that L 1 and 2 . Because each audience is associated with a particular priority relation, audiences individually evaluate the relevance of arguments. = Denition 4 Let AKi K, V, promote, i be the value-based argumentation KBase of the audience ai and let A = , A(K) be an argument. According to AKi , the relevance of A (written relevancei (A)) is the most important value promoted by one claim in the premise . In other words, the relevance of arguments depends on the priority relation. A xed ordering is simply assumed, revealing the ordering between claims. In order to give a criterion that will allow an audience to prefer one argument over another, we prefer the arguments built upon the most general claims. Since audiences individually evaluate argumentsrelevance, an audience can ignore that an argument attacks another. According to an audience, an argument defeats another argument if they attack each other and the second argument is not more relevant than the rst one :
218
= Denition 5 Let AKi K, V, promote, i be the value-based argumentation KBase of the audience ai and A = , , B = , A(K) two arguments. A defeats B for the audience ai (written defeatsi (A, B )) iff 1 , 2 , ( L, 1 and 2 ) (leveli (1 ) i leveli (2 )). Similarly, we say that a set S of arguments defeats B if B is defeated by one argument in S . By denition, two equally relevant arguments both defeat each other. Considering each audience own viewpoint, we dene the subjective acceptance notion : Denition 6 Let AKi = K, V, promote, i be the value-based KBase of the audience ai . Let A A(K) be an argument and S A(K) a set of arguments. A is subjectively acceptable by the audience ai with respect to S iff B A(K) defeatsi (B, A) defeatsi (S, B ). The following example illustrates our argumentation-based representation framework. Example 1 Let us consider the case presented in Section 2. The value-based KBase of two different audiences a1 and a2 are represented in the gure 1 and in the gure 2. The different claims 1 (x), . . . , 72 in a KBase relate to the different values v1 , . . . , v7 . On one side, the claims 1 (x), . . . , 61 (x) are in the T-box. On the other side, 71 and 72 are in the A-box. The more general the claim is, the higher the promoted value is. According to an audience, a value above another one in a table has priority over it. In order to decide if acrobat is a free software, The ve following arguments must be considered :
F IG . 1 The value-based KBase of the rst audience V1 K1 v1 1 (x) : Soft(x) Free(x) Nonfree(x) v2 2 (x) : Nonfree(x) Freeware(x) B2 B2 v3 3 (x) : Free(x) Freeware(x) B1 v4 4 (x) : Free(x) Nonfree(x) B1 v5 5 (x) : Free(x) Opensource(x) v6 61 (x) : Opensource(x) Copyleft(x) v7 71 : Freeware(acrobat) B 72 : Copyleft(xpdf)
F IG . 2 The value-based KBase of the second audience V2 K2 v1 1 (x) : Soft(x) Free(x) Nonfree(x) v3 3 (x) : Free(x) Freeware(x) B1 B1 v2 2 (x) : Nonfree(x) Freeware(x) B2 v4 4 (x) : Free(x) Nonfree(x) B2 v5 5 (x) : Free(x) Opensource(x) v6 61 (x) : Opensource(x) Copyleft(x) v7 71 : Freeware(acrobat) B 72 : Copyleft(xpdf)
table wrt A(K). According to the second ) defeats B2 (resp. audience, B1 (resp. B1 B2 ) but B2 (resp. B2 ) does not defeat B1 (resp. B1 ). Therefore, the set {B, B1 , B1 } is subjectively acceptable wrt A(K). We have dened here the representation framework to manage interactions between conicting claims. In the next section, we present a model of agents which puts forward claims and takes into account other claims coming from their interlocutors.
B = [Freeware(acrobat)], Freeware(acrobat) ; = [Freeware(acrobat), B1 Free(x) Freeware(x))], Free(acrobat) ; = [Freeware(acrobat), B2 Nonfree(x) Freeware(x))], Nonfree(acrobat) ; B1 = [Freeware(acrobat), Free(x) Freeware(x), Free(x) Nonfree(x) ], Nonfree(acrobat) ; B2 = [Freeware(acrobat), Nonfree(x) Freeware(x), Free(x) Nonfree(x) ], Free(acrobat) ; (resp. B2 ) B is a sub-argument of B1 which is a sub-argument of B1 (resp. B2 ). (resp. B1 and B2 ) attack each B1 and B2 other. The relevance of B1 and B1 is v3 . The relevance of B2 and B2 is v2 . Accor (resp. B2 ) ding to the rst audience, B2 defeats B1 (resp. B1 ) but B1 (resp. B1 ) does not defeat B2 (resp. B2 ). Therefore, , B2 } is subjectively accepthe set {B , B2
5 Model of agents
In a multi-agent setting it is natural to assume that all the agents do not use exactly the same ontology. Since agents representations can be common, complementary or contradictory, agents have to exchange assumptions and to argue. Our agents individually evaluate the perceived commitments with respect to the estimated repu219
tation of the agents from whom the information is obtained. Agents, which have their own private representations, record their interlocutors commitments. Moreover, agents individually valuate their interlocutors reputation. Therefore, an agent is dened as follows : Denition 7 The agent ai A is dened by a 6-tuple ai = Ki , Vi , i , promotei , j =i CSi j , i where : Ki is a personal KBase, i.e. a set of personal claims in ALC ; Vi is a set of personal values ; promotei : Ki Vi maps from the personal claims to the personal values ; i is the priority relation, i.e. a strict complete ordering relation on Vi ; CSi j is a commitment store, i.e. a set of claims in ALC . CSi j (t) contains propositional commitments taken before or at time t, where agent aj is the debtor and agent ai the creditor ; i is the reputation relation, i.e. a strict complete ordering relation on A . The personal KBases are not necessarily disjoint. The commonsense claims are explicitly shared by all the agents. We call common KBase the set of commonsense claims explicitly shared by the agents1 : KA ai A Ki . Similarly, we call common values the values explicitly shared by the agents : VA ai A Vi . The common claims relate to the common values. For every KA , promoteA () = v VA . The personal KBase can be complementary or contradictory. Some claims can be shared without the agents being aware of it. These similarities between agents will be discovered during the dialogue. We call joint KBase the set of
1 We qualify with a value obtained through an intersecA tion over A
claims distributed in the system : KA = ai A Ki . The agents own claims relate to the agents own values. For every Ki KA , promotei () = v Vi VA . Reputation is a local perception of the interlocutor, a social concept that links an agent to her interlocutors, and a leveled relation. The different reputation relations, which are transitive, irreexive, asymmetric, and complete relations on A , preserve these properties. aj i ak denotes that an agent ai trusts an agent ak more than another agent aj . In order to take into account the claims notied in the commitment stores, each agent is associated with the following extended KBase : Denition 8 The extended KBase of the agent ai is the value-based KBase AK i = Ki , Vi , promotei , i where : Ki = Ki [ j =i CSi j ] is the agent extended personal KBase composed of its personal KBase and the set of perceived commitments ; i }] is the agent exten Vi = Vi [ j =i {vj ded set of personal values composed of the set of personal values and the reputation values associated with her interlocutors ; promote i : Ki Vi is the extension of the function promotei mapping claims in the extended personal KBase to the extended set of personal values. On the one hand, personal claims relate to personal values. On the other hand, claims in the commitment store CSi j relate to the i reputation value vj ; i is the agent extended priority relation, i.e. an ordered relation on Vi . Since the debate is a collaborative social process, agents share common claims of prime importance. That is the reason why we consider that the common values have priority over the other values.An agent a1 may estimate herself more competent than her interlocutor a2 and her personal values
220

1 have priority over v2 , i.e. the reputation value of the agent a2 . In this case, the extended priority relation of the agent a1 is constrained as follows : v VA v 1 V1 VA (v2 1 v 1 v ). We can easily demonstrate that the extended priority relation is a strict complete ordering relation. The one-agent notion of conviction is then dened as follows :
Denition 9 Let ai A be an agent associated with the extended KBase AK i = Ki , Vi , promotei , i and let ALC be a claim. The agent ai is convinced by the claim iff is the conclusion of an acceptable argument for the audience ai with respect to A(Ki ). The set of acceptable arguments for the audience ai with respect to A(Ki ) is denoted by Si . Let us know consider how claims are produced. Agents utter messages to exchange their representations. The syntax of messages is in conformance with the common communication language, CL. A message Mk = Sk , Hk , Ak CL has an identier Mk . It is uttered by a speaker (Sk = speaker(Mk )) and addressed to an hearer (Hk = hearer(Mk )). Ak = act(Mk ), the message speech act, is composed of a locution and a content. The locution is one of the following : question, request assert, propose, refuse, unknow, concede, challenge, withdraw. The content, also called assumption, is a claim or a set of claims in ALC . Speech acts have a public semantic, since commitments enrich the extended KBase of the creditors, and an argumentative semantic, since commitments are justied by the extended KBase of the debtor. For example, Figure 3 shows the semantics associated with the assertion of an assumption. An agent can propose an assumption if she has an ar-
gument for it. The corresponding commitments stores are updated. The speech act propose has the same argumentative/public semantics. refuse() is equivalent to assert(). As we will see in Section 7, these latter do not have the same place in the sequence. The rational conditions for the assertion and for the concession of the same assumption by the same agent are different. Agents can assert an assumption whether they are supported by a trivial argument or not. By contrast, agents do not concede all the assumptions they hear in spite of all assumptions are supported by a trivial argument. The others speech acts (question, request, unknow, challenge, and withdraw) are used to manage the sequence of moves (see Section 7). They have no particular effects on commitments stores, neither particular rational conditions of utterance. We assume that the commitments stores are cumulative, i.e. no commitment can be retracted. This is the reason why the speech act withdraw(h) has no effect on the commitments stores. The assumptions which are received must be valuated. For this purpose, commitments will be individually considered in accordance with the speaker estimated reputation. The following example illustrates this principle. Example 2 Let us consider two agents, a service provider (denoted prov) and a customer (denoted cust). It is worth recalling that the service provider considers that customers claims make authority and adjust her own representation to adopt these claims. The initial personal KBase of the service provider is the set {1 (x), 3 (x)4 (x), 5 (x), 61 (x), 71 , 72 } and the personal KBase of the customer is the set {1 (x), 2 (x), 4 (x), 62 (x)}. If the customer utters the two following messages : M1 = cust, prov, assert(Free(acrobat)) ,
221
F IG . 3 Semantics for asserting an assumption at time t M ESSAGE : Ml = ai , aj , assert() A RGUMENTATIVE SEMANTICS : A A(Ki ) conc(A) = P UBLIC SEMANTICS : For any agent ak in the audience k if A(Kk ) then CSk i (t) = CSi (t 1) {} M2 = cust, prov, During exchanges, the speech acts are assert(2 (acrobat), 4 (acrobat), 71 ) . not isolated but they respond each other. then the extended KBase of the service The syntax of moves is in conformance provider is represented as in Table 1. The with the common moves language : ML extended KBase of the service provider dened as follows : a move movek = is composed of her personal claims and Mk , Rk , Pk ML has an identier the claims advanced by the customer. movek . It contains a message Mk as deThe extended set of personal values is ned before. The moves are messages composed of the set of personal values with some attributes to control the seand the reputation value of the customer. quence. Rk = reply(movek ) is the idenThe common claim 1 (x) is related to tier of the move to which movek rethe common value v1 . The claims in the sponds. A move (movek ) is either an inicommitments is related to the reputation tial move (reply(movek ) = nil) or a revalue of the customer. By uttering the plying move (reply(movek ) = nil). Pk = message M1 , the customer advances the protocol(movek ) is the name of the prototrivial argument col which is used during the dialogue. B3 = [Free(acrobat)], Free(acrobat) . Despite the service provider is convinced A dialectical system is composed of two by this assumption, she cannot concede it. agents. In this formal area, two agents play Indeed, this assumption is only supported moves to check an initial assumption, i.e. by a trivial argument in the commitment the topic. stores. By uttering the message M2 , the customer advances the non-trivial argument B2 bearing on the service provider Denition 10 Let = KA , VA , promoteA own claims. Therefore, this last one can AKA concede Free(acrobat). The only free be a common value-based KBase software she can propose is xpdf. and 0 a claim in ALC . The dialectical system on the topic 0 is = We have presented here a model of agents a quintuple DSM (0 , AKA ) N, H, T, protocol , Z where : who exchange assumptions and argue. In the next section, we provide a dialectical N = {init, part} A is a set of two agents called players : the initiator and system where debates take place. the partner ; H is the set of histories, i.e. the se6 Dialectical system quences of well-formed moves s.t. the speaker of a move is determined at each When a set of social and autonomous stage by a turn-taking function and the agents argue, they reply to each other in moves agree with a protocol ; order to reach the goal of the interaction. T : H N is the turn-taking funcWe provide a dialectical system, which is tion determining the speaker of a move. If |h| = 2n then T (h) = init else inspired by [7] and adapted to the dialogue T (h) = part ; on representations.
222
prov
TAB . 1 The extended KBase of the service provider Vprov Kprov v1 1 (x) : Soft(x) Free(x) Nonfree(x) prov vcust CSprov B3 cust = {Free(acrobat), 2 (acrobat) : Nonfree(acrobat) Freeware(acrobat)} B2 B2 v3 3 (x) : Free(x) Freeware(x) B1 v4 4 (x) : Free(x) Nonfree(x) B1 v5 5 (x) : Free(x) Opensource(x) A v6 61 (x) : Opensource(x) Copyleft(x) v7 71 : Freeware(acrobat) B 72 : Copyleft(xpdf)
rule (srQ/A ), the hearer of a question (question()) is allowed to respond with a conrmation (assert()), or with an invalidation (assert()), or with a plea of ignorance (unknow()). The Request/Propose rule (srR/P ) is quite similar. The hearer of a request (request((x))) is allowed to respond either by asserting an instantiation of this assumption (assert((a))), or with a plea of ignorance (unknow((x))). The respond can resist or surrender to the previous speech act. For example, the Assert/Welcome rule (written srA/W ) species authorized moves replying to the previous assertions (assert()). Contrary to resisting acts, surrendering acts close the dialogue line. A concession (concede()) surrenders to the previous proposition. A challenge (challenge()) and a refuse (refuse()) resist to the previous proposition. We consider here the requesting multiresponse persuasion protocol (denoted ReqMultiResPersProto) using the following rules : srR/P , srA/W , and srC/A . In order to enrich her representation with a partner, an initiator begins a dialogue with a request in the game situation 0init . If the partner has no representation for the topic, she pleads ignorance and closes the dialogue (see game situation 2.1 ). The goal of the dialogue is to reach an agreement
223
protocol : H M is the function determining the moves which are allowed or not to expand an history, where M ML is the set of all well-formed moves ; Z is the set of dialogue, i.e. terminal histories. In order to be well-formed, the initial move is a question about the topic from the initiator to the partner and a replying move from a player always references an earlier move uttered by the other player. In this way, backtracking are allowed. We call dialogue line the sub-sequence of moves where all backtracks are ignored. In order to avoid loops, assumptions redundancy is forbidden within assertions. We have bound here the area in which dialogues take place. We formalize in the next section a particular protocol to reach a representation agreement.
7 Protocol
When two agents have a dialogue, they collaborate to reconcile their representations. For this purpose, we propose in this section a protocol. A protocol is determinated by a set of sequence rules (see Table 2). Each rule species authorized replying moves. According to the Question/Answer
TAB . 2 Set of speech acts and their potential answers. Sequences rules Speech acts Resisting replies Surrendering replies srQ/A question() assert() unknow() assert() srR/P request((x)) propose((a)) unknow((x)) srA/W assert() challenge(), concede() refuse(), srC/A challenge() assert(), withdraw()
over representations by verbal means. The following example illustrates such a dialogue. Example 3 Let us consider again the dialogue presented in Section 2. Table 3 shows how, using the protocol, the two agents play the dialogue. This table details the different moves corresponding to the claims of the natural language dialogue. We can see that the commitments stores are the results of moves. At the beginning of the dialogue, 1 is the only claims explicitly shared by the agents (KA ). During exchanges, the service provider detects that she shares 4 with the customer. At the end of the dialogue, the set of claims explicitly shared increases. In other terms, the agents co-build a common ontology during the dialogue. layered communication mechanism. [9] proposes a framework to solve on-line the semantic heterogeneity by exploiting the topological properties of the representation. This work considers one-shot interaction steps. As we have already said, we have extended the formal framework for inter-agents dialogue based upon the argumentative techniques proposed by [7]. Since the denotational semantics of the description logic is adapted to the knowledge representation, the background logic has shift from the rst order logic program to the description logic.
9 Conclusion
In this paper, we have proposed a framework for inter-agents dialogue to reach an agreement, which formalizes a debate in which divergent representations are discussed. For this purpose, we have proposed an argumentation-based representation framework which manages the conicts between claims with different relevances for different audiences to compute their acceptance. Moreover, we have proposed a model for the reasoning of agents where they justify the claims to which they commit and take into account the claims of their interlocutors. We provide a dialectical system in which two agents participate in a dialogue to reach an agreement about a conict in representations. In this work, we have focused on multi-agent systems but, as suggested by the example, our approach is also relevant to the Semantic Web, where different services performing
8 Related works
[6] provides a framework for agents to reach an agreement over ontology alignment. Argumentation is used to select a correspondence among candidate correspondences, according to the ontological knowledge and the agents preferences. This approach is static because alignments have been achieved off-line. [10] proposes the ANEMONE approach for solving semantic integration problems. Instead of trying to solve ontology problems at design time, ANEMONE provides agents with tools to overcome ontology problems at agent interaction time and focus on the
224
TAB . 3 Dialogue to reach an agreement. Natural language sentences, corresponding to the dialogue presented in 2, are given in association with their dialogue , then the new the commitment stores and the reached game situation are given.
Kcust KA
Kcust 2 (x), 4 (x) 62 (x).

idem
idem
idem
idem
idem
idem
idem
idem
CScust prov
KA 1 Game situation 0cust
Kprov KA
CSprov cust
Kprov 3 (x), 4 (x), 5 (x), 61 (x), 71 , 72 .
idem
idem
idem
idem
idem
Do you know free software to view my PDF ? move1 = cust, prov, request(Free(x)), nil, ReqMultiResPersProto 1prov idem acrobat is free software. move2 = prov, cust, propose(Free(acrobat)), move1 , ReqMultiResPersProto Free(acrobat) 2.2cust idem Why is it free software ? move3 = cust, prov, challenge(Free(acrobat)), move2 , ReqMultiResPersProto Free(acrobat) 3.3prov idem acrobat is free because this is freeware. move4 = prov, cust, assert(3 (acrobat), 71 ), move3 , ReqMultiResPersProto Free(acrobat), 3 (acrobat), 71 4.3cust idem In my humble opinion, acrobat is not free software. move5 = cust, prov, refuse(Free(acrobat)), move2 , ReqMultiResPersProto Free(acrobat), 3 (acrobat), 71 3.1prov Free(acrobat) idem Why is it not free software ? move6 = prov, cust, challenge(Free(acrobat)), move5 , ReqMultiResPersProto Free(acrobat), 3 (acrobat), 71 . 4.1cust Free(acrobat). idem Since acrobat is freeware, this is not free software. move7 = assert(2 (acrobat), 4 (acrobat), 71 ), move6 , ReqMultiResPersProto Free(acrobat), 3 (acrobat), 71 . 5.2prov Free(acrobat), 2 (acrobat). idem OK, however xpdf is free software. move8 = prov, cust, propose(Free(xpdf)), move1 , ReqMultiResPersProto Free(acrobat), 3 (acrobat), 71 , 2.2cust Free(acrobat), 2 (acrobat). idem Free(xpdf). Why is it free software ? move9 = cust, prov, challenge(Free(xpdf)), move8 , ReqMultiResPersProto Free(acrobat), 3 (acrobat), 71 , 3.3prov Free(acrobat), 2 (acrobat). idem Free(xpdf). xpdf is free software because it is opensource. move10 = prov, cust, assert(Opensource(xpdf), 5 (xpdf)) , move9 , ReqMultiResPersProto Free(acrobat), 3 (acrobat), 71 , 4.3cust Free(acrobat), 2 (acrobat). idem Free(xpdf), Opensource(xpdf), 5 (xpdf). Why is it opensource ? move11 = prov, cust, challenge(Opensource(xpdf)), move10 , ReqMultiResPersProto Free(acrobat), 3 (acrobat), 71 , 5.5prov Free(acrobat), 2 (acrobat). idem Free(xpdf), Opensource(xpdf), 5 (xpdf). xpdf is opensource because it is copyleft. move12 = prov, cust, assert(72 (xpdf), 61 (xpdf)), move11 , ReqMultiResPersProto Free(acrobat), 3 (acrobat), 71 , 6.2cust Free(acrobat), 2 (acrobat). idem Free(xpdf), Opensource(xpdf), 5 (xpdf), 72 (xpdf), 61 (xpdf). OK, I will consider xpdf ? move13 = prov, cust, concede(Free(xpdf)), move8 , ReqMultiResPersProto Free(acrobat), 3 (acrobat), 71 , 3.2 Free(acrobat), 2 (acrobat), idem Free(xpdf), Opensource(xpdf), 5 (xpdf), 72 (xpdf), 61 (xpdf).
225
the same tasks may advertise their capabilities differently, or where service requests, and service offers may be expressed by using different ontologies, and thus need to be reconciled dynamically at run time. While this work focuses on single dialogues between two heterogeneous agents, future investigations must explore how this solution, when it will be implemented, scales to multi-agent systems where dialogues are amongst multiple parties and sequenced.
Acknowledgements
The authors like to thank Yann Secq, JeanPaul Sansonnet, and Philippe Mathieu for their willingness to discuss this issue with us. Thanks are also due to Fariba Sadri and Paolo Mancarella for their advice to improve the English of this paper. We would like to thank the anonymous reviewers for their detailed comments on this paper. The rst author is supported by the Sixth Framework IST programme of the EC, under the 035200 ARGUGRID project. The second author is supported by the CPER TAC of the region Nord-Pas de calais and the european fund FEDER.
Rfrences
[1] S. Bailin and W. Truszkowski Ontology negotiation between intelligent information agents Knowledge Engineering Review, 17(1), pages 719, Cambridge University Press (2002). [2] T.J.M Bench-Capon. Value based argumentation frameworks. In Proceedings of NMR02, pages 444453, Toulouse, France (2002). [3] Phan Minh Dung. On the acceptability of arguments and its fundamental role in nonmonotonic reasoning, logic programming and n-person games Articial Intelligence, 77(2), pages 321 357, Springer-Verlag (1995).
226
[4] Jrme Euzenat and Petko Valtchev Similarity-Based Ontology Alignment in OWL-Lite in Proc. of ECAI, pages 333-337, IOS Press (2004). [5] Thomas R. Gruber Toward principles for the design of ontologies used for knowledge sharing International Journal of Human-Computer Studies, 43(5-6), pages 907928, Academic Press (1995). [6] Loredana Laera Valentina Tamma, Jrme Euzenat, Trevor Bench-Capon and Terry Payne Reaching agreement over ontology alignments. In Proc. of ISWC, pages 371-384, SpringerVerlag (2006). [7] Maxime Morge Collective decision making process to compose divergent interests and perspectives Articial Intelligence and Law, 13(1), pages 7592, Springer-Verlag, (2005). [8] Schmidt-Schau M. and Smolka, G. Attributive concept descriptions with complements Articial Intelligence, 48(1), pages 126, Springer-Verlag (1991). [9] Erika Valencia and Jean-Paul Sansonnet Building Semantic Channels between Heterogeneous Agents with Topological Tools In Proc. of ESAW, Barcelona, Spain (2004). [10] Van Digglen Jurriaan, Beun RobbertJan, Dignum Frank, Van Eijk Rogier and Meyer John-Jules Anemone : An effective minimal ontology negotiation environment In Proc. of AAMAS, pages 899906, ACM Press (2006). [11] Douglas N. Walton and Eric C. W. Krabbe Commitment in Dialogue, SUNY Press (1995).
Vers un modle formel des motions dun agent rationnel dialoguant empathique
M. Ochs
D. Sadek
C. Pelachaud
Orange Labs, France {magalie.ochs, david.sadek}@orange-ftgroup.com
Laboratoire LINC, Universit Paris 8, France c.pelachaud@iut.univ-paris8.fr ticular mental states, i.e. particular combinations of beliefs, uncertainties, and intentions. The intensity of emotions is computed from the agents mental state. This formalization of emotions is used to represent empathic emotions. Keywords: Emotions, empathy, rational dialog agent
Rsum : Les travaux prsents dans cet article visent concevoir et mettre en oeuvre des agents rationnels dialoguants capables dexprimer des motions, et plus particulirement des motions dempathie, durant leur interaction avec lutilisateur an damliorer linteraction humain-machine. Pour ce faire, les agents rationnels dialoguants doivent tre capables didentier les situations dinteraction dans lesquelles leur interlocuteur peut ressentir des motions. A partir de la littrature en psychologie cognitive et dune analyse dun corpus de dialogues rels humain-machine, nous avons identi certaines circonstances de dclenchement dmotions positives et ngatives pouvant apparatre dans une interaction humain-machine. Sur cette base, un modle formel dmotions dun agent rationnel dialoguant a t construit. Les conditions de dclenchement dmotions sont reprsentes par des tats mentaux particuliers, i.e. par des combinaisons particulires de croyances, dincertitudes et dintentions. Lintensit de lmotion est calcule partir de ltat mental de lagent. Cette formalisation des motions permet de reprsenter les motions dempathie envers dautres agents. Mots-cls : motions, empathie, agent rationnel dialoguant Abstract: The work presented in this paper aims to develop rational dialog agents able to express emotions, and more particularly empathic emotions, during their interaction with a user in order to enhance humanmachine interaction. An empathic rational dialog agent should know the circumstances under which a user may feel an emotion. Relying on psychological theory of emotion elicitation and on a study of real human-machine dialogs during which the user expresses emotions, we have highlighted some situations that may lead to a users emotion elicitation. From the descriptions of these emotional situations, a formal model of emotions for a rational dialog agent has been designed. The conditions of emotion elicitation are represented in terms of par-
1 Introduction
Ces dernires annes, un intrt grandissant est apparu pour la conception et le dveloppement dagents conversationnels capables de dialoguer naturellement avec un utilisateur. Ces agents sont souvent utiliss pour interprter des rles typiquement incarns par des humains, comme par exemple le rle de tuteur [Johnson et al., 2000]. Des recherches rcentes ont montr que les expressions dmotions dagents virtuels permettent de crer une illusion de vie et ainsi daugmenter leur crdibilit (traduction du terme anglais believability) [Bates, 1994]. De plus, comme la soulign Picard [Picard, 1997], lutilisateur ressent de nombreuses motions durant son interaction avec un ordinateur. Il peut, par exemple, ressentir et exprimer des motions ngatives lors de dfaillances du systme informatique ou des motions positives lorsquil ralise une tche avec succs. Les premires recherches semblent montrer que lexpression dmotions empathiques dun agent conversationnel permet damliorer la perception qua lutilisateur de lagent, dinduire des
227
Vers ___________________________________________________________________________ un modle formel des motions d'un agent rationnel dialoguant empathique
motions positives et daugmenter les performances et lengagement de lutilisateur dans la ralisation dune tche durant linteraction [Brave et al., 2005, Helmut and Mitsuru, 2005]. Les travaux prsents dans cet article visent concevoir et mettre en oeuvre des agents conversationnels capables dexprimer des motions, et plus particulirement des motions dempathie, durant leur communication avec lutilisateur an damliorer linteraction humain-machine. Lempathie se dnit comme la capacit de se mettre mentalement la place dautrui an de comprendre ce quil prouve [Pacherie, 2004]. Lors du processus dempathie, un individu simule mentalement une situation vcue par une autre personne ; il simagine sa place (cest-dire avec les mmes buts et les mmes croyances et dans cette mme situation) et imagine alors lmotion ressentie par cette personne. Par cette simulation motionnelle, lindividu peut tre amen ressentir une motion similaire, appele dans ce cas motion empathique [Poggi, 2004]. Dans une interaction humain-machine, un agent conversationnel exprime une motion empathique lorsquil pense que dans la situation de lutilisateur il ressentirait la mme motion. Cette croyance sur ltat motionnel potentiel de lutilisateur doit tre issue non pas de la perception de lmotion (dans ce cas il sagirait dune contagion motionnelle [Poggi, 2004]), mais de la simulation du processus de dclenchement des motions de lutilisateur. En dautres termes, un agent conversationnel empathique doit, en adoptant la perspective de lutilisateur, en dduire ses motions. Par consquent, il doit connatre les conditions dans lesquelles un individu peut potentiellement ressentir une motion. A partir dune analyse de corpus de dialogues humain-machine dans lesquels lutilisateur exprime des motions et la lumire de thories de psychologie cognitive, nous
228
avons mis en vidence les circonstances de dclenchement de certaines motions de lutilisateur. Dans cet article, nous proposons une modlisation et une formalisation de ces motions et de leurs conditions de dclenchement. Les agents conversationnels auxquels nous nous intressons plus particulirement sont les agents rationnels dialoguants, des agents de type BDI fonds sur une thorie formelle de linteraction, appele Thorie de lInteraction Rationnelle [Sadek, 1991]. An de doter ces agents de la capacit dinfrer les motions potentiellement ressenties par lutilisateur durant linteraction, les conditions de dclenchement dmotions sont dcrites partir des attitudes mentales de croyance, dincertitude et dintention dun agent rationnel. Lintensit des motions est calcule partir de ltat mental de lagent. Dans une premire partie, nous dcrivons les caractristiques des motions et de leur condition de dclenchement. Dans une seconde partie, aprs avoir introduit le concept dagent rationnel dialoguant, nous prsentons une formalisation des motions et de leur intensit.
2 Les motions dans une interaction humain-machine

An de dterminer quel moment exprimer une motion empathique, lagent conversationnel doit connatre les situations dinteraction dans lesquelles lutilisateur pourrait potentiellement ressentir une motion. Notre approche pour dterminer les conditions de dclenchement des motions dun utilisateur durant linteraction est fonde la fois sur des thories cognitives des motions (appeles thories de lvaluation cognitive) et sur une analyse de corpus de dialogues rels humainmachine o lutilisateur exprime des motions.
2.1 Les conditions de dclenchement des motions Les thories de lvaluation cognitive (appraisal) (e.g. [Scherer, 2000, Roseman, 2001, Ortony et al., 1988]) visent expliquer ce qui conditionne lmergence dune motion particulire pour un individu donn. Selon ces thories, une motion est issue de lvaluation subjective dun vnement [Scherer, 2000]. Un vnement est gnrateur dmotion seulement si lindividu pense que cet vnement affecte un de ses buts [Lazarus, 2001]. Un des lments dterminant dans le dclenchement dune motion est la relation entre lvnement et le but de lindividu (i.e. limpact de lvnement sur le but). Par exemple, une motion de peur est dclenche chez un individu lorsquil pense que son but de survie est menac. Gnralement, une motion positive est gnre quand lvnement facilite ou permet de raliser un but. Elle est ngative lorsque lvnement entrave la ralisation dun but. Linterprtation de lvnement, et par consquent lmotion dclenche, dpendent principalement des buts de lindividu et de ses croyances (sur lvnement et ses consquences). Limplication de ces attitudes mentales propres chaque individu dans le dclenchement des motions permet dexpliquer les ractions motionnelles diffrentes dindividus distincts face une mme situation.
Lanalyse des corpus de dialogues humainmachine. Les thories de lvaluation cognitive.
machine. Les dialogues ont t annots an de mettre en vidence les croyances et les buts des utilisateurs dans les situations motionnelles. Les dialogues analyss sont issus de deux applications vocales dveloppes Orange Labs o lutilisateur interagit oralement avec un agent dialoguant pour obtenir une information dans un domaine particulier (transactions boursires, guide de restaurants). Un schma de codage, fond la fois sur des thories de lvaluation cognitive [Scherer, 2000, Ortony et al., 1988] et sur la thorie des actes de langage [Austin, 1962], a t utilis pour lannotation (pour plus de dtails sur le schma de codage, des exemples de dialogues et lanalyse des corpus voir [Ochs et al., 2006]). Lanalyse des dialogues annots a permis de mettre en vidence les hypothses ci-dessous sur les situations gnratrices dmotions ngatives1 dans une interaction humainmachine. Un vnement peut tre dclencheur dmotions ngatives chez lutilisateur lorsquil entrane lune des situations suivantes : lchec dune tentative de satisfaction dintention2 de lutilisateur quil pensait pouvoir satisfaire ; un conit de croyance sur une intention : lutilisateur pense que lagent conversationnel considre que lutilisateur a une intention que celui-ci na pas. Les thories de lvaluation cognitive et les hypothses issues de lanalyse de corpus de dialogues permettent de mettre en vidence certaines situations dans lesquelles des motions (positives ou ngatives) dun utilisateur peuvent tre dclenches. Par ailleurs, un agent conversationnel empathique doit aussi tre capable de se reprsenter une motion.
1 Dans le corpus de dialogues, aucun cas dexpression dmotion positive na pu tre tudi. 2 Dans les dialogues humain-machine tudis, nous avons plus particulirement observ les intentions de lutilisateur et de lagent. Une intention est un but persistant davoir agi pour atteindre une situation donne [Sadek, 1991].
An didentier plus concrtement les conditions de dclenchement des motions dun utilisateur lors de son interaction avec un agent conversationnel, nous avons analys des dialogues qui ont amen lutilisateur exprimer des motions. Lobjectif est de dterminer les caractristiques des situations dialogiques gnratrices dmotions dans le contexte de dialogue humain-
229
2.2 La reprsentation des motions dun agent conversationnel Gnralement, une motion est reprsente par diffrentes caractristiques. Nous prsentons ci-dessous celles ncessaires la description des motions dun agent conversationnel. Une motion est gnralement dcrite par son type (comme par exemple la joie, la satisfaction, la colre, la frustration, etc.). Selon les thories de lvaluation cognitive [Scherer, 2000, Ortony et al., 1988], ce sont les conditions de dclenchement de lmotion qui dterminent son type. Le type dune motion renseigne gnralement sur la valence (positive versus ngative) de lmotion. Dans cet article, nous distinguons les types dmotion suivant leur valence : nous regroupons les types dmotion positive (respectivement ngative) sous le terme motion positive (respectivement ngative). Certains types dmotion ont comme cible autrui. Par exemple, on est en colre contre quelquun ou on admire quelquun. Ces types dmotions sont alors caractrises par la personne vers qui est dirige lmotion. Les motions dempathie, quelles que soit leur type, sont, elles aussi, par dnition des motions diriges vers une autre personne, celle pour laquelle on a de lempathie. On est par exemple joyeux pour quelquun ou triste pour quelquun dautre. Elles sont donc caractrises par la personne vers qui est dirige lmotion dempathie. De plus, dans le cas de certains types dmotions dempathie comme la colre ou ladmiration, lmotion est dirige vers deux individus distincts : lindividu pour qui on a de lempathie et lindividu cible. Par exemple, dans le cas de la
230
Les motions diriges vers autrui. Les types dmotion.
colre, un individu a une motion dempathie de colre pour un individu a contre un individu b. Comme dans le modle OCC [Ortony et al., 1988], nous distinguons les motions empathiques des motions non empathiques. Par consquent, le fait quun agent soit joyeux pour quelquun ne signie pas quil a une motion non empathique de joie. A une motion est gnralement associe une valeur numrique reprsentant son intensit. Lintensit des motions est dtermine par des valeurs de variables appeles variables dintensit [Ortony et al., 1988]. Dans le contexte du dialogue humain-machine, nous considrons les variables dintensit suivantes : le degr de certitude dune information reprsente la probabilit quune information soit vraie selon lindividu. Daprs notre analyse de corpus ( 2.1), dans le cas de lchec dune tentative de satisfaction dune intention, lintensit de lmotion ngative semble tre proportionnelle au degr de certitude : plus un agent tait certain (avant lvnement) de pouvoir satisfaire son intention par lvnement qui vient davoir lieu, plus lmotion ngative gnre par lchec est forte. A linverse, nous supposons, fond sur le modle OCC [Ortony et al., 1988], que lintensit dune motion positive est inversement proportionnelle au degr de certitude : plus un agent tait incertain avant lvnement (i.e. plus le degr de certitude tait faible) de pouvoir satisfaire son intention par lvnement qui vient davoir lieu, plus lmotion positive gnre par la satisfaction de lintention est forte. leffort investi par un individu pour tenter datteindre un but va inuencer lintensit de lmotion dclenche. Lintensit de lmotion est gnralement dautant plus forte que leffort pour
Lintensit dune motion.
tenter de satisfaire le but est important [Ortony et al., 1988]. Ainsi, lors de lchec dune tentative de satisfaction dune intention dun individu, lmotion dclenche sera dautant plus forte quil aura investi beaucoup deffort pour tenter de la satisfaire. le potentiel de raction : lors de lchec dune tentative de satisfaction dune intention, nous mettons lhypothse que si lindividu pense pouvoir satisfaire son intention par une autre action, lintensit de lmotion dclenche est moins forte. limportance pour lindividu que son intention soit satisfaite : lorsquun vnement permet la satisfaction ou engendre lchec dune tentative de satisfaction dune intention de lindividu, lintensit de lmotion est proportionnelle limportance pour lindividu que cette intention soit satisfaite. Typiquement, lintention de fermer une porte est gnralement moins importante que celle dtre heureux. Lors de lchec de lintention de fermer la porte, lintensit de lmotion dclenche est moins forte que dans le cas de lchec de lintention dtre heureux. En rsum, une motion peut tre reprsente par ses conditions de dclenchement lesquelles vont dterminer son type, sa direction et son intensit.
3.1 Le concept dagent rationnel dialoguant Nous nous appuyons sur un modle dagent rationnel fond sur une thorie formelle de linteraction (appele Thorie de lInteraction Rationnelle [Sadek, 1991]) reposant sur une approche de type BDI. Un agent rationnel dialoguant utilise les attitudes mentales suivantes pour raisonner et agir sur son environnement : La croyance : une proposition constitue une croyance dun agent si celui-ci considre que cette proposition est vraie. La croyance est lattitude mentale par laquelle un agent dispose dun modle du monde dans lequel il volue. Lincertitude : une proposition constitue une incertitude dun agent si celuici nest pas tout fait certain que cette proposition est vraie. Le choix : une proposition constitue un choix dun agent si celui-ci prfre que le monde actuel satisfasse cette proposition. Lintention : une proposition constitue lintention dun agent lorsque (1) il pense que la proposition nest actuellement pas vrie, (2) il dsire de faon persistante que cette proprit soit ralise jusqu ce quil pense cette proposition satisfaite ou impossible satisfaire et (3) il souhaite accomplir le dbut de toute squence dactions (ventuellement multi-agent) qui peut aboutir la satisfaction de la proposition. Dans la Thorie de lInteraction Rationnelle [Sadek, 1991], les concepts dattitudes mentales dcrits ci-dessus sont formaliss dans le cadre dune logique modale du premier ordre. Nous introduisons brivement les aspects du formalisme dont nous nous servons. Dans la suite les symboles , , , et reprsentent les connecteurs logiques classiques de ngation, conjonction, disjonction, implication et quivalence. Les symboles et
231
3 Modlisation et formalisation des motions dun agent rationnel dialoguant

A partir de la description des caractristiques dune motion introduite ci-dessus, un modle formel de lmotion fond sur un modle des tats mentaux dun agent rationnel dialoguant a t construit. Aprs une introduction du concept dagent rationnel dialoguant, nous prsentons plus en dtails la modlisation et la formalisation des motions.
reprsentent les quanticateurs existentiels et universels, et des formules, c, c1 des variables numriques, i, j et k des variables schmatiques dnotant des agents, type une variable reprsentant un type dmotion, e, e1 , e2 des squences dvnements ventuellement vides. Les attitudes mentales de croyance, dincertitude et de choix sont formalises respectivement par les oprateurs modaux B , U et C tel que Bi peut tre lue comme lagent i pense que est vraie ; Ui,pr peut tre lue comme lagent i considre que a une probabilit pr dtre vraie avec pr ]0, 1[ ; Ci peut tre lue comme lagent i a le dsir que soit vraie. Loprateur modal composite dintention I est dni partir des oprateurs de croyance et de choix. La formule Ii peut tre lue comme lagent i a lintention que soit vraie. Un agent passe dun tat mental un autre suite loccurrence dun vnement. La notion de temps est dnie par rapport aux vnements et formalise travers les oprateurs F aisable et F ait. F aisable(e, ) signie que lvnement e peut avoir lieu aprs quoi sera vraie. Cette oprateur dcrit le futur proche. La formule F ait(e, ) signie que lvnement e vient juste davoir lieu avant quoi tait vraie (F ait(e) F ait(e, vrai)). Cet oprateur dcrit le pass proche. La notion de souvenir permet un agent de comparer ses croyances courantes ses croyances antrieures un vnement. Le souvenir de la croyance dune proposition dun agent i avant un vnement e est formalis par lattitude mentale de croyance suivante : Bi (F ait(e, Bi )). Labrviation Unitaire(e) signie que e dnote un vnement unitaire. La formule Agent(i, e) est vrai si et seulement si lagent i est lauteur de lvnement e. Les oprateurs B , C , F aisable et F ait obissent une smantique des mondes possibles avec pour chaque oprateur une relation daccessibilit. La logique de la croyance est KD45 (pour plus de dtails
232
voir [Sadek, 1992]). 3.2 Modlisation et formalisation des motions dun agent rationnel dialoguant Un vnement ayant lieu dans lenvironnement dun agent peut gnrer une motion lorsquil affecte une de ses intentions (ou une intention de son interlocuteur)3 . Nous appelons motion dclenche une motion qui vient dtre dclenche par un vnement. Elle est reprsente par son type, son intensit, lagent chez qui lmotion a t dclenche, lagent vers qui elle est dirige, lvnement qui la dclench et lintention affecte par lvnement. Pour modliser les motions dclenches non empathiques, le langage logique est enrichi dun oprateur modal dmotion Emotioni pour chaque agent i. La formule Emotioni (type, c, j, e, ) peut tre lue comme lagent dnot par i a une motion non empathique de type type et dintensit c envers lagent j ; cette motion est dclenche par lvnement e ayant affect lintention de lagent i de raliser la proprit dnote par . Lorsque i et j dsigne le mme agent, la formule reprsente une motion non dirige vers un autre agent ( 2.2). En effet, lagent dnot par i reprsente la fois celui chez qui lmotion est dclenche et celui vers qui elle est dirige (une motion non dirige vers un autre agent est reprsente par une motion dirige vers lagent lui-mme). Une motion dclenche dempathie de lagent i pour lagent j est reprsente par loprateur modal Emotion_empi,j . La formule Emotion_empi,j (type, c, k, e, )
3 Dans cet article, nous nous intressons exclusivement aux motions dclenches lorsquune intention de lagent est affecte. Nous ne prenons pas en compte les motions relies aux choix (au sens dni dans [Sadek, 1991]) et standards (au sens dni dans [Ortony et al., 1988]) de lagent
La reprsentation dune motion dclenche.
peut tre lue comme lagent dnot par i a une motion dempathie envers lagent j de type type et dintensit c dirige vers lagent k, cette motion est dclenche par lvnement e ayant affect lintention de raliser la proprit dnote par de lagent j . Le type de lmotion reprsente est non dirige si j et k dsignent le mme agent. Pour reprsenter lmotion dempathie de lagent i pour lagent j dirige vers lagent k (comme par exemple lempathie de lagent i pour lagent j de colre contre lagent k), j et k doivent tre distincts. Une motion dclenche se dnit par ses conditions de dclenchement, lesquelles vont dterminer le type de lmotion, lagent chez qui lmotion est dclenche, lagent vers qui est dirige lmotion, lvnement dclencheur et lintention affecte. Lintensit de lmotion dpend de ces paramtres. Nous introduisons ci-dessous une modlisation et formalisation des variables dintensit utilises dans la suite pour calculer lintensit de lmotion dclenche. Nous dnissons ensuite formellement les motions dclenches. A partir des descriptions des variables dintensit (prsentes en 2.2), nous avons modlis et formalis ces dernires comme suit. Le degr de certitude de lagent i concernant la faisabilit dune proposition par un vnement e est not deg _cert(i, e, ) [0, 1] tel que : deg _cert(i, e, ) = 0 ssi Bi (F aisable(e, )) d_c ]0, 1[ ssi Ui,d_c (F aisable(e, )) 1 ssi Bi (F aisable(e, )) En dautres termes, si un agent pense que la proposition nest pas satisable par lvnement alors son degr de certitude est nul. Dans le cas contraire, le degr de certitude est gal 1. Enn, si lagent est
Lintensit des motions dclenches.
incertain quant la satisfaction de la proposition par lvnement alors le degr de certitude est gal la probabilit avec laquelle lagent pense cette proposition faisable. On note potentiel_reaction(i, ) le potentiel de raction de lagent i face lchec dune tentative de satisfaction dune intention . Pour le calcul du potentiel de raction, nous proposons les formules suivantes : potentiel_reaction(i, ) = ssi Bi (eFaisable(e, )) 0 d_c ssi d_c = max {proba|Ui,proba (F aisable(e, )} 1 ssi (eBi (Faisable(e, )) En dautres termes, si un agent pense quil nexiste pas dvnement permettant de satisfaire son intention qui vient dchouer, le potentiel de raction est nul. Dans le cas contraire, il est gal la plus haute probabilit selon lagent quune squence dvnements lui permet de satisfaire son intention. Le potentiel de raction est gal 1 si lagent pense quil existe une squence dvnements permettant de satisfaire son intention. On dnit leffort dun agent i pour tenter de satisfaire une intention (not effort(i, )) par le nombre dactions effectues par lagent pour tenter de satisfaire son intention : effort(i, ) = n, n N tel que Soit Evt = {e1 , . . . , em } tel que Bi (F ait(e1 ; . . . ; em , F aisable(e1 ; . . . ; em , ))) n = card{e Evt, Unitaire(e) e , e F ait(e ; e; e ) Agent(i, e)} Remarque : Les squences dvnements e et e (pouvant tre vides) sont introduites dans la formule ci-dessus an de caractriser lensemble des vnements raliss par lagent lui-mme et pas uniquement le dernier vnement qui vient dtre
233
ralis par lagent (qui se traduirait par la formule F ait(e) Agent(i, e)). Limportance dune intention pour un agent i note imp(i, ) est un nombre rel positif (imp(i, ) + ). Cette valeur reprsente limportance pour lagent que son intention soit satisfaite. Elle doit tre xe par le concepteur mais cela peut driver dun modle de prfrences de lagent. La fonction dintensit dtermine lintensit dune motion suivant le degr de certitude, le potentiel de raction, leffort et limportance de lintention. Ces quatre lments constituent les paramtres de la fonction. Nous proposons la fonction dintensit f _intensite suivante : f _intensite(deg _cert(i, e, ), potentiel_reaction(i, ), effort(i, ), imp(i, )) = deg _cert(i, e, ) potentiel_reaction(i, ) effort(i, ) imp(i, )
Dnitions formelles des motions dclenches.
vient de se produire (Bi (F ait(e))), (2) lagent avait avant lvnement e lintention (Ii ), (3) il pensait avec une probabilit p_r (ou il tait certain de) pouvoir satisfaire son intention par lvnement e (Ui,p_r (F aisable(e, )) Bi (F aisable(e, ))) et (4) aprs loccurrence de lvnement e, lintention de lagent nest toujours pas satisfaite (Bi ()). la satisfaction dune intention ; soit une intention de lagent i, e lvnement qui vient juste de se produire : real_intentioni (e, ) def Bi (F ait(e, Ii Bi (F aisble(e, )) ) La formule de satisfaction dune intention signie que (1) lagent i pense quun vnement e vient davoir lieu (Bi (F ait(e))), (2) lagent avait avant lvnement e lintention (Ii ), (3) il navait pas la croyance que loccurrence de lvnement e allait permettre la satisfaction de son intention (Bi (F aisable(e, )) et (4) aprs loccurrence de lvnement e, lintention de lagent est satisfaite (Bi ()). le conit de croyance sur une intention apparat lorsquun agent considre que son interlocuteur pense quil a une intention particulire que lagent ne pense pas avoir. Soit une proprit, i un agent et j son interlocuteur, e lvnement qui vient juste davoir lieu : conflit_croyance_inti (e, , j ) def Bi (F ait(e, Bj (Ii ()) Ii ()) Bj (Ii ()) Ii ()) La formule de conit de croyance sur une intention signie que lagent i pense quun vnement e vient de se produire (Bi (F ait(e))). Avant cet vnement, lagent i navait pas lintention (Ii ()) et pensait que lagent j navait pas la croyance quil
Fondes sur la littrature et sur notre analyse dun corpus de dialogues (2.1), les conditions de dclenchement des motions ainsi que leur intensit sont modlises et formalises comme suit. Nous introduisons tout dabord quelques dnitions nous permettant de dcrire dans la suite les conditions de dclenchement des motions : lchec dune tentative de satisfaction dune intention ; soit une intention de lagent i, e lvnement qui vient juste davoir lieu : echec_intentioni (e, ) def Bi (F ait(e, Ii (Ui,p_r (F aisable(e, )) Bi (F aisable(e, )))) ) Lchec dune tentative de satisfaction dune intention signie ainsi que (1) lagent i pense quun vnement e
234
avait cette intention (Bi (Bj (Ii ()))). Aprs lvnement e, lagent i na toujours pas lintention mais pense que lagent j croit quil a cette intention (Bi (Bj (Ii ())))
Les motions dclenches positives non empathiques.
si lvnement a entran lchec dune tentative de satisfaction dune intention de lagent : Emotioni (neg, c, i, e, ) def echec_intentioni (e, ) avec c = f _intensite(deg _cert(i, e, ), 1 potentiel_reaction(i, ), effort(i, ), imp(i, )) Lintensit de lmotion est proportionnelle au degr de certitude, leffort et limportance de lintention et 1 - le potentiel de raction. Une motion ngative cause par un autre agent est dirige contre ce dernier. Une motion ngative de lagent i envers lagent j dintensit c dclenche par un vnement e ayant affect la satisfaction dune intention de lagent est note Emotioni (type, c, j, e, ). Cette motion est dclenche lorsque lchec dune tentative de satisfaction dintention (une motion dclench ngative) est caus par un autre agent suite un conit de croyance sur cette intention. Emotioni (neg, c, j, e, ) def conflit_croyance_inti (e, , j ) Emotioni (neg, c, i, e, ) avec c = f _intensite(deg _cert(i, e, ), 1 potentiel_reaction(i, ), effort(j, )+ effort(i, ), imp(i, )) Lintensit de lmotion est proportionnelle au degr de certitude, limportance de satisfaire lintention, aux efforts de lagent j et i et 1 - le potentiel de raction. Cette formalisation des motions permet un agent rationnel dialoguant didentier les situations dans lesquelles une mo235
Une motion positive non empathique (et non dirige) dintensit c est dclenche chez lagent i par un vnement e par rapport une intention (note Emotioni (pos, c, i, e, )) lorsque lvnement a entran la satisfaction dune intention de lagent : Emotioni (pos, c, i, e, ) def real_intentioni (e, ) avec c = f _intensite(1 deg _cert(i, e, ), 1, effort(i, ), imp(i, )) Lintensit de lmotion est alors proportionnelle 1 - le degr de certitude de lagent quant la faisabilit de son intention par lvnement, proportionnelle leffort investi par lagent et limportance pour lui que lintention soit satisfaite. Le potentiel de raction nest calcul que lors de lchec dune intention ( 2.2) (la valeur passe en paramtre de la fonction est donc 1). Dans le modle prsent ici, nous ne dnissons pas les motions dclenches positives diriges vers un autre agent (telle que ladmiration par exemple). Ces types dmotion semblent apparatre rarement dans le cadre dune interaction humainmachine.
Une motion ngative (et non dirige) dintensit c est dclenche chez lagent i par un vnement e par rapport une intention (note Emotioni (neg, c, i, e, ))
Les motions dclenches ngatives non empathiques.
tion est potentiellement dclenche chez un autre agent.

Les motions dclenches empathiques.
Axiomes propres.
Lagent rationnel dialoguant est empathique. Ainsi, le fait que lagent a une motion dempathie envers un autre agent signie quil pense que ce dernier a une motion particulire. Nous dnissons les motions dclenches dempathie comme suit : Emotion_empi,j (type, c, k, e, ) def Bi (Emotionj (type, c, k, e, ) En dautres termes, le fait que lagent i a une motion dempathie pour lagent j de type type dirige vers lagent k et dintensit c suite lvnement e ayant affect une intention signie que lagent i pense que lagent j a une motion dclenche (non empathique) de mme type et de mme intensit envers lagent k suite lvnement e ayant affect une intention de j . Les conditions de dclenchement dune motion dempathie reprsente par doivent tre vrie. Elle reprsente le fait que lagent i aime bien (au sens dni dans [Ortony et al., 1988]) lagent j . Nous les supposons vraies dans notre modle. Remarque : (1) Nous ne nous limitons pas aux deux types dmotion dempathie content pour quelquun et dsol pour quelquun introduits dans [Ortony et al., 1988]. En effet, une motion dempathie est par dnition [Poggi, 2004] du type de lmotion ressentie par celui envers qui lmotion dempathie est dirige. Ainsi, on peut par exemple avoir peur pour quelquun. (2) Nous supposons que lmotion dempathie est de mme intensit que lmotion de lagent vers qui est dirige lmotion dempathie. Pour afner le modle, une fonction pour le calcul de lintensit de lmotion dempathie suivant lintensit de lmotion de lagent vers qui est dirige cette motion pourrait tre introduite.
236
Dans le contexte dune interaction humain-machine, on peut souhaiter que si lagent pense que son interlocuteur a une motion positive ou ngative non empathique dirige vers lui alors lagent luimme aura cette motion. Par exemple, si lagent pense que lutilisateur est en colre contre lui alors lagent sera en colre contre lui-mme. Ceci se traduit par laxiome suivant : Bi (Emotionj (type, c, i, e, )) Emotioni (type, c, i, e, ) De plus, nous ne souhaitons pas quun agent puisse adopter lintention quun autre agent ressente des motions ngatives. Nous imposons donc au modle laxiome suivant : Ii (Emotionj (neg, c, k, e, ))
Thormes.
tant donn laxiome ci-dessus, une motion positive (resp. ngative) ne peut tre dclenche par une motion ngative (resp. positive) dun autre agent. Emotioni (pos, c, i, e, (Emotionj (neg, c1 , z, e1 , ))) Emotioni (neg, c, z, e, (Emotionj (pos, c1 , j, e1 , )))
Un mme vnement ne peut pas dclencher la fois une motion positive et ngative par rapport une mme intention : (Emotioni (pos, c, i, e, ) Emotioni (neg, c1 , j, e, )) Il en est de mme pour les motions dempathie : (Emotion_empi,j (pos, c, j, e, ) Emotion_empi,j (neg, c1 , z, e, ))
La preuve dcoule des dnitions des motions empathiques et non empathiques. Lagent est capable de sintrospecter sur ses propres motions : Emotioni (type, c, j, e, ) Bi (Emotioni (type, c, j, e, )) Emotioni (type, c, j, e, ) Bi (Emotioni (type, c, j, e, )) La preuve dcoule des dnitions des motions et du fait que la logique rgissant loprateur de croyance est de type KD45. tant donne ltroite relation entre le dclenchement dune motion et les croyances et les buts dun individu, des modles dmotions construits partir dattitudes mentales ont dores et dj t proposs [Dyer, 1987, DeRosis et al., 2003, Meyer, 2006, Adam et al., 2006]. Les travaux prsents dans cet article se distinguent de ces derniers principalement par loriginalit de la formalisation des motions empathiques, non empathiques et des variables dintensit. De plus, contrairement aux modles dmotions existants, les conditions de dclenchement dmotions auxquelles nous nous intressons sont fondes la fois sur des thories en psychologie cognitive et sur une analyse de corpus de dialogues.
Les modles dmotions existants.
humain-machine, nous avons identi certaines conditions dans lesquelles des motions positives et ngatives peuvent apparatre. Sur ces bases, un modle formel dmotions dun agent rationnel dialoguant a t construit. Les motions sont dnies par leur condition de dclenchement lesquelles sont reprsentes par des tats mentaux particuliers, i.e. par des combinaisons particulires de croyances, dincertitudes et dintentions. Lintensit de lmotion est calcule partir de cet tat mental. Cette formalisation permet la reprsentation des motions dempathie envers dautres agents. Les conditions de dclenchement dmotions positives et ngatives utilises peuvent tre enrichies an de formaliser des types dmotions plus ns, comme la joie, la satisfaction ou la frustration. Ce modle dmotions a t intgr dans un agent rationnel dialoguant coupl avec un visage parlant capable dadopter diffrentes expressions faciales suivant lmotion dclenche. La prochaine tape vise valuer, dans des situations relles de dialogue dutilisateurs avec cet agent, la pertinence des conditions de dclenchement des motions dempathie de lagent ainsi que leur impact sur la satisfaction de lutilisateur et sa perception du systme.
Rfrences
[Adam et al., 2006] Adam, C., Gaudou, B., Herzig, A., and Longin, D. (2006). Occs emotions : a formalization in a bdi logic. In the Proceedings of the International Conference on Articial Intelligence : Methodology, Systems, Applications. [Austin, 1962] Austin, J. (1962). How to do things with words. Oxford University Press, London. [Bates, 1994] Bates, J. (1994). The role of emotion in believable agents. Communications of the ACM (CACM), 37(7) :122125.
237
4 Conclusion et perspectives
Pour tre capable dexprimer des motions dempathie envers un utilisateur, un agent rationnel dialoguant doit pouvoir identier les situations dinteraction dans lesquelles son interlocuteur peut ressentir des motions observables. A partir de la littrature en psychologie cognitive et dune analyse dun corpus de dialogues rels
[Brave et al., 2005] Brave, S., Nass, C., and Hutchinson, K. (2005). Computers that care : Investigating the effects of orientation of emotion exhibited by an embodied computer agent. International Journal of Human-Computer Studies, 62 :161178. [DeRosis et al., 2003] DeRosis, F., Pelachaud, C., Poggi, I., Caroglio, V., and Carolis, B. D. (2003). From gretas mind to her face : Modelling the dynamics of affective states in a conversational embodied agent. International Journal of Human-Computer Studies, 59(12) :p. 81118. [Dyer, 1987] Dyer, M. G. (1987). Emotions and their computations : three computer models. Cognition and Emotion, 1(3) :323347. [Helmut and Mitsuru, 2005] Helmut, P. and Mitsuru, I. (2005). The empathic companion : A character-based interface that addresses users affective states. International Journal of Applied Articial Intelligence, 19 :297285. [Johnson et al., 2000] Johnson, W., Rickel, J., and Lester, J. (2000). Animated pedagogical agents : Face-to-face interaction in interactive learning environments. International Journal of Articial Intelligence in Education, 11 :47 78. [Lazarus, 2001] Lazarus, R. S. (2001). Relational meaning and discrete emotions. In Scherer, K., Schorr, A., and Johnstone, T., editors, Appraisal Processes in Emotion : Theory, Methods, Research, pages 3769. Oxford University Press. [Meyer, 2006] Meyer, J. (2006). Reasoning about emotional agents : Research articles. International Journal of Intelligent Systems, 21(6) :601619. [Ochs et al., 2006] Ochs, M., Pelachaud, C., and Sadek, D. (2006). Les conditions de dclenchement des motions dun agent empathique. In Workshop Francophone sur les Agents
238
Conversationnels Anims (WACA) (http ://www.irit.fr/WACA/). [Ortony et al., 1988] Ortony, A., Clore, G., and Collins, A. (1988). The cognitive structure of emotions. Cambridge University Press, United Kingdom. [Pacherie, 2004] Pacherie, E. (2004). Lempathie et ses degrs. In Berthoz, A. and Jorland, G., editors, Lempathie, pages 149181. Editions Odile Jacob. [Picard, 1997] Picard, R. (1997). Affective Computing. MIT Press. [Poggi, 2004] Poggi, I. (2004). Emotions from mind to mind. In Proceedings of the Workshop on Empathic Agents. AAMAS, pages 1117. [Roseman, 2001] Roseman, I. J. (2001). A model of appraisal in the emotion system. In Klaus Scherer, Angela Schorr, T. J., editor, Appraisal Processes in Emotion : Theory, Methods, Research, pages 6891. Oxford University Press. [Sadek, 1991] Sadek, D. (1991). Attitudes mentales et interaction rationnelle : vers une thorie formelle de la communication. PhD thesis, Universit Rennes 1. [Sadek, 1992] Sadek, D. (1992). A study in logic of intention. In Proceeding of the 3rd Internatinal Conference on Principles of Knowledge Representation and Reasoning (KR92). [Scherer, 2000] Scherer, K. (2000). Emotion. In Hewstone, M. and Stroebe, W., editors, Introduction to Social Psychology : A European perspective, pages 151191. Oxford Blackwell Publishers, Oxford.
Doit-on dire la vrit pour se comprendre ? Principes dun modle collaboratif du dialogue bas sur la notion dacceptation
Sylvie Saget Sylvie.Saget@enssat.fr Marc Guyomard Marc.Guyomard@enssat.fr
Institut de Recherche en Informatique et Systmes Alatoires (LLI-ENSSAT) Universit de Rennes 1 22305 LANNION FRANCE Rsum : Garrod et Pickering ([16]) prtendent que ltude ne de la nature collaborative du dialogue doit mener lever ou modier un ensemble dhypothses fondamentales qui sont sources de complexit pour les modles de dialogue. Dans des travaux prcdents, il a t propos que lune de ces hypothses est la sincrit des partenaires de dialogue ([35, 37]). Le traitement des noncs, plus prcisment des rfrences, y est ainsi vu comme un processus orient par un but. Lobjet de cet article est de prsenter les principes dun modle collaboratif du dialogue bas sur une attitude mentale dpendante du contexte : lacceptation. Mots-cls : Modle de dialogue, pragmatique, collaboration, attitude mentale, croyance, acceptation Abstract: Garrod and Pickering ([16]) claim that considering spoken dialogue as a collaborative activity must lead to avoid or to modify the fundamental hypothesis which are responsible for complexity limitations of existing spoken dialogue systems. In previous works, we argue that one of these hypothesis is the sincerity of dialogue partners ([35, 37]). Utterance treatment, more precisely reference treatment, is then viewed as a goal-oriented process. The aim of this article is to present the principles of a collaborative model of dialogue based on a context-dependant mental attitude : acceptance. Keywords: Dialogue model, pragmatics, collaboration, mental attitude, belief, acceptance
([9, 32]), le dialogue en lui-mme est considr comme une activit collaborative. Le dialogue se caractrise par le but partag entre les partenaires du dialogue de se comprendre mutuellement. Voir la modlisation du dialogue comme la modlisation dune activit collaborative permet, entre autres, de fournir un modle explicatif de nombreux phnomnes dialogiques tels que les sous-dialogues de ngociation portant sur linteraction (ngociation smantique, ngociation des rfrences, etc.). La modlisation ne des phnomnes en question permet daccrotre la exibilit des systmes de dialogue. Comment formaliser le dialogue comme tant explicitement une activit collaborative (i.e. comment formaliser un modle collaboratif du dialogue) ? Il sagit l dun problme particulirement difcile et ceci pour deux raisons. Tout dabord, de manire gnrale, la dnition et la modlisation des phnomnes intervenant dans les activits collaboratives ne sont pas encore clairement dnis ([23]). Ensuite, ltude de la nature collaborative du dialogue est relativement rcente ([12, 9]), de nombreux aspects sont toujours dnir et des problmes difciles restent rsoudre. En particulier : La spcication du but partag de se comprendre, de manire pouvoir tre intgr dans un modle de dialogue ([15, 24, 41]), La spcication du critre de sufsance ("grounding criterion") : ce critre est
239
Introduction
Le dialogue tient un rle crucial dans la ralisation des activits collaboratives car il permet dtablir et de maintenir les coordinations ncessaires entre les membres dune quipe. En outre, dans la ligne de nombreux travaux fondateurs
Doit-on ___________________________________________________________________________ dire la vrit pour se comprendre ? [...]
fortement contextuel. Il varie selon les activits, les individus et il varie galement au cours du dialogue ([7]). Que signie "atteindre une intercomprhension" ? Lun des buts des partenaires du dialogue est datteindre une inter-comprhension vis--vis de lintention communicative du locuteur. Cette dernire devant tre reconnue par lauditeur suite la comprhension et linterprtation de lnonc prononc. Lintention communicative correspond "ce que le locuteur veut dire" ("speakers meaning",[18]), elle doit tre distingue clairement de la smantique de lnonc (ou encore du contenu propositionnel de lacte de dialogue correspondant) ([15]). Quelle est la relation entre lintention communicative du locuteur et la smantique de lnonc ? De la maxime de Qualit de Grice ([18]), en passant par les notions de prsuppositions et de terrain commun de Stalnaker ([38, 39]) jusquau modle collaboratif du dialogue de Clark ([9, 12]), on exploite lhypothse que lintention communicative et la smantique sont lies par une relation de valeur de vrit (Hypothse de Sincrit). Dans le modle collaboratif du dialogue propos par Clark, cela se traduit par lusage du terrain commun tabli ou suppos comme tant un pr-requis au succs de linter-comprhension des partenaires du dialogue. Par exemple, si le locuteur veut rfrer un objet o en prononant une expression rfrentielle dont la smantique est x.descr(x), alors un pr-requis au succs de cette rfrence est : MBLA (descr(o)), o : MBi,j () correspond " est une croyance mutuelle entre les agents i et j , du point de vue de i", On peut dnir formellement la croyance mutuelle par : MBi,j () Bi ( MBj,i ()), L dnote le locuteur et A lauditeur.
240
Le terrain commun entre les partenaires du dialogue, modlis par un tat pistmique au niveau des modles formels du dialogue, est alors considr comme le contexte prendre en compte lors de la gnration et linterprtation des noncs. Cette hypothse de sincrit et cette vision de lusage du terrain commun dans le traitement des noncs est source de nombreuses limitations et incohrences thoriques et pratiques. Ce constat a men les remettre en question. Nous proposons, comme alternative, de considrer le dialogue comme tant dirig par le but de se comprendre et non par la vrit ([35, 37, 36]). Un nonc (par extension, sa smantique) est alors considr comme un outil permettant datteindre ce but. An de prendre en compte cette proposition dun point de vue formel, lacceptation (attitude mentale dpendante du contexte) dun nonc comme tant utile pour permettre linter-comprhension est approprie. Lobjet de cet article est de prsenter les principes dun modle collaboratif de dialogue bas sur la notion dacceptation, en se penchant tout particulirement sur le cas des rfrences. Dans la premire partie, les fondements de cette approche sont explicits. Dans la seconde partie, les principes du modle collaboratif de dialogue sont prsents.
1 Quand la sincrit nest pas de mise

1.1 Limites et incohrences Le modle collaboratif du dialogue de Clark [12, 9] sert de rfrence la grande majorit des modles formels de dialogue ([42, 20]) utiliss au niveau des systmes de dialogue. Dans ce type de modle, le terrain commun, reprsent par un tat pistmique, est utilis dans le traitement des noncs (et donc des rfrences) an
de garantir le succs des actes de dialogue. Cette hypothse conduit un ensemble de problmes et dincohrences au niveau du modle collaboratif du dialogue. Nous passons en revue les principaux.
Complexit.
1. Les partenaires du dialogue ont des tats mentaux dissemblables et souvent des tats pistmiques diffrents. De plus, ils nont quun accs indirect aux tat mentaux des autres participants. Il existe donc des incertitudes et des diffrences de point de vue vis--vis de leur terrain commun. Les partenaires du dialogue doivent alors sadapter au point de vue de lautre lors dun dialogue ([38, 39]). Taylor et al. [40] ont montr que ceci est difcile mettre en application. Ceci en raison de la complexit de maintenir les tats pistmiques requis et en raison de la complexit des processus de raisonnement associs. En consquence, la plupart des systmes de dialogue ne supportent pas les croyances imbriqus 1 au del du second niveau dimbrication. 2. Lanalyse smantique dun nonc peut tre galement une source de complexit. Cest le cas en particulier des noncs vagues ([33]).
Incohrence vis--vis du comportement humain.
ceci saccentue en particulier lorsque les contraintes temporelles croissent. Ainsi, les humains utilisent diffrentes stratgies (considration de leur croyance propres, du terrain commun, du point de vue de lauditeur de leur terrain commun, etc.) plus ou moins coteuses lors de la gnration des noncs.
Difcults pour caractriser la rationalit des partenaires du dialogue. La rationalit des
De prime abord une telle complexit semble incompatible avec lefcacit des tres humains au cours dun dialogue. Ensuite, la considration de Clark vis--vis de lusage du terrain commun ("Initial Design Model") dans la gnration des noncs a t remise en question par de nombreuses tudes ([21] : "Monitoring & Adjustment model", [2]). Il y est montr que les tres humains peuvent faire preuve dune attitude beaucoup plus "goste" 2 et
beliefs", permettant de modliser en particulier le point de vue dun agent sur ltat pistmique dun autre agent. 2 i.e. tenir compte de lensemble de ses croyances sans se soucier si elles sont partages par exemple.
1 "Nested
partenaires du dialogue est caractrise notamment par la cohrence de leurs croyances et par leur sincrit ([27]). Or, il est trs frquent que le locuteur (ou lauditeur) gnre (ou acquiesce) un nonc prsupposant une croyance contradictoire avec ses propres croyances ([11]). Dans le modle de Clark, ceci sexplique par le processus dadaptation, par lun des partenaires du dialogue, la diffrence de point de vue sur le terrain commun quil a avec son interlocuteur. Malgr tout, comment caractriser ce type de comportement comme tant rationnel alors quil enfreint lhypothse de sincrit ? Il existe deux grandes catgories de solutions : 1. Caractriser ce comportement par un raisonnement restreint un contexte local ([4]). Ce type de mthode nest pas utilis en pratique en raison de la complexit requise. 2. Ajouter une attitude mentale supplmentaire, comme la propos Stalnaker [39], dans une caractrisation du terrain commun ncessaire3 : "Une catgorie dattitudes propositionnelles (...) qui inclut la croyance, mais galement dautres attitudes (la prsomption, lhypothse, lacceptation au prot dune argumentation ou dune requte) qui diffrent de la croyance et les unes des autres. Accepter une proposition cest accepter de
3 "A category of propositional attitudes (...) that includes belief, but also some attitudes (presumption, assumption, acceptance for the purposes of argument or an inquiry) that contrast with belief and with each other. To accept a proposition is to treat it as true for some reason."
241
la traiter comme si elle tait vraie." Le but est ici de sparer clairement ltat pistmique dun agent des prsupposition quil va "accepter", an que la contrainte de cohrence entre les deux soit leve. Nous proposons daller encore plus loin, en utilisant une autre dnition de lacceptation qui permet dviter "de faire semblant dtre sincre".
Incohrence entre les proprits des tats pistmiques et celles des lments identis du Terrain Commun Conversationnel. Dans le cas
particulier du traitement des rfrences, mme pour des tches quotidiennes, ncessitant des objets qui possdent des noms communs pour y faire rfrence, il existe un large panel de manires possibles pour y faire rfrence. An de garantir une intercomprhension, les humains4 "associent les objets avec des expressions (et les perspectives quelles transcrivent), autrement dit en faisant des pactes conceptuels, ou des accords temporaires et exibles de considrer un objet dune faon particulire" [5]. Ces pactes conceptuels font partie du Terrain Commun Conversationnel (TCC, le Terrain Commun spcique au dialogue). Selon le modle collaboratif du dialogue de Clark, le TCC doit tre modlis par des croyances partages ou par un tat pistmique plus faible. Mais les proprits identies des pactes conceptuels (exibilit importante, dure limite celle du dialogue, spcique un partenaire) ne correspondent pas avec les proprits de la croyance (idal dagglomration, non limite dans le temps, indpendante du contexte, etc.) ([35, 37]). 1.2 Se comprendre : une activit oriente par des buts
Les buts lis lintercomprhension.
frence comme suit : 1. Le but littral ("Literal goal") : en rsultat de la reconnaissance par lauditeur dun groupe nominal, lauditeur gnrera une interprtation qui dtermine le mme objet. 2. Le but li la tche ("Discourse purpose") : lauditeur doit appliquer diffrentes oprations lensemble individualisant de telle sorte quil respectera les contraintes didentication appropries. Le but li la tche est, pour les dialogues naliss, un pont reliant le dialogue en lui-mme la tche motivant le dialogue (lactivit de base). Les contraintes didentication correspondent aux proprits de lobjet que le destinataire doit connatre an dtre en mesure de raliser la tche. Cest par ce biais que la valeur de vrit dun nonc peut tre impose ([36]). En outre, selon Clark et al. [10], le but littral doit tre dcompos en deux buts interdpendants : 1.1. Identication : le locuteur tente de faire en sorte que le destinataire identie un rfrent particulier partir dune description particulire. 1.2. Grounding : le locuteur et le destinataire tentent dtablir le fait que le destinataire a identi le rfrent sufsamment bien par rapport leurs buts courants. Une expression rfrentielle, et par extension sa smantique, nest donc quun outil dans la ralisation de ces buts. La sincrit5 peut tre utile mais pas ncessaire. Elle est coteuse et peut tre un mauvais choix si les contraintes temporelles sont strictes. Sans compter que le but nest pas ici dtablir la vrit vis--vis des proprits dun objet, mais dtre capable de se comprendre sufsamment (sur lobjet dont
5 Autrement dit, la croyance de lexistence dun unique objet (dans le cas de descriptions dnies) respectant effectivement la description spcie par lexpression rfrentielle.
Kronfeld, [25], dnit les buts des actes de r-
4 "associate objects with expressions (and the perspectives they encode), or else from achieving conceptual pacts, or temporary, exible agreements to view an object in a particular way"
242
il est question) an de raliser la tche motivant le dialogue, dans le cadre de dialogues naliss.
tche est de nature collaborative ([35])6 quau niveau des diffrents degrs deffort dploys pour chacune des tches ([8]).
En effet, dans le cadre des dialogues naliss, il est important de faire la distinction entre deux types de sous-activits : les activits qui sont des sous-parties dune autre activit (activit de base) et les (sous-)activits subordonnes. Les sousactivits qui sont des sous-parties dune autre activit retent la compositionalit des activits de base. Les (sous-)activits subordonnes dsignent les sous-activits au service dune autre activit, telles que la planication, la rsolution de problmes, linteraction avec dautres agents (dialogues naliss), etc. Ces activits subordonnes comprennent les diffrentes fonctions remplies par la macrocognition dnies par Klein et al. [22]. Dun point de vue logique, la rationalit des agents est traduite par un tat mental cohrent et par la notion daction rationnelle [14, 34]. Par exemple, les croyances et les intentions forment un ensemble consistant et les actions des agents sont galement consistantes avec leurs croyances et leurs intentions. Au premier abord, la cohrence dune action dun agent avec ses croyances semble tre irrfutable. Mais, tant donn que le succs dune activit subordonne est gouvern par une gnralisation du critre de sufsance et les contraintes temporelles, on peut raisonnablement prtendre que la rationalit dun agent engag dans une activit subordonne nimplique pas de manire stricte la cohrence entre les actions qui font partie de lactivit subordonne et ltat pistmique des agents concerns. Cette distinction est importante tant au niveau de la distinction des diffrents terrains communs mis en jeu lorsque la
Le dialogue nalis : une activit subordonne.
2 Un modle de dialogue bas sur la notion dacceptation

2.1 Lacceptation : une attitude mentale dpendante du contexte Linteraction entre les diffrents domaines concerns par les activits collaboratives peut tre une source de richesses et davances signicatives. En particulier, en philosophie, la ncessit de distinguer lattitude mentale dpendante du contexte (pragmatique) quest lacceptation, de lattitude mentale indpendante du contexte quest la croyance a t (re)mise en avant par de nombreux philosophes tels que Cohen ([13]). Lacceptation et la croyance diffrent par leur rle fonctionnel : la croyance est oriente par la vrit, alors que lacceptation est oriente par un (des) but(s) [31] : Croyance Bi () vs vs Acceptation Acci ( )
oriente par vs oriente par la vrit vs un but est vraie est approprie pour le succs dun certain but involontaire vs volontaire graduelle vs tout-ou-rien indpendante vs dpendante du contexte du contexte Ainsi, la croyance et lacceptation ont diffrents critres de correction a posteriori :
6 Il faut alors distinguer le terrain commun li la tche du terrain commun spcique au dialogue
243
Bi () est correcte si elle se rvle correspondre ltat actuel du monde Acci ( ) est correcte si les choix faits et les actions ralises en se basant sur ce qui est accept font que le choix de se rvlent porter ses fruits Cette distinction et les diffrents travaux philosophiques qui en dcoulent ont t mis prot au niveau des modles formels de linteraction : Dans le domaine des SMAs, Gaudou et al. ([17]) utilisent la notion dacceptation collective an de modliser les "faits publics" de manire cohrente. Dans le cadre des dialogues argumentatifs, Baker [1] considre que le rsultat dune ngociation est une acceptation collective. Paglieri & Castelfranchi ([31]) utilisent la distinction entre croyance et acceptation an de distinguer les argumentaires dirigs par la vrit des argumentaires dirigs par un but. Au niveau du dialogue en lui-mme, dans le cadre dun modle collaboratif du dialogue, nous avons mis en avant lintrt de cette distinction pour sparer clairement la smantique dun nonc de lintention communicative du locuteur ([35, 37, 36]). Dans les derniers travaux, la notion dacceptation est utilise pour traduire le fait quun nonc est vu comme un outil permettant de dterminer lintention communicative du locuteur. La ngociation de linterprtation est alors considre comme la co-construction dun outil linguistique permettant aux partenaires du dialogue datteindre un niveau dintercomprhension sufsant vis--vis de leur activit courante. Le rsultat de cette coconstruction est modlis par une acceptation collective. 2.2 Le modle rationnel de rfrence Les modles rationnels de dialogue, bass principalement sur les travaux de Cohen
244
et Levesque [14], peuvent tre considrs comme une reformulation logique des modles de dialogue diffrentiels (modles base de plans). Ils intgrent, en plus, une formalisation prcise des tats mentaux des partenaires du dialogue (leurs croyances, leurs choix (ou dsirs) et leurs intentions) et de lquilibre rationnel qui les relie entre eux et qui relie les attitudes mentales dun agent avec ses actions. En outre, les prconditions et les effets des actes de dialogue sont exprims en fonction des tats mentaux des partenaires du dialogue. Le modle choisi, fond sur le modle rationnel propos par Sadek [34], se base sur un ensemble de principes (de schmas daxiomes) dont les actes de dialogue dcoulent. Un systme de dialogue est alors considr comme un agent rationnel qui a une attitude cooprative envers les autres agents (tel que lutilisateur de ce systme). Ce systme tant capable de communiquer avec les autres agents. Les tats mentaux (croyances, intentions, etc.) et les actions sont formalises dans une logique modale du premier ordre. Dans la suite de cet article, les symboles , , , dsignent les connecteurs de la logique classique (respectivement la ngation, la conjonction, la disjonction et limplication) ; , dsignent les quanticateurs universel et existentiel ; p dsigne une formule close dnotant une proposition ; i, j dnotent des agents, est un schma daxiome et est une formule complexe. Nous avons seulement besoin dintroduire ici deux attitudes mentales, la croyance et lintention : Bi (p) signie "i croit que p est vraie" Ii (p) signie "i a lintention dtablir p" Les expressions dactions sont formes partir dactes primitifs, par (a1 ; a2 ) qui dsigne une action squentielle (o a1 et a2 sont des expressions dactions) et par (a1 |a2 ) qui dsigne le choix non
dterministe. F aisable(a, p) : "a peut tre ralise, et si elle lest, alors p sera vraie" F aisable(a) = F aisable(a, true) F ait(a) : "a vient dtre ralise" Le modle des actes communicatifs est : < i, T ypeActeCommunicatif (j, ) > PF (Prconditions de Faisabilit) : les conditions qui doivent tre satisfaites an de planier laction EP (Effet Perlocutoire) : la raison pour laquelle lacte a t slectionn Par exemple, le modle de lacte communicatif de "i informant j que " est : < i, INF ORM (j, ) > PF : Bi () Bi (Bj ()) EP : Bj () Dans ce modle, les processus de gnration et dinterprtation des noncs sont vus comme des activits individuelles isoles. Ainsi, linterprtation du locuteur est suppose ralise et correcte ds lors que lnonc est prononc. Le dialogue et la rfrence ne sont pas considrs comme tant des activits collaboratives. 2.3 Modle collaboratif du dialogue Il nexiste pas de consensus sur la dnition dune activit collaborative. Nous considrons ici quun groupe dagents est engag dans une activit collaborative ds lors quils partagent une intention collective. Comment formaliser le dialogue comme tant une activit collaborative ? Par un modle rationnel intgrant la notion dintention collective permettant de spcier explicitement lintention des partenaires du dialogue de se comprendre mutuellement ? Ceci est proscrire dans une premier temps car, comme stipul dans lintroduction, les formalisations existantes de ce but sont impossibles mettre
en oeuvre ([15, 24, 41]). Faut-il intgrer la notion de plan partag ? Le concept de plan partag est utilis pour modliser le plan correspondant la ralisation concrte dune activit collaborative. Ce plan doit tre mutuellement connu un certain degr, an que les membres de lquipe puissent coordonner leurs actions. Ce paradigme est utilis dans les systmes de dialogue pour modliser une tche (motivant le dialogue) qui est de nature collaborative ([19, 29]) et non pour modliser la nature collaborative du dialogue. De notre point de vue, lutilisation dun plan partag pour spcier la nature collaborative du dialogue nest pas ncessaire car le dialogue est une activit acquise au cours de lenfance, elle fait donc appel des routines ([28]). De plus, tant une activit sociale, elle est rgie par tout un ensemble de lois et de normes. Notre modle collaboratif du dialogue considre donc que le processus de ngociation de linterprtation, par lequel linter-comprhension est atteinte, est une co-construction dun outil linguistique (dune expression rfrentielle) permettant datteindre une inter-comprhension sufsante de lintention communicative du locuteur. Le rsultat de cette co-construction tant modlis par une acceptation collective : AccCollLA (refererP ar(o, x.descr(x))), o : AccCollij ( ) correspond " est collectivement accepte par les agents i et j , du point de vue de i", refererP ar(R, D) correspond "le rfrent R est rfr par la description D", o est une reprsentation mentale de L dun objet. Le succs dune telle co-construction aboutit donc une inter-comprhension : AccCollLA (refererP ar(o, x.descr(x))) MBLA (IL (referLA (o))), o :
245
Ii (referij (o)) correspond "lintention communicative de i de rfrer o, le destinataire tant j ". Lacceptation collective est une attitude mentale intentionnelle, i.e. qui est forme suite des actions ralises par les agents mis en jeu : ((, {i, j } a). F ait(P rop ( )); a; Accept ( )) AccCollij ( ) o : P ropij ( ) correspond "i propose j de considrer ", Acceptji ( ) correspond "j accepte de considrer (vis--vis de i)", P ropij ( ) et Acceptji ( ) sont des actions individuelles, a est une expression daction. Suite une proposition, lautre agent est oblig de ragir en raison dune loi sociale : F ait(P ropi,j ( )) (Ij (F ait(( Acceptj,i ( ) |(P ropj,i ( )) |(P ropi,j ( )) |(Reporter) |(Stopper))))) (( = ) ( = ))) o : Reporter est une action individuelle qui permet de reporter la raction, de la "mettre en suspend", Stopper est une action individuelle qui permet de sortir de la ngotiation. Dans la ligne des travaux de Boella et al. [3], nous considrons que les obligations sociales en tant que pro-attitudes ne sont pas ncessaires pour formaliser le dialogue. Le locuteur procde une coordination par anticipation. Ce phnomne est gouvern par une loi sociale, acquise au cours dinteractions sociales prcdentes. Cette loi sociale est transcrite
246
par son usage rpt en raction la ralisation dune action particulire (du point de vue du locuteur) et en raction loccurrence dun vnement qui est loccurrence dune action particulire (du point de vue de lauditeur). tant donn quune raction est une action non intentionnelle, nous devons tendre la catgorie des actions tolres par notre modle de base. En effet, ce modle ne considre que les actions intentionnelles. Nous appelons ici actions intentionnelles les actions dun agent qui sont gnres par une chane dintentions. Dans le modle de Sadek ([34]), elles sont gnres par lactivation de laxiome rationnel suivant : Ii (p) Ii (F ait(a1 | |an )) Lintention de lagent, de raliser un but donn, gnre lintention de raliser lun des actes satisfaisant les conditions suivantes : 1. (x)Bi (ak = x) Brefi (ak ) : Lagent i connat laction ak , 2. EPak = p et 3. Ii (F aisable(F ait(ak ))). Il faut donc rajouter les ractions aux actions intentionnelles. Les ractions dun agent sont dnies comme les actions gnres par lactivation dun axiome tel que : Ii (F ait(a1 | |an )) o rsulte de la perception dun vnement ou de loccurrence dune action. Considrons prsent le cas particulier des rfrences. Tout dabord, il faut prciser quun modle collaboratif du dialogue ncessite de considrer la rfrence comme un acte de dialogue part entire, [15], comme cest le cas dans les travaux de Kronfeld [26]. Quand le locuteur veut rfrer un objet, sa premire tentative se concrtise par un acte de rfrence qui :
1. A pour effet la reconnaissance par lauditeur de lintention du locuteur de rfrer un certain objet : BA ((o)IL (referij (o))) 2. A pour effet de gnrer chez lauditeur ladoption de lintention de comprendre le locuteur, cest--dire de construire ou didentier une reprsentation mentale correcte : IA (BrefA (o )) RepMemeObj (o, o ), o : o et o sont des reprsentations mentales dobjets ; RepMemeObj (o, o ) signie que "les reprsentations mentales o et o reprsentent le mme objet". 3. Correspond lengagement dans un processus de ngociation entre les partenaires du dialogue. En gnrant une expression rfrentielle, le locuteur propose lauditeur de considrer sa description comme permettant de construire ou didentier une reprsentation mentale qui soit correcte. En raison de la loi sociale, le locuteur attend une raction de lauditeur sa proposition. La loi sociale oblige galement lauditeur ragir la proposition du locuteur. Ceci est synthtis dans lextension du modle des actes de rfrences [6] que nous proposons. Lacte de rfrence dun agent i envers un autre agent j , en utilisant la conceptualisation x (qui correspond la smantique de lexpression rfrentielle) de rfrer un objet o est formalis comme suit : < i, REF ER(j, x, o) > PF : Ii (referij (o)) Brefi (o) EP : Bj ((o)Ii (referij (o))) Ij (Brefj (o )) RepMemeObj (o, o ) F ait(P ropi,j (refererP ar(o, x))) Bj (F ait(P ropi,j (refererP ar(o, x))))
2.4 Formalisation de lacceptation Lacceptation collective est forme par un processus de ngociation qui fait intervenir les actions P ropij ( ) et Acceptij ( ). La prcondition de ces deux actions est identique : lacceptation individuelle de par i. Dans cette section, nous proposons les premiers lments de formalisation de loprateur modal dacceptation individuelle.
Cadre philosophique. Il nexiste pas de consensus sur la caractrisation de lacceptation7 . Nous adoptons ici la vision de Paglieri, introduite en 2.1., en raison de sa simplicit et de notre adquation avec son point de vue. Par dnition, les acceptations sont considres comme tant le seul arrire-plan cognitif la dlibration. Le modle traditionnel BDI devient donc ([30], p.36) :
(Desire + Acceptation) Intention Les croyances tiennent un rle indirect et non ncessaire dans le raisonnement pratique. En effet, elles sont une raison frquente daccepter.
Formalisation. Quest-ce qui est accept ? Tout ce qui peut permettre et/ou faire avancer le raisonnement va tre soumis lacceptation. Daprs Paglieri ([30]), cela comprend : les relations qui permettent darriver ses ns qui instancient une action adquate pour un but, les prconditions des actions que lon a lintention de raliser, les prconditions ncessaires pour avoir une intention particulire, lintention nest pas dj ralise et est ralisable, les rsultats des actions, an de pouvoir dvaluer si le but a t atteint ou si on doit continuer dans la ligne daction
7 Pour plus de dtails sur ce dbat, consulter [30], Chap.1.
247
courante. notre connaissance il nexiste pas de caractrisation logique de lacceptation telle quelle est dnie ci-dessus. Voici les premiers lments dune proposition de formalisation : Acci (, ) signie que "Lagent i accepte dans loptique de raliser ", o : Acci (, ) Acci ( ) Bi (e.F aisable(e, )) Notre oprateur modal dacceptation individuelle respecte laxiomatique suivante (axiomatique KD45) : (K)(Acci ( )Acci ( )) Acci ( ) (D) Acci ( ) Acci ( ) (5) Acci ( ) Acci (Acci ( )) (4) Acci ( ) Acci (Acci ( )) La relation daccessibilit est ainsi dnie comme tant RAcc transitive, euclidienne et srielle. Le systme axiomatique propos est donc complet et adquat. Il est galement intressant de remarquer que notre oprateur a la mme axiomatique que celle couramment utilise pour la croyance. De plus, RAcc et RB ne sont ni rexives, ni ni symtriques. Cependant, la raison en diffre : RAcc nest ni srielle, ni rexive par dnition car le rle fonctionnel de lacceptation na rien voire avec la ralit objective.
Ces travaux sont porteurs de nombreuses perspectives. Au niveau des extensions : La gnration dun nonc est vu comme la dtermination dun outil acceptable, au niveau individuel, cest-dire utile pour atteindre une intercomprhension sufsante, Le processus dual dinterprtation dun nonc est vu comme lvaluation de lacceptabilit de lnonc par le destinataire. Incorporer lacceptation individuelle, et tudier ses proprits logiques, au niveau du modle collaboratif du dialogue consiste donc faire le lien avec les processus de traitement des noncs. Ces travaux procurent galement des perspectives intressantes vis--vis de la prise en compte du contexte, lacceptation tant une attitude mentale dpendante du contexte : Dans le modle collaboratif du dialogue dcrit ci-dessus, le contexte qui sert de base linterprtation des noncs nest plus systmatiquement ltat pistmique (les croyances) des participants. Il peut donc tre largi en incorporant le contexte motivationnel, les contraintes temporelles, etc. Lhypothse de sincrit tant leve, les partenaires du dialogue ont le choix entre diffrentes stratgies possibles : considration uniquement de leurs propres croyances (attitude "goste"), de celles de son interlocuteur (attitude cooprative), de baser une interprtation sur la reconnaissance des mots-cls, etc. Remerciements Ces travaux sont nancs par la subvention A3CB22 / 2004 96 70 de la Rgion Bretagne.
Conclusion
Dans cette article, nous avons propos une alternative la considration du traitement des noncs comme tant des processus orients par la vrit (et le terrain commun) en mettant au premier plan le caractre nalis de ces processus. La distinction entre les attitudes mentales que sont la croyance et lacceptation est ncessaire pour prendre en compte cette alternative dans un modle rationnel de dialogue.
248
Rfrences
[1] M. J. Baker. A model for negotiation in teaching-learning dialogues. Journal of Articial Intelligence in Education, 5(2) :199254, 1994.
[2] E. G. Bard, A. H. Anderson, Y. Chen, H. Nicholson, and C. Havard. Lets you do that : Enquiries into the cognitive burdens of dialogue. In Proceedings of DIALOR05, 2005. [3] G. Boella, R. Damiano, and L. Lesmo. Social goals in conversational cooperation. In Proceedings of the First SIGdial Workshop on Discourse and Dialogue, pages 8493. ACL, Somerset, New Jersey, 2000. [4] A. Bonomi. Truth and reference in context. Journal of Semantics, 23(2) :107134, 2006. [5] S. E. Brennan and H. H. Clark. Conceptual pacts and lexical choice in conversation. Journal of Experimental Psychology : Learning, Memory and Cognition, 22 :4821493, 1996. [6] P. Bretier, F. Panaget, and M. D. Sadek. Integrating linguistic capabilities into the formal model of rational agent : Application to cooperative spoken dialogue. In AAAI-95, Fall Symposium of Rational Agency, Stanford, MA, 1995. [7] J. E. Cahn and S. E. Brennan. A psychological model of grounding and repair in dialog. In Proceedings of the AAAI Fall Symposium on Psychological Models of Communication in Collaborative Systems, pages 2533, 1999. [8] M. Cherubini and J. van der Pol. Grounding is not shared understanding : Distinguishing grounding at an utterance and knowledge level. In Proceedings of CONTEXT05, 2005. [9] H. H. Clark. Using language. Cambridge University Press, Cambridge, UK, 1996. [10] H. H. Clark and A. Bangerter. Changing conceptions of reference. In I. Noveck & D. Sperber, editor, Experimental pragmatics, pages
[11]
[12] [13] [14]
[15]
[16] [17]
[18] [19] [20]
[21]
[22]
2549. Palgrave Macmillan, Basingstoke, England, 2004. H. H. Clark and C. R. Marshall. Denite reference and mutual knowledge. In Elements of discourse understanding, pages 1063. Cambridge University Press, Cambridge, 1981. H. H. Clark and D. Wilkes-Gibbs. Referring as a collaborative process. Cognition, 22 :139, 1986. J. L. Cohen. An Essay on Belief and Acceptance. Oxford University Press, Oxford, 1992. P. R. Cohen and H. J. Levesque. Rational interaction as the basis for communication. In Intentions in Communication, pages 221256. MIT Press, Cambridge, MA, 1990. P. R. Cohen and H. J. Levesque. Preliminaries to a collaborative model of dialogue. Speech Communication, 15 :265274, 1994. S. Garrod and M. J. Pickering. Why is conversation so easy ? Trends in Cognitive Sciences, 8 :811, 2004. B. Gaudou, A. Herzig, and D. Longin. A logical framework for grounding-based dialogue analysis. In IJCAI05, Proceedings of LCMAS 2005, Edinburgh, 2005. P. Grice. Logic and conversation. In Syntax and semantics. Academic Press, 1975. B. J. Grosz and C. Sidner. Plans for dicourse. In Intentions in Communication. The MIT Press, 1990. P. A. Heeman and G. Hirst. Collaborating on referring expressions. Computational Linguistics, 21(3) :351 382, 1995. W. S. Horton and B. Keysar. When do speakers take into account common ground ? Cognition, 59 :91117, 1996. G. Klein, K. G. Ross, B. M. Moon, D. E. Klein, R. R. Hoffman, and
249
[23]
[24] [25] [26]
[27] [28] [29] [30]
[31]
[32]
[33]
E. Hollnagel. Macrocognition. IEEE Intelligent Systems, 18(3) :8185, 2003. G. Klein, D. D. Woods, J. Bradshaw, R. R. Hoffman, and P. J. Feltovich. Ten challenges for making automation a team player in joint human-agent activity. IEEE Intelligent Systems, pages 9195, November/December 2004. K. Korta. Mental states in conversation. Technical Report ILCLI-95LIC-2, ILCLI, Donostia, 1995. A. Kronfeld. Goals of referring acts. Proceedings of TINLAP-3, pages 143149, 1987. A. Kronfeld. Reference and Computation : An Essay in Applied Philosophy of Language. Cambridge University Press, 1990. M. Lee. Rationality, cooperation and conversational implicature. In Proceedings of the AICS97, 1997. A. N. Leontev. Activity, Consciousness, Personality. Englewood Cliffs, NJ, Prentice Hall, 1978. K. Lochbaum. The use of knowledge preconditions in language processing. In Proceedings of IJCAI95. F. Paglieri. Belief dynamics : From formal models to cognitive architectures, and back again. PhD thesis, University of Siena, 2006. F. Paglieri and C. Castelfranchi. Belief and acceptance in argumentation. Towards an epistemological taxonomy of the uses of argument. In Proceedings of ISSA06, 2006. M. J. Pickering and S. Garrod. Toward a mechanistic psychology of dialogue. Behavioral and Brain Sciences, 27(169-225), 2004. G. Pitel and J. P. Sansonnet. A differential representation of predicates for extensional reference resolution.
[34]
[35]
[36]
[37]
[38] [39] [40]
[41]
[42]
In Proceeding of the 2003 International Symposium on Reference Resolution and its Application to Questions Answering and Summurization, Venice, Italy, 2003. M. D. Sadek. Communication theory = rationality principles + communicative act models. In AAAI-94, Workshop on Planning for Interagent Communication, 1994. S. Saget. In favour of collective acceptance : Studies on goal-oriented dialogues. Collective Intentionality V, Helsinki, Finland, 2006. S. Saget. Using collective acceptance for modelling the conversational common ground : Consequences on referent representation and on reference treatment. In IJCAI-07, Proceedings of the Workshop on Knowledge and Reasoning in Practical Dialog Systems, pages 5558, Hyderabad, India, 2007. S. Saget and M. Guyomard. Goaloriented dialog as a collaborative subordinated activity involving collaborative acceptance. In Proceedings of Brandial06, pages 131138, University of Potsdam, Germany, 2006. R. Stalnaker. Pragmatic presuppositions. In Semantics and Philosophy. New York University Press, 1974. R. Stalnaker. Common ground. Linguistics and Philosophy, 25 :701 721, 2002. J. A. Taylor, J. Carletta, and C. Mellish. Requirements for belief models in cooperative dialogue. User Modeling and User-Adapted Interaction, 6(1) :2368, 1996. M. Tirassa. Mental states in communication. In Proceedings of ECCS97, pages 103114, Manchester, UK, 1997. D. Traum. A computational theory of grounding in natural language conversation. PhD thesis, University of Rochester, 1994.
250
ARTICLES COURTS
De DEL EDL ou comment illustrer la puissance des vnements inverses

Guillaume Aucher aucher@irit.fr Andreas Herzig herzig@irit.fr
IRIT, Universit Paul Sabatier, 31062 Toulouse Cedex (France) Rsum : La logique pistmique dynamique (DEL) introduite par Baltag et col. et la logique propositionnelle dynamique (PDL) proposent diffrentes smantiques aux vnements. La seconde se prte facilement lintroduction dvnements inverses et de relations daccessibilit pistmiques. Nous appelons EDL le formalisme rsultant. Nous montrons alors que DEL peut tre traduit dans EDL grce cet emploi dvnements inverses. Il sensuit que EDL est plus expressive et gnrale que DEL . Mots-cls : Logique dynamique pistmique, logique propositionnelle dynamique Abstract: Dynamic epistemic logic (DEL) as viewed by Baltag et col. and propositional dynamic logic (PDL) offer different semantics of events. It turns out that converse events and epistemic accessibility relations can be easily introduced in PDL . We call EDL the resulting formalism. We then show that DEL can be translated into EDL thanks to this use of converse events. It follows that EDL is more expressive and general than DEL . Keywords: dynamic epistemic logic, propositional dynamic logic
La logique pistmique dynamique se concentre sur des vnements particuliers appels updates. Les updates peuvent tre vus comme des annonces faites aux agents. La forme la plus simple dupdate est lannonce publique la Plaza ; quand le contenu de lannonce est propositionnel une telle annonce correspond lopration dexpansion dAGM [1]. Un autre example dupdate est lannonce de groupe la Gerbrandy [6, 7]. Notons que DELupdates diffrent des Katsuno-Mendelzonupdates qui sont tudis dans la littrature IA [8]. Dans [2, 4, 3] et ailleurs, Baltag et col. proposrent une logique pistmique dynamique qui eut beaucoup dinuence. Nous faisons rfrence cette logique par le terme DEL. Il a t montr que leur approche subsume toutes les autres logiques pistmiques dynamiques, ce qui justie notre acronyme. La smantique de DEL est base sur deux types de modle : un modle statique M s (appel state model par Baltag) et un modle dynamique ni M d (appel modle daction pistmique par Baltag). M s modlise le monde rel et les croyances des agents sy rapportant. Ce nest rien dautre quun bon vieux modle pistmique la Hintikka. M d modlise lvnement rel qui a lieu et les croyances des agents sy rapportant. Les croyances des agents peuvent tre incompltes (lvnement a a eu lieu mais lagent ne peut pas distinguer loccurence de a de celle de a ) et mme errones (lvnement a a eu lieu mais lagent la peru comme tant a par erreur). M s et M d sont alors combins par une construc253
1 Introduction
But : raisonner sur la perception dvnements.
Rendre compte des modes varis de perception dvnements est le but dune famille de systmes formels appels logiques pistmiques dynamiques. Ces systmes ont t proposs dans une srie de publications, principalement par Plaza, Baltag, Gerbrandy, van Benthem, van Ditmarsch et Kooi [9, 7, 6, 13, 15, 16]. Les logiques pistmiques dynamiques ajoutent du dynamisme la logique pistmique dHintikka en transformant les modles pistmiques.
De ___________________________________________________________________________ DEL EDL ou comment illustrer la puissance des vnements inverses
tion par produit restreint qui dnit la situation aprs que lvnement rel a eu lieu, cest dire le monde rel rsultant et les croyances des agents sy rapportant.
Smantique des vnements : produits versus relations daccessibilit. Naturellement,
learning et une contrainte de dterminisme pistmique.
nous serions intresss dexprimer dans DEL quune action a a eu lieu, cest dire de donner une smantique lvnement inverse a dans le cadre de DEL. Cela nest pas clair comment on pourrait le faire prcisment. La seule approche dont nous ayons connaissance est celle de Yap [18] qui ne parvient pas obtenir une caractrisation complte. Dun autre ct, dans PDL, les vnements sont interprts comme des relations de transition entre mondes possibles, et pas comme des produits restreints de modles comme dans DEL. Les vnements inverses a peuvent tre facilement interprts en inversant la relation daccessibilit associe a. La logique rsultante est appele lextension temporelle de PDL.
Traduire DEL dans EDL . An de dmontrer la puissance de notre approche nous proposons une traduction de DEL dans EDL : nous exprimons la structure dun DEL modle dynamique M d par une thorie non logique (M d ) of EDL, et nous prouvons quune formule est valide dans DEL si et seulement si cest une consquence logique de (M d ) dans EDL.
A cela nous ajoutons un oprateur pistmique. Nous appelons Logique Dynamique Epistmique (temporelle) EDL la combinaison de la logique pistmique et de PDL avec inverse.1 Une smantique en terme de relations daccessibilits est plus exible que la smantique par produit de DEL : nous avons plus doptions concernant linteraction entre les vnements et les croyances. Notre contribution essentielle dans cet article est de rendre compte de cette interrelation dlicate grce des contraintes sur les relations daccessibilit : une contrainte de no-forgetting, une contrainte de no1 EDL est lie la logique dynamique doxastique DDL [11, 12]. Jusqu maintenant la recherche dans DDL se concentrait principalement sur sa relation avec la thorie de la rvision des croyances dAGM, et tudiait des vnements particuliers de la forme + (expansion par ), (rvision par ), et (contraction par ). EDL et DDL concident en ce qui concerne les annonces propositionnelles.
Ainsi, contrairement DEL nous vitons de faire rfrence une structure smantique (cest dire le DEL modle dynamique M d ) dans la dnition mme du langage. On russit encoder la structure du DEL modle dynamique en une thorie non logique (M d ) grce aux vnements inverses. Par example [a]Bi ( a b ) exprime que lagent i peroit loccurence de a comme tant celle de a ou b.
Organisation de larticle. Cet article est organis comme suit. Dans la section 2 nous introduisons un langage portant sur les croyances, les vnements et les vnements inverses. Dans la section 3, nous proposons une smantique pour ce langage, et dnissons notre logique EDL. Dans la section 4 nous exposons la smantique par produit restreint de Baltag pour le fragment du langage sans vnement inverse, et exposons sa logique DEL. Dans la section 5 nous associons une thorie (M d ) chaque modle dynamique M d , et prouvons que les consquences de (M d ) dans EDL correspondent aux validits de DEL. Cela laisse penser que EDL est plus expressive et gnrale que DEL, et nous nous concentrerons sur ce point pour conclure dans la section 6.
254
2 Les langages
Nous supposons donn un ensemble de symboles propositionnels PROP = {p, q, . . .}, des symboles dagents AGT = {i, j, . . .}, et des symboles dvnements EVT = {a, b, . . .}. Tous ces ensembles peuvent tre innis (alors que dans DEL AGT et EVT doivent tre nis). A partir de ces ingrdients, le langage multi-modal est construit de faon standard laide des oprateurs boolens et , dune famille doprateurs pistmiques Bi , pour tout i AGT et dune famille doprateurs dynamiques [a] et [a ], pour a EVT . La formule Bi se lit lagent i croit que . [a] se lit est vrai aprs nimporte quelle execution possible de lvnement i , a a. Les oprateurs modaux duaux B and a sont dnis de faon usuelle : i abrge Bi ; a abrge [a] ; B a abrge [a ]. Le langage LEDL de EDL est le langage entier. Le langage LDEL de DEL est lensemble des formules de LEDL qui ne contiennent pas doprateur inverse [a ]. Enn, le langage pistmique LEL est lensemble des formules qui ne contiennent pas doprateur dynamique, cest dire construits partir de PROP , les oprateurs boolens et loprateur Bi uniquement. Par exemple [a]Bi [a ] est une LEDL -formule (qui nappartient pas LDEL ).
3.1 Smantique Les EDL-modles sont de la forme M = W, V , {Aa }aEVT , {Bi }iAGT o W est un ensemble de mondes possibles, V : PROP 2W une valuation, et les Aa W W et Bi W W sont des relations daccessibilit sur W . La relation 1 A a est linverse de Aa . On considre parfois les relations daccessibilit comme des applications qui associent un ensemble de mondes un monde, et crivons par 1 1 exemple A a (w ) = {v : w, v Aa } = {v : v, w Aa }. Nous supposons que les EDL-modles satisfont les contraintes suivantes appels no forgetting, no learning et epistemic determinism : 1 (nf) Si v (Aa Bi A b )v alors v Bi v .
1 (nl) Si (Aa Bi A b )(v ) = alors (Bi Ab )(v ) (Aa Bi )(v ). (ed) Si w1 , w2 Aa (v ) alors Bi (w1 ) = Bi (w2 ). Informellement, le principe no-forgetting (aussi connu sous le nom de perfect recall [5]) nous dit que chaque monde, tel que loccurence dun vnement b dans ce monde donne comme rsultat une alternative possible pour lagent i aprs loccurence de a, est une alternative possible pour lagent i avant loccurence de a. Formellement, supposons que w rsulte de loccurence de lvnement a dans le monde v ; si dans le monde w, le monde w est une alternative pour lagent i, et w rsulte de lvnement b dans un monde v , alors v tait dj possible pour lagent i dans le monde v .
3 EDL : logique dynamique pistmique avec inverse

Quand on construit des modles qui traitent des notions de croyance et dvnement, le problme central est de rendre compte de linteraction entre ces diffrentes notions. Dans notre smantique base sur PDL, ce problme est rsolu en proposant des contraintes sur les relations daccessibilit respectives.
(nf ) :
vO
Bi
Ab

/w O
Bi
Aa
/w
Pour comprendre le principe no-learning (aussi connu sous le nom de no miracle

255
[14]), supposons que lagent i peroit loccurrence de a comme tant celle de b1 , b2 ,. . . ou bn . Alors, informellement, le principe no-learning nous dit que chaque monde rsultant de loccurrence de b1 , b2 ,. . . ou bn dans une des alternatives possibles de lagent i avant loccurrence de a est bien une alternative possible aprs a pour lagent i. Formellement, supposons que lagent i peroit b comme une alterna1 tive possible de a ((Aa Bi A b )(v ) = ). Si dans le monde v le monde w est un rsultat possible de loccurrence de b pour lagent i, alors le monde w est une alternative possible pour lagent i dans un monde w Aa (v ). (nl) :
Bi
(ed) : v
Aa
Aa
wO .W
Bi
$ / w 1 Bi '
w2
M, w |= et est dnie comme dhabitude par : M, w |= p ssi w V (p) M, v |= Bi ssi M, v |= pour tout w Bi (v ) M, v |= [a] ssi M, w |= pour tout w Aa (v )
E.
Ab
/w
U*
Ab
& / .O #
Bi
B
M, w |= [a ] ssi M, v |= pour tout 1 v A a (w ) La valeur de vrit dune formule dans un EDL-modle M est note M |= et est dnie par : M, w |= pour tout w W . Soit un ensemble de LEDL -formules. La relation de consquence (globale) est dnie par : |=EDL ssi pour tout EDL-modle M , si M |= pour tout alors M |= . Par exemple nous avons {[b], a Bi b } |=EDL [a]Bi et |=EDL (Bi [b] a Bi b ) [a]Bi . (*) Considrons = dans (*) : Bi [b] signie que la perception de lvnement b tait inattendue pour lagent i, tandis que a Bi b signie que lagent i peroit en ralit loccurrence de a comme tant celle de b. De notre contrainte no-forgetting, il sensuit que [a]Bi (ce qui est possible car nous navons pas suppos que la relation daccessibilit Bi tait srielle).
vD
Aa
KO
RT Aa W+ w
/.
Pour comprendre (ed), supposons que nous avons v Aa w1 et v Aa w2 . Alors (ed) impose aux tats pistmiques de w1 et w2 dtre identiques : Bi (w1 ) = Bi (w2 ). Cela dcoule de note hypothse que les vnements sont feedback-free (aussi connus sous le nom d uninformative events [?]) : les agents ne peuvent pas distinguer entre leurs diffrents rsultats nondterministes. Ce sont des vnements dont les agents apprennent seulement leur occurrence, mais pas leur rsultat. Un exemple de tel vnement est laction de jeter une pice de monnaie sans regarder le rsultat. Un exemple dvnement non feedback-free est laction de jeter une pice de monnaie et regarder le rsultat : ici la contrainte de dterminisme pistmique est viole. La valeur de vrit dune formule dans un monde w dun modle M est note
256
En fait, il serait prfrable dviter que les croyances des agents deviennent inconsistantes : dans de telles situations lon devrait effectuer une rvision des croyances. 3.2 Compltude Laxiomatique de EDL est compose des principes de la logique multimodale K pour tous les oprateurs modaux Bi , [a] et [a ], plus les axiomes (Conv1 ), (Conv2 ), (NF) et (NL) ci-dessous : (Conv1 ) (Conv2 ) (NF) (NL) (ED)
EDL EDL EDL
4 DEL : modles statiques, modles dynamiques, et leurs produits

Nous prsentons ici la version sans itration de la logique pistmique dynamique DEL de Baltag [4, 3]. 4.1 Smantique Les Modles Statiques sont juste des mos dles de la forme M s = W, V, {i }iAGT , o W est un ensemble arbitraire, V s: PROP 2W une valuation et les i W W sont des relations daccessibilit sur W. Les Modles dynamiques sont de la forme d M d = EVT , Pre, {i }iAGT , o Pre : EVT LEL est une fonction de prcondition associant des formules pisd tmiques aux vnements, et les i EVT EVT sont des relations daccessibilit sur EVT . Par exemple lvnement a tel que Pre(a) = correspond au skip (rien ne se passe) de PDL et Pre(b) = p correspond laction dapprendre que p d est vraie. Quand nous avons i (a) = {b} alors loccurrence de a est perue par lagent i comme celle de b. Nous rappelons que EVT est lensemble des vnements atomiques. Dans DEL il d est suppos ni. De plus, tout i est suppos tre sriel : pour tout a EVT il y d a au moins un b EVT tel que a i b. (Rappelons que nous navons pas suppos la srialit pour les relations daccessibilit statiques.) Etant donns M s = W, V, {i }iAGT d et M d = EVT , Pre, {i }iEVT , leur produit M s M d est un modle statique dcrivant la situation aprs que lvne257
s
[a] a [a ] a Bi [a]Bi [b ]
([a]Bi EDL a Bi b Bi [b]) EDL a Bi [a]Bi
(Conv1) et (Conv2) sont les axiomes dinversion standards de la logique temporelle et de converse PDL. (NF), (NL) et (ED) axiomatisent respectivement no forgetting, no learning et epistemic determinism. Nous crivons EDL quand est prouvable partir de lensemble de formules dans ce systme axiomatique. EDL possde la compltude forte : Proposition 3.1 Pour tout ensemble de LEDL -formules et LEDL -formules , |=EDL si et seulement si
EDL
Proof. La preuve dcoule du thorme de Sahlqvist [10] : tous nos axiomes (NF), (NL), (ED) sont de la forme requise, et correspondent respectivement aux contraintes QED smantiques (nf), (nl), (ed).
ment dcrit par M d a eu lieu dans M s : M s M d = W , V , {i }iAGT o le nouvel ensemble de mondes possibles est W = { w, a : M s , w |= Pre(a)}, la nouvelle valuation est V (p) = { w, a : w V(p)}, et les nouvelles relations daccessibilit statiques sont dnies par w1 , a1 i w2 , a2 ssi w1 i w2 et d a1 i a2 . Alors que la condition de vrit pour loprateur pistmique est identique celle de la logique pistmique dHintikka et celle dEDL, la construction par produit restreint donne une smantique loprateur [a] qui est bien diffrente de celle de PDL et EDL : M s , w |= [a] ssi M s , w |= Pre(a) implique M s M d , w, a |= Finalement, la validit de dans DEL (note |=DEL ) est dnie comme dhabitude comme la vrit dans tous les mondes de tous les DEL-modles. Notons que la validit signie la validit par rapport un modle dynamique M d x. La condition de vrit pour loprateur dynamique met en valeur le fait que DEL est une extension dynamique de la logique pistmique tandis que EDL est une extension pistmique de PDL. 4.2 Compltude Supposons donn un modle dynamique M d . Laxiomatique de DEL est compose des principes de la logique multimodale K pour les oprateurs modaux Bi et [a], plus les axiomes ci-dessous [4, 3]. (A1)
258
DEL s s s
(A2) (A3)
DEL [a] (Pre(a) [a]) DEL [a]Bi (Pre(a) Bi [b1 ] . . . Bi [bn ]) o b1 , . . . , bn est la liste de tous d les b tels que a i b.
On note DEL lorsque est prouvable partir de ces principes.
5 De DEL EDL
Dans cette section nous montrons que DEL peut tre inject dans EDL. Nous le faisons en construisant une EDL-thorie particulire qui capture un DEL modle dynamique M d donn et simule la construction produit. = Denition 5.1 Soit Md d un modle EVT , Pre, {i }iAGT dynamique. Lensemble des formules (M d ) associ M d (la thorie de M d ) est constitue des axiomes non-logiques suivant : (1) p [a]p et p [a]p, pour tout a EVT et p PROP ; (2) a Pre(a), pour tout a EVT ; . . . b ), (3) [a]Bi ( b 1 n o b1 , . . . , bn est la liste de tous les b tels d que a i b ; i Pre(b) [a]B i b , pour tout (4) B d a, b i . Notons que (M d ) est nie car dans DEL lensemble des vnements EVT et lensemble des agents AGT sont tous les deux nis. Laxiome de dterminisme est en fait une consquence logique de (M d ) dans EDL. Lemma 5.2 Pour tout LEDL -formule nous avons (M d ) |=EDL a [a]. Nous avons alors le rsultat essentiel suivant.
[a]p (Pre(a) p)
Theorem 5.3 Soit M d un DEL modle dynamique. Soit une formule de LDEL . Alors |=DEL ssi (M d ) |=EDL Il sensuit que ssi (M d ) EDL Cela fournit donc une nouvelle axiomatisation des validits de DEL.
DEL
Nous pouvons modliser ce dernier point comme suit. Dabord on dni rcursivement lensemble suivant de formules.
0 0 , b } i = j = { a 1 = {Bi j : j n n i j } i j } { {j :j n1 } B
j
Par exemple on a
1 = {Bi a i } et Bi b , Bi b i a ,B
6 Discussion et conclusion
Nous avons prsent une logique dynamique pistmique EDL dont la smantique diffre de de celle de la logique pistmique dynamique DEL de Baltag et col. Nous avons montr que DEL peut tre injecte dans EDL. Ce rsultat nous permet de conclure que EDL est une alternative intressante la logique de Baltag et col. Cependant, EDL est plus expressive que DEL car elle permet de parler dvnements passs. Un autre de ses avantages est que lon peut dcrire partiellement un vnement ayant lieu et quand mme en tirer des consquences, alors que dans DEL le modle daction dot tout spcier. Plus gnralement, EDL semble tre plus exible pour dcrire des vnements. Cela permet de modliser des vnements qui ne peuvent pas tre modliss dans DEL. Nous allons dmontrer ce dernier point par un exemple. Considrons la situation o il y a deux agents i et j , et il y a deux annonces prives possibles a et b avec pour prconditions respectives p et p. Supposons que les agents ne savent rien de ce qui sest pass except que a ou b ont eu lieu, cest dire formellement que a b est connaissance commune. De cela nous devrions en conclure que les agents ne savent rien du tout de la perception que lautre agent a de lvnement (ce qui est en fait vrai en ralit).
i a , Bj Bi b , Bj (B 2 j = {Bj Bi a j Bi a j Bi b i b )} {B B B Bj (Bi a Bi b )}.
Naturellement, nous afrmons que lenn semble de tous les (( n i ) ( j ) reprsente le fait que les agents ne savent rien propos de la perception qua lautre agent de lvnement. Nous pouvons alors prouver par induction sur n que { a n b } EDL ( n i ) ( j ) pour tout 2 n. Cela nous indique que la connaissance incomplte des agents de ce qui se passe est correctement reprsente par { a b }. De telles situations ne peuvent pas tre dcrites dans DEL car cela ncessiterait une innit dvnements atomiques, et le modle dynamique M d devrait tre inni. Une autre approche qui associe DEL la logique dynamique propositionnelle avec automate est [17]. Il na pas recours aux vnements inverses et traduit les modles dynamiques par une transformations sur les programmes de PDL. Comme nous lavons dit dans la section 1, Yap a introduit les vnements inverses dans DEL mais elle nest pas arrive donner des axiomes de rduction pour loprateur modal inverse. Comme nous, elle ne traite pas de la rvision des croyances et nous
2 Lobservation cl est que b EDL Bi ( a i a B i b )) (Bi a Bi b (B
259
repoussons lintgration de tels mchanismes de futurs travaux.
Rfrences
[1] Carlos Alchourrn, Peter Grdenfors, and David Makinson. On the logic of theory change : Partial meet contraction and revision functions. J. of Symbolic Logic, 50 :510530, 1985. [2] Alexandru Baltag. A logic of epistemic actions. Technical report, CWI, 2000. http://www.cwi. nl/~abaltag/papers.html. [3] Alexandru Baltag and Lawrence S. Moss. Logics for epistemic programs. Synthese, 139(2) :165224, 2004. [4] Alexandru Baltag, Lawrence S. Moss, and Slawomir Solecki. The logic of public announcements, common knowledge, and private suspicions. In Proc. TARK98, pages 4356. Morgan Kaufmann, 1998. [5] Ronald Fagin, Joseph Y. Halpern, Yoram Moses, and Moshe Y. Vardi. Reasoning about knowledge. MIT Press, 1995. [6] Jelle Gerbrandy. Bisimulations on Planet Kripke. PhD thesis, University of Amsterdam, 1999. [7] Jelle Gerbrandy and Willem Groeneveld. Reasoning about information change. J. of Logic, Language and Information, 6(2), 1997. [8] Hirofumi Katsuno and Alberto O. Mendelzon. On the difference between updating a knowledge base and revising it. In Peter Grdenfors, editor, Belief revision, pages 183203. Cambridge University Press, 1992. [9] J. A. Plaza. Logics of public communcations. In M. L. Emrich, M. Z. Pfeifer, M. Hadzikadic, and Z. W. Ras, editors, Proc. 4th Int. Symposium on Methodologies for Intelligent Systems, pages 201216, 1989.
260
[10] H. Sahlqvist. Completeness and correspondence in the rst and second order semantics for modal logics. In Stig Kanger, editor, Proc. 3rd Scandinavian Logic Symposium 1973, number 82 in Studies in Logic. North Holland, 1975. [11] Krister Segerberg. Belief revision from the point of view of doxastic logic. Bulletin of the IGPL, 3 :534553, 1995. [12] Krister Segerberg. Two traditions in the logic of belief : bringing them together. In Hans Jrgen Ohlbach and Uwe Reyle, editors, Logic, Language and Reasoning : essays in honour of Dov Gabbay, volume 5 of Trends in Logic, pages 135147. Kluwer Academic Publishers, Dordrecht, 1999. [13] Johan van Benthem. One is a lonely number : on the logic of communication. In Z. Chatzidakis, P. Koepke, and W. Pohlers, editors, Logic Colloquium02, pages 96129. ASL & A.K. Peters, Wellesley MA, 2006. Tech Report PP-2002-27, ILLC Amsterdam (2002). [14] Johan van Benthem and Eric Pacuit. The tree of knowledge in action : Towards a common perspective. In Advances in Modal Logic, pages 87 106, 2006. [15] Hans P. van Ditmarsch. Descriptions of game actions. J. of Logic, Language and Information (JoLLI), 11 :349365, 2002. [16] Hans P. van Ditmarsch, Wiebe van der Hoek, and Barteld Kooi. Dynamic Epistemic Logic. Kluwer Academic Publishers, 2007. [17] Jan van Eijck. Reducing dynamic epistemic logic to pdl by program transformation. Technical Report SEN-E0423, CWI, 2004. [18] Audrey Yap. Product update and looking backward. prepublications PP2006-39, ILLC, 2006.
Considrations relatives la dcidabilit et la complexit du problme de la composition de services

Philippe.Balbiani Fahima. Cheikh Guillaume. Feuillade
Universit Paul Sabatier, Institut de recherche en informatique de Toulouse 118, route de Narbonne 31062 Toulouse Cedex 9 Rsum : Le problme de la composition de services consiste combiner des services an de rpondre la requte dun client. Dans cet article, nous considrons un modle orient service dans lequel les services sont capables de mettre jour un systme dinformations et dchanger des messages. Dans ce modle, le problme de la composition est indcidable. Pour cette raison, nous considrons un modle simpli pour lequel le problme de la composition de services est dcidable. Mots-cls : Composition de services, automates conditionnels, complexit. Abstract: Services composition problem consists in combining services in order to answer a client request. In this paper, we consider a service oriented model where services are able to update an information system and to exchange messages. In this model the composition problem is undecidable. For this reason, we consider a simplied model for which the composition problem is decidable. Keywords: Services composition, conditional automata, complexity.
1 Introduction
Les applications orientes services [11] sont lorigine dun nouveau paradigme de programmation distribue qui modie la faon dont les applications sont spcies, implmentes et excutes. Toutefois, avant que les services ne deviennent une ralit, un certain nombre de ds comme la scurit des services et la composition des services, doivent tre relevs. Avant daccorder laccs aux ressources dont ils ont la responsabilit, les services tablissent leurs politiques de scurit et dcrivent les conditions sous lesquelles telle ou telle ressource peut tre lgalement utilise. Par consquent, les services
interagissent avec leurs clients et avec dautres services par le biais de protocoles cryptographiques an dobtenir leurs certicats et de caractriser leurs droits. La scurit des services traite de la condentialit, de lintgrit et de la disponibilit en rapport avec la problmatique de la combinaison et de lintgration des protocoles et des politiques. Les services permettent de raliser des parcs dorganisations capables dexporter leurs services des clients et de cooprer en composant des services via les rseaux. Par suite, les services sont des lments logiciels indpendants qui peuvent tre composs en vue de faire collaborer entre elles des applications distribues. La composition des services tudie les situations o les demandes des clients ne peuvent tre satisfaites quen combinant les services disponibles de manire approprie [2, 10]. Il y a cinq sections principales dans cet article. Dans la section 2, nous prsenterons brivement un modle de services et nous laborerons un modle formel de la composition. Le problme de la composition voqu dans la section 2 tant indcidable, nous prsenterons, dans la section 3, un modle simpli de services bas sur les automates nis. Dans la section 4, nous dnirons les concepts qui nous permettront de comparer les services entre eux : quivalence de services (quivalence de trace et bisimulation) et inclusion de services (inclusion de trace et simulation). Nous attaquerons, dans les sections 5 et 6, ltude de la complexit algorithmique du problme de lquivalence de services et du problme de linclusion de services.
261
Considrations ___________________________________________________________________________ relatives [...] au problme de la composition de services
2 Modle gnral
Nous prsentons un modle dapplications orientes services (voir la gure 1) qui reprend et gnralise le modle labor par Berardi et al [3]. Ensuite, nous dnirons le problme de la composition. Notre modle est constitu des lments suivants : un systme dinformations IF , une communaut de services C = {S1 , . . . , Sn }, un service but Sbut , un service client S0 muni dun ensemble de certicats et un service mdiateur Smed qui sinterpose entre le client et les services de la communaut. Un systme dinformations IF peut tre vu comme un ensemble dobjets (produits manufacturs, chiers, etc.) caractriss en termes dattributs tels que le prix, la taille, etc. Les services dune commu-
F IG . 1 Modle dapplication orientes services naut C mettent jour le systme dinformations IF en excutant des commandes. Ils obtiennent des informations sur IF au moyen dchanges de messages avec les autres services. Les services sont reprsents par des automates conditionnels dans lesquels la transition dun tat un autre
262
nest possible que si une certaine condition est vrie. Les conditions peuvent concerner la valeur dune variable locale au service, la valeur dun attribut pour un objet donn dans IF ou la valeur dun des certicats du client. Ici, les certicats sont des assertions sur les clients des services. Ils sont mis par les services de la communaut. Les services de la communaut, tels que nous les avons dnis, seront utiliss par dautres services appels services clients (nots S0 ). Leur objectif est dobtenir des informations sur le systme dinformations. Deux tats sufsent pour les dnir compltement. A partir de ces tats, un service client ne peut qumettre ou recevoir des messages. Les conditions des transitions du client sont toujours vries. La requte dun utilisateur est reprsente par un service Sbut appel service but et qui ne fait pas partie de la communaut. Les services mdiateurs, nots Smed , effectuent uniquement des changes de messages. Leur rle est de sinterposer entre le service client et les services de la communaut. Les conditions des transitions dans Smed ne concernent que les valeurs de ses variables locales. Lorsquun client veut effectuer des calculs partir dun systme dinformations et quaucun des services de la communaut ne peut raliser seul ces calculs, une solution est de combiner entre eux les services de la communaut. Le problme de la composition des services consiste alors lier ces services entre eux. Formellement, le problme de la composition de services est le problme de dcision suivant : soient une communaut C = {S1 , ..., Sn }, un ensemble de certicats C ert, un service client S0 et un service but Sbut , existe-t-il un service mdiateur Smed tel que pour tout systme dinformations IF , le comportement de {S0 ,Sbut } est quivalent celui de {S0 , Smed } C . Dans cette dnition, lquivalence entre {S0 ,Sbut } et {S0 , Smed }C est base sur la bisimulation, la simulation, lquivalence de trace ou linclusion de trace. Ainsi dni, le problme de la composition de ser-
vices est indcidable. En effet, il nous a t possible [1] de rduire le problme de larrt des machines de Minsky [7] au problme de la composition dni ci-dessus.
3 Modle simpli
Notre modle simpli des services est bas sur les automates nis. 3.1 Automates nis Un automate ni est une structure de la forme A = (Q, , , q0 ), dans laquelle Q est un ensemble ni dtats, est un ensemble ni de symboles, Q Q est une relation de transition et q0 Q est un tat. Pour tout q Q, pour tout a et pour tout q Q, si (q, a, q ) alors nous crivons q a q . Nous dirons que A est dterministe lorsque pour tout q Q et pour tout a , il existe au plus un q Q tel que q a q . Un chemin pour A est une suite nie de la forme (q0 , a1 , q1 ), (q1 , a2 , q2 ),. . ., (qn1 , an , qn ), telle que pour tout i {1, . . . , n},qi1 ai qi . Le mot a1 . . . an est sa trace. Lensemble des traces de tous les chemins pour A est not T r(A). 3.2 Automates conditionnels Nous prsentons maintenant notre modle simpli des services. Ce modle simpli est celui des automates conditionnels et semble navoir jamais fait lobjet daucune recherche. Soit At un ensemble de formules atomiques. Lensemble des littraux sur At est dni par Li(At) = At {p : p At}. Nous dirons dune partie I de Li(At) quelle est maximale consistante lorsque pour toute formule atomique p At on a p I et p / I , ou p I et p / I . Un automate conditionnel est une structure de la forme A = (Q, At, Ac, , q0 , I0 ), dans laquelle Q est un ensemble ni dtats, At est un
ensemble ni de formules atomiques, Ac est un ensemble ni dactions, : Q Li(At) 2Li(At) est une foncAc Q 22 tion de transition, q0 Q est un tat et I0 Li(At) est une partie maximale consistante de Li(At). Pour tout q Q, et pour tout a Ac et pour tout q Q, (q, a, q ) dcrit lensemble possible des causes et des effets de lexcution de laction a entre les tats q et q . Lappartenance dun couple (I, I ) densemble de littraux sur At (q, a, q ) signie que I est lensemble des prconditions et I est lensemble des postconditions pour lexcution de laction a entre les tats q et q . Ces prconditions et postconditions correspondent aux certicats et leur volution dont nous avons parl dans la section 2. A chaque automate conditionnel A = (Q, At, Ac, , q0 , I0 ), nous associons lautomate ni AF (A) = (Q , , , q0 ) dni par : Q = {(q, I ) : q Q et I Li(At) est une partie maximale consistante de Li(At)}, = Ac, Q Q est la relation de transition dnie par (q, I ) a (q , I ) ssi il existe (J, J ) (q, a , q ) tel que J I et I = (I \ J ) J o J = {p : p J } {p : p J } et q0 = (q0 , I0 ). Nous observons quun temps exponentiel par rapport la taille de lautomate conditionnel A est sufsant pour construire lautomate ni AF (A). Nous observons galement que la taille de lautomate ni AF (A) est exponentielle par rapport la taille de lautomate conditionnel A. 3.3 Produits dautomates Lanalyse de la complexit algorithmique du problme de la composition de services ncessitera, dans les sections 5 et 6, lutilisation du produit dautomates nis. Soit n 2. Pour tout i = 1, . . . , n, soit Ai = (Qi , i , i , q0i ) un automate ni dterministe. Le produit asynchrone des automates nis A1 , . . . , An , not A1 . . . An est lautomate ni A = (Q , , , q0 ) dni par : Q = Q1 . . . Qn , =
263
1 . . . n , q0 = (q01 , . . . , q0n ) et Q Q est la relation de transition dnie par : pour tout q = (q1 , . . . , qn ) Q , pour tout a et pour tout q = (q1 , . . . , qn ) Q , q a q ssi il existe i {1, . . . , n} tel que a i , qi a qi et pour tout j {1, . . . , n}, si j = i alors qj = qj . Soit n 2. Pour tout i = 1, . . . , n, soit Ai = (Qi , Ati , Aci , i , q0i , I0i ) un automate conditionnel. Le produit asynchrone des automates conditionnels A1 , . . . , An , not A1 . . . An est lautomate conditionnel A = (Q, At, Ac, , q0 , I0 ) dni par : Q = Q1 . . . Qn , At = At1 . . . Atn , Ac = Ac1 . . . Acn , q0 = (q01 , . . . , q0n ), I0 = I01 . . . I0n et Li(At) 2Li(At) : Q Ac Q 22 est la fonction de transition dnie par : pour tout q = (q1 , . . . , qn ) Q, pour tout a Ac, pour tout q = (q1 , . . . , qn ) Q, pour tout J Li(At) et pour tout J Li(At), (J, J ) (q, a, q ) ssi il existe i {1, . . . , n} tel que a Aci , (J, J ) i (qi , a, qi ) et pour tout j {1, . . . , n}, si j = i alors qj = qj . Nous observons que le produit A1 . . . An nest dni que si I01 . . . I0n constitue un ensemble consistant de littraux. Exemple Considrons lautomate conditionnel A1 reprsent par la gure 2 et lautomate conditionnel A2 reprsent par la gure 3. Lautomate conditionel A1 A2 est reprsent par la gure 4.
F IG . 3 Le service A2
F IG . 4 Le service A1 A2 sion de trace, lquivalence de trace, la simulation et la bisimulation pour les automates nis. Soit A = (Q, , , q0 ) et A = (Q , , , q0 ) des automates nis. Nous dirons que A est inclus pour la trace dans A , not A tr A , lorsque T r(A) T r(A ). Nous dirons que A et A sont quivalents pour la trace, not A tr A , lorsque T r(A) = T r(A ). Une simulation de A par A est une relation binaire Z Q Q telle que q0 Zq0 et pour tout q Q et pour tout q Q , si qZq alors pour tout r Q et pour tout a , si q a r alors il existe r Q tel que rZr et q a r . Nous dirons que A est simul par A , not A si A , lorsquil existe une relation binaire Z Q Q telle que Z est une simulation de A par A . Nous dirons que A et A sont bisimilaires, not A bi A , lorsquil existe une relation binaire Z Q Q telle que Z est une simulation de A par A et Z 1 est une simulation de A par A. La relation bi-
F IG . 2 Le service A1
4 Equivalences et prordres
An de pouvoir comparer entre eux les automates conditionnels et leurs produits, nous devons dnir ce que sont linclu264
naire Z Q Q sera alors appele bisimulation entre A et A . Rappelons quil existe des automates nis A et A tels que A si A , A si A et non A bi A [5]. Nous dirons que A et A sont isomorphes ssi = et il existe une bijection g : Q Q telle que pour tout tat q1 , q2 Q et pour toute action a , q1 a q2 ssi g (q1 ) a g (q2 ). Soit A et A des automates conditionnels. Nous dirons que A est inclus pour la trace dans (resp. simul par) A lorsque AF (A) est inclus pour la trace dans (resp. simul par) AF (A ). Nous dirons que A et A sont quivalents pour la trace (resp. bisimilaires) lorsque AF (A) et AF (A ) sont quivalents pour la trace (resp. bisimilaires). Remarquons que lquivalence de trace et la bisimilarit sont des relations dquivalence tandis que linclusion de trace et la similarit sont des relations de prordre.
5 Rductions polynomiales
Nous analysons maintenant la difcult intrinsque quil y a comparer entre eux les automates conditionnels ou les produits dautomates conditionnels, le problme de la comparaison de produits dautomates conditionnels tant celui que nous considrons comme tant le plus proche du problme de la composition des services voqu dans la section 2. Dans cette section, nous caractrisons les bornes infrieures de complexit. Nous allons dabord monac trer que les problmes suivants : (Pbi ): soient deux automates conditionnels A et A , dterminer si A et A sont bisiac ) : soient deux automates milaires, (Pet conditionnels A et A , dterminer si A et A sont quivalents pour la trace et ac (Pit ) : soient deux automates conditionnels A et A , dterminer si A est inclus pour la trace dans A . sont respectivement EXPTIME-difcile, EXSPACE-difcile et EXSPACE-difcile. Pour cela, nous allons rduire le problme de la bisimulation entre des rseaux de Petri saufs, qui est EXPTIME-difcile [6], au problme
ac (Pbi ) et nous allons rduire le problme de lquivalence de trace (resp. inclusion de trace) des rseaux de Petri saufs, qui est EXSPACE-difcile [6], au problme ac ac ) (resp. (Pit )). Un rseau de Petri (Pet sauf [8] est une structure de la forme N = (P, T, F, , l, m0 ), dans laquelle P = {p1 , . . . , pn } est un ensemble ni de places, T = {t1 , . . . , tm } est un ensemble ni de transitions, F (P T ) (T P ) est un ensemble ni darcs, est un ensemble ni de symboles, l : T est une fonction et m0 : P {0, 1} est une fonction. La fonction m0 est appele marquage initial de N . De faon gnrale, un marquage m : P {0, 1} pour N dcrit une rpartition de jetons dans les places. Pour chaque transition t T , nous dnissons deux sous-ensembles de places : t = {p : p P et (p, t) F } et t = {p : p P et (t, p) F }. Lensemble t contient les places qui ont un arc en direction de t tandis que lensemble t contient les places qui ont un arc en provenance de t. Une transition t T est dite active (resp. inactive) au marquage m si pour toute place p t, m(p) = 1 (resp. il existe une place p t telle que m(p) = 0). Lorsque la transition t est active au marquage m, nous dnissons le tir de la transition t par laction qui modie le marquage m en un marquage m dni pour toute place p P par m(p) si p t t si p t m (p) = 1 0 sinon
Nous notons m[t lorsque la transition t est active au marquage m et m[t m lorsque m est le rsultat du tir de t depuis m. A chaque rseau de Petri sauf N = (P, T, F, , l, m0 ) nous associons lautomate ni AF (N ) = (Q , , , q0 ) dni par Q = M o M est lensemble des marquages pour N , =, Q Q est la relation de transition dnie par m a m ssi il existe une transition t T tel que l(t) = a et m[t m et q0 = m0 . Nous dnissons, entre rseaux de Petri saufs, les mmes relations dqui265
valence et de prordre que celles considres dans la section 4 : N tr N ssi AF (N ) tr AF (N ), N tr N ssi AF (N ) tr AF (N ), N si N ssi AF (N ) si AF (N ) et N bi N ssi AF (N ) bi AF (N ). A chaque rseau de Petri sauf N = (P, T, F, , l, m0 ), nous associons lautomate conditionnel R(N ) = (Q, At, Ac, , q0 , I0 ), dni par : Q = {q }, At = P , Ac = , (q, a, q ) = {(h(m), h(m )) : m[t m et l(t) = a} q0 = q et I0 = h(m0 ). Dans la dnition ci-dessus, h : M 2Li(At) est la fonction qui associe chaque marquage m M le sous-ensemble h(m) = {p : m(p) = 1} {p : m(p) = 0} de Li(At). Notons que pour tout marquage m M , h(m) est une partie maximale consistante de Li(At). Nous allons montrer que : (1) R est calculable par une machine de Turing dterministe en utilisant un espace logarithmique, (2) les automates nis AF (N ) et AF (R(N )) sont isomorphes. Concernant (1), tant donn un rseau de Petri sauf N , une machine de Turing M calcule R(N ) de la faon suivante : (a) crire lensemble {q } contenant lunique tat de R(N ). Ensuite, crire lensemble At = P des formules atomique de R(N ), lensemble Ac = des actions de R(N ) et ltat initial q0 = q de R(N ) ; (b) crire la partie maximale consistante I0 = h(m0 ) de Li(At). Pour chaque place p, lire la valeur de m0 (p) et ajouter p ou p I0 selon que cette valeur est 1 ou 0 ; (c) pour nir, crire la fonction de transition de R(N ). Pour ce faire, utiliser deux compteurs i et j . Le compteur i va successivement prendre comme valeurs les transitions de N . Pour chaque valeur de i crire lensemble (q, a, q ) o a est laction correspondant la transition i via la fonction l. Pour ce faire, donner successivement j comme valeurs les places de N . Toutes ces tapes peuvent bien sr tre faites de faon dterministe en utilisant un espace logarithmique. Concernant (2), nous procdons de la faon suivante.
266
Les tats de AF (N ) sont des marquages pour N . Les tats de AF (R(N )) sont des couples de la forme (q, I ) o q est lunique tat de R(N ) et I est une partie maximale consistante de Li(At). Soit g la fonction qui associe chaque marquage m pour N le couple (q, h(m)). Nous laissons le soin au lecteur de vrier que g est une bijection telle que pour tout marquage m1 , m2 pour N et pour toute action a , m1 a m2 (dans AF (N )) ssi g (m1 ) a g (m2 ) (dans AF (R(N ))). Donc :
ac ) est EXPTIME-difcile Thorme 1 (Pbi ac ac ) sont EXPSPACEet (Pet ) et (Pit difciles.
Dmonstration. Il suft de rappeler que le problme de la bisimulation entre rseaux de Petri saufs est EXPTIME-difcile [6] et que les problmes de lquivalence de trace et de linclusion de trace entre rseaux de Petri saufs sont EXPSPACEdifciles [6]. Nous allons ensuite monac ) : trer que le problme suivant : (Psi soient deux automates conditionnels A et A , dterminer si A est simul par A , est EXPTIME-difcile. Pour cela, nous alafd ) : soient lons rduire le problme, (Psi A, B1 , . . . , Bn des automates nis dterministes, dterminer si A est simul par B1 . . . Bn , qui est EXPTIMEac ). Soit A = difcile [9], au problme (Psi (QA , A , A , q0A ) un automate ni dterministe. Considrons lautomate conditionnel R(A) = (Q, At, Ac, , q0 , I0 ) tel que : Q = QA , At = , Ac = A , (q, a, q ) = {(, ) : q a A q }, q0 = q0A et I0 = . Soit n 2. Pour tout i {1, . . . , n}, soit Bi = (Qi , i , i , q0i ) un automate ni dterministe et B = (QB , B , B , q0B ) leur produit asynchrone. Sans perte de gnralit, nous supposons que | Q1 |= . . . =| Qn |. Soit t = log2 (| Q1 |) = . . . = log2 (| Qn |) . Pour tout i {1, . . . , n}, nous considrons un ensemble Ati = {ri1 , . . . , rit } de t atomes. Notons
que les ensembles At1 , . . . , Atn sont deux deux disjoints. Soit f : Q1 . . . Qn 2Li(At1 ...Atn ) une fonction bijective telle que pour tout i {1, . . . , n} et pour tout q Qi , f (q ) est une partie maximale consistante de Li(Ati ). Considrons lautomate conditionnel R (B1 , . . . , Bn ) = (Q , At , Ac , , q0 , I0 ) tel que : Q = {q }, At = At1 . . . , Atn , Ac = 1 . . . n , (q , a, q ) = {(f (u), f (v )) : i {1, . . . , n}, u, v Qi et u a i v }, q0 = q et I0 = f (q01 ) . . . f (q0n ). Nous allons montrer que : (1) R et R sont calculables par une machine de Turing dterministe en utilisant un espace logarithmique, (2) les automates nis A et AF (R(A)) sont isomorphes, (3) les automates nis B et AF (R (B1 , . . . , Bn )) sont isomorphes. Concernant (1), largument est le mme que celui que nous avons dvelopp dans la section ??. Lautomate conditionnel R(A) tant la simple rcriture de lautomate ni dterministe A nous laissons le soin au lecteur de vrier (2). Concernant (3), nous procdons de la faon suivante. Les tats de B sont des n-uplet dtats (q1 , . . . , qn ) o qi , i {1, . . . , n}, est un tat de Bi . Les tats de AF (R (B1 , . . . , Bn )) sont des couples de la forme (q , I ) o q est lunique tat de R (B1 , . . . , Bn ) et I est une partie maximale consistante de Li(At ). Soit g la fonction qui associe chaque nuplets dtats (q1 , . . . , qn ) de B le couple (q , I ) o I = f (q1 ) . . . f (qn ). Nous laissons le soin au lecteur de vrier que g est une bijection telle que pour tout n-uplet dtats (q11 , . . . , q1n ), (q21 , . . . , q2n ) de B et pour toute action a B , (q11 , . . . , q1n ) a B (q21 , . . . , q2n ) ssi g (q11 , . . . , q1n ) a g (q21 , . . . , q2n ) (dans AF (R (B1 , . . . , Bn ))). La discussion ci-dessus implique que :
ac Thorme 2 (Psi ) difcile.
6 Classes de complexit
Dans cette section, nous caractrisons les bornes suprieures de complexit. Pour ce ac ), rappelons que le proqui concerne (Pbi blme de la bisimulation entre automates nis est dans P [5]. Considrons lalgorithme suivant : (1) Construire lautomate ni AF (A) ; (2) Construire lautomate ni AF (A ) ; (3) Dterminer si AF (A) et AF (A ) sont bisimilaires. Sachant quun temps exponentiel par rapport la taille de A et A est sufsant pour construire AF (A) et AF (A ) partir de A et A , sachant quun temps polynomial par rapport la taille de AF (A) et AF (A ) est sufsant pour dterminer si AF (A) et AF (A ) sont bisimilaires, il en rsulte que :
ac ) est dans EXPTIME. Thorme 3 (Pbi
Un argument semblable largument prcdent montrerait que :

ac Thorme 4 (Psi ) est dans EXPTIME et ac ac ) sont dans EXPSPACE. ) et (Pit (Pet
Dmonstration. Il suft de rappeler que le problme de la simulation entre automates nis est dans P [5], que le problme de lquivalence de trace entre automates nis est dans PSPACE [4] et que le problme de linclusion de trace entre automates nis est dans PSPACE [4].
ac Considrons le problme suivant : (Pbi ): soient A, B1 , . . . , Bn des automates conditionnels, dterminer si A et B1 . . . Bn sont bisimilaires. Bien entendu, le ac thorme 1 implique que (Pbi ) est EXPTIME-difcile. Par ailleurs, sachant quun temps doublement exponentiel par rapport la taille des B1 , . . . , Bn est sufsant pour construire AF (B1 . . . Bn ), sachant quun temps exponentiel par rapport la taille de A est sufsant pour ac ) construire AF (A), il en rsulte que (Pbi est dans 2-EXPTIME. Nous pouvons, de
est
EXPTIME-
Dmonstration. Il suft de rappeler que afd (Psi ) est EXPTIME-difcile [9].
267
la mme faon, montrer que les problmes ac ) : soient A, B1 , . . . , Bn suivants : (Psi des automates conditionnels, dterminer si A est simul par B1 . . . Bn , ac (Pet ) : soient A, B1 , . . . , Bn des automates conditionnels, dterminer si A et B1 . . . Bn sont quivalents pour la trace ac et (Pit ) : soient A, B1 , . . . , Bn des automates conditionnels, dterminer si A est inclus pour la trace dans B1 . . . Bn , sont respectivement dans 2-EXPTIME, 2EXPSPACE et 2-EXPSPACE. Nous ne connaissons pas lexacte complexit de ac ac ac ac ), (Psi ), (Pet ) et (Pit ). Les pro(Pbi ac ac ac ac blmes (Pbi ), (Psi ), (Pet ) et (Pit ) sont ceux que nous considrons comme tant les plus proches du problme de la composition des services voqu dans la section 2. Dans ces problmes, en effet, A reprsente le service but Sbut tandis que B1 , . . . , Bn reprsentent la communaut C = (S1 , . . . , Sn ).
Rfrences
[1] P. Balbiani et F. Cheikh. Computational analysis of interactiong Web services : a logical approach. Rapport interne de lIrit, 2006. [2] D. Berardi. Automatic service composition. Models techniques and tools. Thse de luniversit La Sapienza, 2005. [3] D. Berardi, D. Calvanese, G. De Giacomo, R. Hull et M. Mecella. Automatic composition of transition-based semantic Web services with messaging. In Proc. 31st Int. Conf. Very Large Data Bases, VLDB 2005, K. Bhm, C. Jensen, L. Haas, P. Larson et B. Chin Ooi, 613-624, 2005. [4] M. Garey et D. Johnson. Computers and Intractability. A Guide to the Theory of NP-Completeness. H. Freeman and Company, 1991. [5] H. Httel et S. Shukla. On the Complexity of Deciding Behavioural Equivalences and Preorders, A Survey. Rapport dans la srie BRICS, 1996. [6] L. Jategaonkar et A. Meyer. Deciding true concurrency equivalences on safe, nite nets. Theoretical Computer Science, 154(1), 107-143, 1996. [7] M. Minsky. Computation Finite and Innite Machines. Prentice-Hall, 1967. [8] T. Murata. Petri Nets : Properties, analysis and applications. In Proc. of the IEEE, 77(4), 541-580, 1989. [9] A. Musholl et I. Walukiewicz. A lower bound on Web services composition. A paratre. [10] M. Pistore, A. Marconi, P. Bertoli et P. Traverso. Automated composition of Web services by planning at the knowledge level. In Proc. Int. Joint Conf. on Articiel Intelligence, IJCAI 2005, L. Kaelbling et A. Safotti, 1252-1259, 2005. [11] M. Singh et M. Huhns. ServiceOriented Computing. Semantics, Process, Agents. Wiley, 2005.
7 Conclusion
Nous avons prsent dans la section 2 un modle orient service et nous avons pos le problme de la composition. Ce problme tant indcidable en gnral, nous avons considr dans la section 3 une abstraction des services sous la forme dautomates conditionnels. Nous avons ensuite tudi la complexit du problme de la composition de services dans ce modle simpli. Les rsultats obtenus montrent que la composition est un problme difcile (EXPTIME-difcile ou EXPSPACEdifcile selon quil sagit de bisimulation ou dquivalence de trace). Nous avons enn donn des procdures de dcision pour lensemble des problmes tudis. Une question demeure : celle de lexistance de classes dautomates conditionnels pour lesquelles les problmes de dcision que nous avons tudis deviennent solubles en temps polynomial ou en espace polynomial.
268
Caractrisation de Requtes dAssistance partir de corpus

Franois Bouchet bouchet@limsi.fr Jean-Paul Sansonnet jps@limsi.fr
LIMSI-CNRS Universit Paris-Sud XI BP 133, F-91403 Orsay Cedex Rsum : La modlisation formelle de linteraction entre les usagers grand public et les systmes informatiques a un rle crucial jouer au niveau de la Fonction dAssistance. Il sagit pralablement de caractriser smantiquement, en termes de couverture et de prcision, des phnomnes lis lassistance pour proposer terme un agent rationnel assistant gnrique capable de ractions pertinentes aux requtes des usagers. Dans cet article, nous prsentons notre approche de construction dun langage pour des agents conversationnels assistants, base sur ltude pralable dun corpus de requtes recueillies dans des situations effectives dassistance. Mots-cls : Agents conversationnels assistants, corpus de requtes dassistance, langage de requtes Abstract: Formal modeling of the interaction between ordinary users and computer-based systems has a major part to play in the Assistance Function. A rst objective is to characterize semantically, both in coverage and precision, the phenomena associated with the Assistance Function to provide a generic assisting rational agent capable of pertinent reactions to users requests. In this paper, we present our approach to the construction of a language for a class of assisting conversational agents, based on the study of a corpus of users requests registered in actual assisting experimentations. Keywords: Assisting conversational agents, assistance requests corpus, requests language
de logiciels de plus en plus complexes (en dpit des progrs ergonomiques), dont par ailleurs ils ne matrisent pas le vocabulaire spcique. Des systmes daide contextuelle (CHS Contextual Help Systems [5]) ont t dvelopps pour mieux sadapter leurs besoins, un ami expert est toujours prfr pour raliser une tche donne dans une application [3]. Paralllement, les agents conversationnels anims dots de capacits de dialogue et de raisonnement [11] ont mis en vidence les avantages dune prsence virtuelle pour faciliter linteraction homme-machine [8]. Pour rpondre ce besoin dassistance, le projet DAFT men au LIMSI-CNRS [13] se propose de dvelopper des Agents Conversationnels Assistants (ACA), capables danalyser des requtes en langue naturelle crite non contrainte dusagers novices en situation relle dutilisation dapplications de complexit croissante (applets, pages web, sites actifs, traitements de texte. . .), pour fournir une assistance pertinente en contexte la manire des CHS avec les bnces lis la prsence dagents conversationnels anims. 1.2 Traitement des requtes Le systme dassistance DAFT vise fournir un noyau dagent rationnel. Larchitecture du systme dassistance (cf. g. 1) contient classiquement : le module danalyse smantique des requtes usager (GRASP) construisant les requtes formelles1 , le module de raisonnement sur le
1 par opposition la forme en langue naturelle. La question de la smantique oprationnelle associe aux requtes, dnie par les ractions de lagent rationnel, nest pas traite ici.
1 Cadre de ltude
1.1 La Fonction dAssistance Le dveloppement de linformatique grand public a entran une forte augmentation du nombre dusagers novices en informatique nayant ni le temps ni lenvie dutiliser les manuels papiers ou les FAQ
269
Caractrisation ___________________________________________________________________________ de requtes d'assistance partir de corpus

Analyseur smantique des questions (GRASP) Langage formel des requtes / ractions dassistance (DAFT)
Usager novice
Expression multimodale des ractions (EVA)
Agent Rationnel : raisonnement sur le modle symbolique du composant Composant assist
F IG . 1 Architecture gnrale de la chane de traitement des requtes dassistance modle de lapplication qui retourne une rponse formelle, et le module dexpression de cette rponse (EVA) selon trois modes, ventuellement conjoints : 1. Rplique de lagent en langue naturelle : selon plusieurs modalits : bulle de texte, synthse de parole, popup daide ; 2. Interaction avec lapplication assiste : consultation et/ou modication des composants via un modle de lapplication ; 3. Animation de lagent : le personnage anim peut exprimer certains tats de lagent (dsaccord, incomprhension. . .) ou dsigner les composants mentionns. 1.3 Caractrisation du langage formel Pour caractriser le langage de requtes, nous tions prcdemment [10] partis de la modlisation interne des composants de lapplication, mais des exprimentations avec des usagers effectifs ont rvl des phnomnes de drive cognitive signicatifs [7] montrant quil faut prendre en compte en priorit le point de vue de lusager : sa perception cognitive de lapplication mais aussi ses attitudes mentales, exprimes dans les groupes verbaux soustendant les actes de langage (cf. 3.1). Cest pourquoi il nous faut un corpus de requtes dassistance, permettant de cerner le domaine de langue concern par la Fonction dAssistance et dtudier la distribution des phnomnes associs, qui sera prsent dans la section 2. Nous prsenterons ensuite les spcications du langage de requtes, puis une valuation de son adaptation notre domaine dtude.
270
2 Prsentation du corpus
2.1 Recueil du corpus Peu de donnes publiques sont effectivement disponibles en dialogue crit Homme/Machine, et nous nous situons dans le cadre assez diffrent des NLI (Natural Languages Interfaces [1]), traitant de requtes isoles et non de sessions dialogiques. Enn, il tait ncessaire de contrler prcisment les conditions exprimentales de recueil des requtes centres sur la Fonction dAssistance, aussi avons-nous t amens recueillir notre propre corpus. Le corpus DAFT comprend 11 000 requtes issues galement de trois sources : 1. Sur une priode de deux ans (juin 2004 - juin 2006), des sujets ont t placs devant divers types dapplications assistes par le systme DAFT (1.0) : trois applets Java (modales et amodales i.e. contenant des threads), deux sites web (dont un ditable par les usagers) ; 2. Des requtes construites manuellement partir de deux thsaurus an dassurer une couverture linguistique largie ; 3. Des FAQ de deux logiciels de traitement de texte trs utiliss (Latex et Word). Une tude comparative du corpus DAFT avec quatre autres corpus de dialogue existants (DAMSL/Switchboard [6], MapTask [4] et Bugzilla [9]) valide la pertinence de notre dmarche de recueil dun corpus spcique, et la section suivante en rsumera certaines conclusions [2].

9% 40%
Contrle Assistance directe
36%
Assistance indirecte Clavardage
aussi quil soit capable dagir lui-mme sur celle-ci, ainsi que de rpondre des commentaires annexes indpendants de la tche accomplir o il devient lui-mme le centre dattention (phnomne li la prsence visuelle de lagent).
3 Le langage de requtes DAFT

15%
F IG . 2 Rpartition des requtes du corpus DAFT par classes dactivits. 2.2 Catgorisation des activits conversationnelles du corpus Lors de la phase de recueil du corpus, les sujets humains devaient raliser certaines tches, en faisant appel si ncessaire un agent prsent dans lapplication pour les assister, mais pouvaient agir et sexprimer de manire non contrainte. Quatre classes de comportements conversationnels ont pu tre observes : activit de contrle : corpus constitu de commandes, an que lagent agisse luimme sur lapplication ; activit dassistance directe : regroupant des demandes daide explicitement formules comme telles par lutilisateur ; activit dassistance indirecte : corpus de jugements de lusager sur lapplication constituant des demandes daide sousentendues, perceptibles uniquement au niveau pragmatique ; activit de clavardage : runissant le reste des interactions essentiellement centres sur lagent, ainsi que des expressions mtalinguistiques, phatiques et de backchanneling. La gure 2 donne la distribution de ces classes et la table 1 prsente des exemples de phrases issues de chacune de ces classes. Lexistence des sous-corpus de contrle et de clavardage montre que lutilisateur attend non seulement dun ACA quil laide utiliser lapplication, mais
3.1 Structure gnrale Ltude mene partir du corpus DAFT nous a permis de dgager une structure gnrale des requtes (dans la suite nous parlerons de schmas de requtes en abrg, de schmas), dcomposables en trois niveaux imbriquables, donns ci-dessous en partant de la couche externe : Les Modalits (notes Mi ) : elles correspondent partiellement aux actes de langage au sens de Searle [14]. Elles donnent une valeur particulire, ventuellement lie lusager lexprimant, un contenu prdicatif (interrogation, doute, volont. . .). Les Prdicats (nots Pi ) : il sagit essentiellement de verbes daction (modier, dplacer. . .) ou de descriptions dtats (faire partie de. . .). Les Rfrences (notes Ri ) : au sens de Rfrences Extensionnelles Associatives [12] (toute mention ultrieure sera prendre dans ce sens) ; elles correspondent gnralement aux groupes nominaux. 3.2 Syntaxe et notations Les modalits et prdicats sont tous dots dun schma qui les lie un ensemble dunits smantiques spciques appeles champs. On notera une modalit :
SYMBOLE-MODALITE(ch1 , ..., chn )
et un prdicat scrira :
SymbolePrdicat(ch1 , ..., chn )
o ch1 ,...,chn reprsentent des champs. Un champ est lui-mme constitu dun couple attribut-valeur et scrit :
attribut=valeur
271
TAB . 1 Quelques exemples de requtes du corpus DAFT

No
Corpus
Phrase Transcription
Contrle
glisser le disque de droite gauche
Contrle
Donne moi la liste des projets
Ass. dir.
c quoi le GT ACA
Ass. dir.
comment faire pour gagner ?
ASK(INFOS(about="le GT ACA")) ASK(WAY(goal=Win()))
Move(obj="le disque", from="droite", Show(obj="la liste des projets")
to="gauche")
Ass. dir.
daprs toi, y a t-il des fonctions dannulation dans cette application ?
ASK(KNOWLEDGE(of="system",
6
about=EXISTENCE(of=FUNCTION(doing=Cancel(), in="cette appli"))))
Ass. dir.
jai bien peur quil ny ait pas moyen de changer la taille de la police qui est trop petite
FEAR(agent="user",
7
fear=NEG(POSSIBILITY(todo=Modify(obj="la police...", property="taille"))))
Ass. dir.
quelles sont les couleurs disponibles ?
Ass. dir.
ya un truc de couleur rouge ?
ASK(OBJECT(isa="couleur", ppt="disponible")) ASK(EXISTENCE(of=OBJECT(isa="truc",ppt="couleur",val="red")))
Ass. ind.
le bouton fermer est semblable au bouton quitter
NEG(DIFFERENCE(between="le
10
bouton fermer", and="le bouton quitter"))
Ass. ind.
probablement que le bouton NEXT ne marche pas correctement
PROBABILITY(degree="2", of=PROBLEM(with="le bouton NEXT")) 11 Clav. Absolument ACK() 12 Clav. bonjour je suis Arthur HELLO(),VALUE(object="user", property="nom", 13 Clav. sais-tu chanter ? - non traite -
value="Arthur")
Les valeurs possibles des champs sont fortement lies au type de ces champs (cf. 3.3) et ont trois natures possibles : une rfrence (entre guillemets) issue de la requte en langue naturelle (ex : le bouton). un marqueur symbolique (entre guillemets et en majuscule) dpendant du type du champ et indirectement issu de la requte de lusager (ex : TRUE pour un boolen, PAST pour un temporel). une modalit ou un prdicat (uniquement lorsquil sagit dun champ de modalit). La syntaxe gnrale dune requte formelle est alors de la forme :
M1 (...Mn (a1 = P1 (a1 = R1 , ..., al = Rl ), ..., am = Pm (...)) ...)
3.3 Les types de champs Tous les champs de modalits et de prdicats sont dots dun type, et les attributs de ces champs ne peuvent tre remplis que par une rfrence de type compatible2 . Les 11 types dnis au fur et mesure de la transcription des phrases selon la nature des rfrences sont dnis dans la table 23 . Les schmas typs aident aussi choisir le bon schma lorsque plusieurs sont possibles, si les types des champs de lun ne correspondent pas aux types des rfrences de la requte langagire. Pour grer limbrication de schmas, on dnit un type global pour les modalits pouvant tre imbriques (le type global des prdicats est toujours [act]). Ainsi la phrase y a-t-il un minimum pour la vitesse ? se transcrit :
2 Cela suppose que lanalyse smantique dtermine le(s) type(s) des rfrences ; actuellement, ceci se fait par lattribution des types au niveau denviron 1500 cls smantiques (regroupant lemmes et locutions, quivalent de synsets Wordnet). 3 En dpit des exemples, il ny a pas dquivalence lemmetype (voir couleur dans les phrases 7 et 8) ; la dsambiguisation peut seffectuer laide dinformations grammaticales fournies par le module GRASP.
Expression dans laquelle : M1 - Mn sont des modalits, P1 - Pm sont des prdicats, a1 - am , a1 - al sont des attributs, R1 - Rl sont des rfrences. Plusieurs modalits peuvent simbriquer entre elles et contenir plusieurs prdicats coordonns (i.e. au mme niveau) contenant chacun une ou plusieurs rfrences.
272
Type [act] [con] [obj] [ppt] [val] [typ] [per] [man] [pla] [tim] [boo]
TAB . 2 Liste des 11 types de champs du langage DAFT Signication Exemples Action Prdicats daction (cf. table 4) Concept abstrait les actions sur les tables, une nouvelle partie. . . Objet de lapplication une page, un disque, a. . . Proprit couleur, le plus rcent. . . Valeur bloqu, vrai, bleu. . . Type page, lien, projet, membre. . . Personne utilisateur ou systme uniquement Manire lenvers, un tout petit peu, btement. . . Lieu ou zone de lapplication le site, au dbut, lapplication. . . Instant ou dure PAST, NOW, ALWAYS. . . Boolen TRUE et FALSE
ASK(EXISTENCE(time="NOW", of=VALUE( object="vitesse", asked="min")))
o EXISTENCE a un champ of attendant un lment de type [obj] : le type global de VALUE est donc [obj]. 3.4 Modalits, prdicats, rfrences Lannotation du corpus a permis de dterminer 39 modalits, regroupes selon leur structure ou leur signication en 8 catgories (cf. table 3), distinguables selon : Leur profondeur dans la requte DAFT : sans dtailler les rgles dimbrication, les modalits de jugement ou dexpression de sentiments se situent plutt dans les couches externes des requtes (ex : phrase 6 de la table 1), tandis que les modalits dinformations sont plutt sur les couches internes prs des prdicats (ex : phrase 5). La complexit des schmas de requtes : les marqueurs (cf. table 3) ne prennent quun argument unique, tandis que des schmas comme OBLIGATION en prennent 4 ou 5, mme si tous les champs sont rarement remplis simultanment. La complexit didentication du phnomne smantique reprsent : des modalits comme PLACE ou MOMENT sont parfois implicites et difciles liciter, ainsi : je ne trouve pas X, sousentend lendroit o est X, alors que dans stoppe le compteur 1000, on devra li-
citer : quand il vaut 1000. Leur frquence : comme souvent avec des phnomnes linguistiques, la distribution des modalits suit une loi de Zipf. Leur gnricit : les modalits circonstancielles et de jugement sont plutt classiques dans ce type dapproche [6]. Par contre, celles de la catgorie assistance sont trs lies au domaine de langue tudi, ce qui dmontre lintrt du corpus. Nous avons aussi dni les schmas de 46 prdicats (cf. table 44 ), dont la frquence suit galement une loi de Zipf, constituant une base assez complte dactions pour les sous-corpus de contrle et dassistance dans le cadre des applications testes. Les rfrences ont t gnralement gardes sous forme brute, mais la modalit OBJET permet de les encapsuler pour aider lidentication de lentit rfrence dans lapplication (pour la phrase 2, on pourrait crire objet = OBJET(isa="liste", property="projets")). La principale difcult (outre la rsolution de la rfrence) est dautomatiser cette dcomposition, et elle est lie au problme didentication des types (cf. 3.3).
4 Les types sufsent bien souvent la comprhension puisquils sont lis la structure actancielle classique du verbe en cas dambigut, nous prcisons un nom ou un exemple de rfrence possible (entre guillemets).
273
TAB . 3 Liste des 39 modalits Mi de DAFT

Informations structurelles et fonctionnelles dune entit
INFOS
(Avoir) des informations/plus dinformations sur un sujet.
MEANING
Le sens de quelque chose, daprs quelquun.
TYPE
Le type dun objet est tel type.
VALUE
La valeur (de la proprit dun objet / dun objet) est valeur.
PROPERTY
La proprit proprit dun objet vaut une valeur.
FUNCTION
La fonction faisant une action dtermine pour des objets donns dans un cadre particulier, et ayant certaines proprits.
ROLE
Le rle dun objet / concept / personne par rapport un rfrentiel.
LIMIT
Limites dans un objet / des proprits dun objet.
FUNCTIONING
Le fonctionnement dun objet.
Identication dentits
EXISTENCE
Existence de quelque chose dans un endroit.
OTHER
Un objet / Une action autre que celui / celle considr(e).
OBJECT
Un objet ayant un type, des proprits et situ en un lieu donn. Peut servir effectuer une action ou tre objet de celle-ci.
Relations inter-entits
DIFFERENCE
Diffrences entre une entit et une autre selon un critre.
ORDER
Ralisation dun ensemble dactions tape par tape, la dernire tant considre comme le but de la procdure.
Capacits, droits et devoirs dune entit
POSSIBILITY
Possibilits offertes quelquun par une autorit (de raliser quelque chose / au sujet dun objet) pour quelquun.
KNOWLEDGE
(Connaissance/Savoir/Comprhension/Capacit) de quelquun/quelque chose (pour faire une action / au sujet dun objet).
OBLIGATION
Obligation dune personne par une autre faire quelque chose / dun objet.
WILL
Volont de quelquun quune action soit ralise par une personne / dun objet.
PROBABILITY
Probabilit dune action / dun objet un certain degr.
Circonstancielles
WAY
Moyen datteindre un but.
EFFECT
Leffet dune action / dun objet est une autre action.
REASON
La raison/cause de quelque chose.
PLACE
Emplacement de quelque chose / o faire quelque chose.
INSTANT
Instant o une action se fait / o un vnement a lieu.
NUMBER
Nombre dlments dans un espace donn.
Sentiments
LIKE
Un agent aime un objet aim (quelquun ou quelque chose).
FEAR
Un agent a peur dune crainte.
BOTHER
Le gn est incommod par une gne.
DOUBT
Un doute dune personne au sujet de quelque chose (absence de certitude).
SURPRISE
Un agent est surpris par quelque chose.
REGRET
Un agent a des regrets au sujet de quelque chose.
HAPPY
Un agent est heureux au sujet de quelque chose.
Assistance
PROBLEM
Situation insatisfaisante, rsultat inattendu. Problme dune personne avec un objet ou pour faire une action.
MISTAKE
Acte involontaire/inadapt. Un responsable commet une erreur sur une action ou un objet.
HELP
Un demandeur rclame laide dun assistant, (pour raliser une action / au sujet dune entit), en faisant quelque chose.
TELL
Un locuteur sadresse un interlocuteur pour lui parler dun sujet ou lui exposer une action raliser.
Marqueurs
CHECK
Marqueur de demande de vrication dune information.
ASK
Marqueur dinterrogation, pour toute interrogation qui nest pas un CHECK.
NEG
Marqueur de ngation prcdant une action ou modalit (sa position est alors prendre en compte pour retrouver le sens).
274
TAB . 4 Liste des 46 actions du langage DAFT (ordonne par le nombre de champs)
Bip()
Start([obj])
MakeAMove([pla]from,[pla]to)
End() sens contextuel
Swap([obj])
Sort([obj],[man]"en sens inverse")
Scroll()
Use([obj])
Update([obj],[per]by )
Activate([obj])
Win([man]"facilement")
Add([obj],[pla]in,[man]"sans risque")
Cheat([man]"un peu")
Belong([obj],[obj]to)
Click([per],[obj],[man])
Check([obj])
Cancel([act],[obj])
Exceed([ppt],[obj]of,[val])
Contact([per])
Close([obj],[tim]when)
Give([per]from,[obj],[per]to)
Count([man]"rebours")
Control([obj],[ppt])
Go([pla]to,[tim]at,[man])
Create([obj])
Delete([obj],[man])
Operate([per]operator,[obj],[man])
Download([obj])
Handle([per],[act])
Modify([obj],[ppt],[val],[man])
Happen([tim]when)
Join([per],[obj])
Stop([act],[obj],[tim]when,[tim]during )
Hide([obj])
Restart([obj],[per])
Play([per],[per]for,[obj],[tim]"next turn",[man])
Quit([obj])
Restore([obj],[val])
Show([per]shower,[per]to,[obj],[man],[pla]in)
Recommend([obj])
Revert([act],[con])
Move([obj],[per],[pla]in,[pla]from,[pla]to,[man])
Repeat([con]"partie")
Save([obj],[pla]in)
Replay([con]"jeu")
See([obj],[per])
TAB . 5 Taux de couverture des 4 souscorpus par le langage DAFT

Sous-corpus
Ctrl
Ass. dir.
Ass. ind.
Clav.*
Couverture
92,3%
96,7%
70,2%
82,4%
*(hors dialogue)
4 Discussion et valuation
4.1 Adquation et robustesse Une fois une premire version du corpus DAFT recueillie (environ 5000 requtes), le traitement a t effectu manuellement partir de deux sous-ensembles au 1/10e (1075 phrases). Parmi elles, 698 ont t transcrites en requtes DAFT respectant la syntaxe dnie en 3.2, offrant une couverture (rapport nombre de phrases transcrites / nombre de phrases totales) globalement correcte mais ingale (cf. table 5)5 . Lajout de nouvelles requtes dassistance dans le corpus ne doit entraner ni re5 Une partie du sous-corpus de clavardage de dialogue avec lagent (202 phrases) na pas t prise en compte : la structure de ces requtes est proche des requtes dassistance, mais il faudrait tendre le vocabulaire des prdicats.
mise en question de la structure adopte, ni ajout de nombreux prdicats. Nous avons donc tudi une nouvelle tranche de 1/10e du corpus retranscrite en DAFT (uniquement pour les sous-corpus de contrle et dassistance) et avons ainsi pu estimer que seules 2 modalits de quantication (TOO, ENOUGH) et 4 prdicats daction (Bloquer, Communiquer, Choisir, Agir) supplmentaires seraient ncessaires, soit un ajout de lordre de 5% pour une augmentation de 50% de la taille du corpus. De plus, la structure mme de la syntaxe propose na pas t mise en dfaut, conrmant que la mthodologie employe (sousensembles au 1/10e ) na pas biais le langage de requtes. 4.2 Perspectives Il reste savoir sil est computationnellement possible de produire des ractions correctes, ce qui ncessite de relier les lments des requtes aux lments de lapplication assiste ; mais surtout pertinentes6 . La conception dun systme intgrant le langage de requtes propos pour
6 En particulier, en cas dchec du systme de raisonnement sur la structure du composant, il est toujours possible de sim-
275
une large classe de composants assists constitue la suite directe de cette tude, et permettra une valuation plus approfondie des choix effectus.
[7]
Rfrences
[1] Ion Androutsopoulos and Maria Aretoulaki. The Oxford Handbook of Computational Linguistics, chapter Natural Language Interfaces, pages 629649. Oxford University Press, March 2003. [2] Franois Bouchet and Jean-Paul Sansonnet. tude dun corpus de requtes en langue naturelle pour des agents assistants. In Proc. of WACA 2006, October 2006. [3] Antonio Capobianco and Nolle Carbonell. Conception daides en ligne pour le grand public : ds et propositions. In J.-M. Robert A. Drouin, G. Eude, editor, Proc. ERGO-IA2002, pages 309335, October 2002. [4] Jean Carletta, Amy Isard, Stephen Isard, Jacqueline Kowtko, Gwyneth Doherty-Sneddon, and Anne Anderson. Hcrc dialogue structure coding manual. Technical report, HCRC, University of Edinburgh, June 1996. [5] Bernard J. Jansen. Seeking and implementing automated assistance during the search process. Information Processing and Management, 41(4) :909928, July 2005. [6] Daniel Jurafsky, Rebecca Bates, Noah Coccaro, Rachel Martin, Marie Meteer, Klaus Ries, Elizabeth Shriberg, Andreas Stolcke, Paul Taylor, and Carol Van Ess-Dykema. Switchboard discourse language modeling project nal report. Technical report, Center for Speech and
plier les requtes an de parvenir une rponse vide comme "Dsol, je ne peux donner dexplication au fait que le compteur sest arrt.", correcte mais pas rellement pertinente.
[8]
[9] [10]
[11]
[12]
[13]
[14]
Language Processing, Johns Hopkins University, 1998. David Leray and Jean-Paul Sansonnet. Ordinary user oriented model construction for assisting conversational agents. In CHAA06 at IEEEWIC-ACM Conference on Intelligent Agent Technology, 2006. James C. Lester, Sharolyn A. Converse, Susan H. Kahler, Steven Todd Barlow, Brian A. Stone, and Ravinder S. Bhogal. The Persona Effect : Affective impact of animated pedagogical agents. In CHI 97 : Proceedings of the SIGCHI conf. on Human factors in comp. syst., pages 359366, New York, NY, USA, March 1997. ACM Press. Gabriel Ripoche. Sur les traces de Bugzilla. PhD thesis, Univ. Paris XI, June 2006. Nicolas Sabouret and Jean-Paul Sansonnet. Un modle de requtes sur le fonctionnement de composants actifs. In Proc. MFI 01, volume 3, pages 419436, May 2001. David Sadek, Philippe Bretier, and E. Panaget. Artimis : Natural dialogue meets rational agency. In IJCAI (2), pages 10301035, August 1997. Susanne Salmon-Alt. Rfrence et dialogue nalis : de la linguistique un modle oprationnel. PhD thesis, Univ. H. Poincar, Nancy 1, May 2001. Jean-Paul Sansonnet, Karl Le Guern, and Jean-Claude Martin. Une architecture mdiateur pour des agents conversationnels anims. In Proc. WACA01, pages 3139, June 2005. John Rogers Searle. Speech Acts : An essay in the Philosophy of language. Cambridge University Press, new edition, January 1969.
276
La dcision multi-critre pour la coordination locale dans les systmes multi-agents

M. Boussard M. Bouzid {mboussar,bouzid,mouaddib}@info.unicaen.fr GREYC - Universit de caen Rsum : A la diffrences des systmes mono-agent, la planication multi-agent doit rsoudre des conits entre les intrts individuels dun agent et lintrt du groupe. Dans cet article, nous utilisons un processus dcisionnel de Markov dcentralis valu par des vecteurs (2V-DEC-MDP) en vue de rsoudre ce problme. Le cadre formel considr, celui des MDP valuation vectorielle, utilise une fonction de valeur qui retourne un vecteur reprsentant la fois lintrt personnel et lintrt du groupe. Lintrts individuel dun agent, calcul hors-ligne, repose sur sa politique optimale . Lintrt du groupe est calcul en ligne par les agents partir de leurs observations locales. An de tenir compte de ces deux critres dans un processus de dcision, nous avons dvelopp un algorithme base sur le regret partir de la norme de Tchebychev. Lobjectif est de trouver un bon compromis entre lintrt du groupe et celui de lagent. Ces rsultats sont illustrs par un exemple. Mots-cls : Processus dcisionel de Markov, systme multi-agents, dcision multi-critre Abstract: In spite of mono-agent systems, multi-agent planing addresses the problem of resolving conicts between individual interests and group interest. In this paper, we are using a Decentralized Vector Valued Markov Decision Process (2V-DEC-MDP) in order to solve this problem. This formal framework, the Vector valued MDP, uses an utility function which is returning a vector representing both individual interest and group interest. The individual interest of an agent, computed off-line, is based on is optimal policy. Group interest is computed on-line by the agent using local observations. In order to take into account both criteria in a decision process, we develop a regret-based algorithm from the Tchebychev Norm. The goal is to nd a good trade-off between the group interest and the agent one. This results are illustrated by an example. Keywords: Markov Decision Process, MultiAgents Systems, Multi-Criteria tifs. Nanmoins, la mme optimisation au sein dun groupe dagents ne sera pas ncssairement optimale, ni mme acceptable. Lorsquil sagit doptimiser le comportement global du groupe, lune des difcults est de rsoudre les conits entre lintrt personnel et lintert du groupe. An doptimiser dans ce contexte, il est ncssaire de dtablir les lois sociales, qui conduiront le groupe opter pour un solution satisfaisante. Un outil bien connu pour tudier de tels systmes multi-agents est la thorie des jeux de Von-Neumann-Morgenstern. Chaque agent calcule sa dcision optimale, en supposant que tous les autres feront de mme. Aucun agent ne regrette alors son choix, en effet choisir un autre comportement conduirait une diminution de son gain. Dans un tel contexte chaque agent ne cherche qu maximiser gostement son prot individuel. Le problme de driver des prfrences de groupe partir des prfrences individuelles t largement tudi. Lobjectif ici est de, tant donn un ordre de prfrences pour chaque agent du groupe, davoir une manire de combiner ces prfrences an dassurer un ordre concistent des prfrences du groupe. Nous considrons ainsi un systme constitu dagents, ayant chacun un ensemble dobjectifs atteindre. Chaque agent utilise un processus dcisionnel de Markov (MDP) pour dnir une politique an de rsoudre son problme. Laccomplissement des objectifs dun agent peut avoir des effets sur laccomplissement des objectifs des autres agents. Ce problme est directement li lintelligence collective (COIN) qui traite des effets dactions individuelles sur le bien-tre gnral tout en nexhibant que des utilits locales sans dnir le comportement global souhait [12]. Dans cet article nous proposons un cadre formel pour reprsenter les relations entre les objectifs, ainsi quun modle dcisionnel utilisant un processus dcisionel de Markov dcentralis valuation vectorielle(2V-DEC-MDP) o la fonction de rcompense vectorielles dun agents premet de reprsenter ses intrts, ainsi que ceux du groupe. Pour lintrt du groupe, nous faisons la distinction entre deux critres : un effet positif (laction dun agent augmente la satisfaction dautres agents) et un effet ngatif (laction dun agent dgrade la satisfaction dautres). Le vecteur des valeurs considr permet A. Mouaddib
1 Introduction
Planier des tches avec un agent unique, implique doptimiser lacomplissement de ses objec-
277
La ___________________________________________________________________________ dcision multi-critre pour la coordination locale dans les systmes multi-agents
ainsi un agent de reprsenter sa satisfaction personnelle ainsi que ses effets positifs et ngatifs sur le groupe. Ainsi, pour prfrer une dcision une autre, un agent a besoin dun oprateur permettant de comparer (dordonner) des vecteurs de valeurs [11]. Pour cela, nous utilisons des rsultats de la thorie de la dcision multi-critres. La suite de cet article est organis comme suit : dans la section 2 nous prsentons lexemple qui a motiv notre approche. La section 3 est consacre la dcision multi-critres. Dans la section 4, nous prsentons les MDP multi-critres (2V-MDP pour Vector Value MDP), et un oprateur dcisionel multi-critre : le LexDiff. Ces rsultats seront illustrs par des exprimentations dans la section 6 et compar avec dautre approche dans la section 7. La section 8 conclue notre article. de cet article. Le but de la dcision multi-critre [10] est de choisir une solution prfre dans un ensemble de choix prenant en compte plusieur aspects(critres), comme par exemple le prix, la qualit, lapparence, etc . . .. Ces critres peuvent tre contradictoire (comme la qualit et le prix). Le fait davoir des critres multiples au sein du processus dcisionnel implique que, dun certain point de vue, un choix, constitu dun ensemble de critres, peut tre arbitrairement prfr un autre, sans faire pour autant un mauvais choix. Ceci implique que lon ne puisse plus dnir aisment loprateur max utilis traditionelement pour denir le choix optimal. Ainsi, avant de prsenter lalgorithme pour driver une politique partir du 2VDEC-MDP, il est important de faire une introduction la dcision multicritres. Dnition 1 Un point x = (c1 , c2 , . . . , ci , . . . , cn ) domine un autre point x , ci R si : i, ci ci i, ci > ci
2 Motivations
Ce travail a t motiv par le problme pos par une simulation de situation de crise, la RobocupRescue (Figure 1). Il y est simul la survenu dun tremblement de terre dans une ville, le but est de maximis un score, prennant en compte les dgats sur la ville ainsi que le nombre de victimes. Nous disposons comme moyen pour intervenir diffrent types dagents (pompiers, ambulanciers et policier), ceux-ci disposent de peu de moyens de communications ainsi que dune observabilit partielle de la ville. Il est nanmoins ncssaire quils se coordonnent an, par exemple, de ne pas bloquer inutilement des routes. Notre approche vise donc permettre la coordination des agents partir seulement de leur but personnel (eteindre un feu), et de leurs perceptions locale.
La solution un problme de dcision multicritres ne doit pas tre domine par une autre. Elle doit en effet faire partie de lensemble paretooptimal. Dnition 2 Lensemble pareto-optimal est form des lments non-domins. Nous introduisons deux points de rfrences, le point Ideal et le Anti-Ideal [2]. Dnition 3 Le point Ideal = (c1 , . . . , ci , . . . , cn ) est denit comme tant le point maximisant tout les critres simultanment. Cest un point de rfrence, il nappartient pas ncessairement un choix possible. Soit pour un ensemble de choix E Rn , Ideali = max vj (ci ), vj E
j
CIVILS
AMBULANCIERS
ROUTES BLOQUEES
XXX
POMPIERS
Le point AntiIdeal est son oppos, cest a dire quil minimise tous les critres. Il sert de rfrence comme tant le pire choix. Anti Ideali = min vj (ci ), vj E
j
DEPARTS DE FEUX
POLICIERS
F IG . 1: Lgende RobocupRescue
3 Dcision multi-critre
Ce travail est fond sur la thorie de la dcision multi-critre. Nous y ferons rfrence tout au long
Avec ces deux points nous obtenons un encadrement partant du plus mauvais choix jusquau meilleur. Nous avons seulement prsent ici le vocabulaire de la dcision multi-critre. Pour plus de dtails, le lecteur est invit consulter [6, 5]. Dans la partie suivante, nous allons construire un processus de dcision complet.
278
4 Processus dcisionnel de Markov multi-critres

Comme nous lavons indiqu en introduction, nous nous plaons dans un environnement incertain. Nous utilisons donc le formalisme des processus dcisionnel de Markov (MDP) pour dcrire nos problmes. La prise de dcision dpend de plusieur critre. Aussi nous utilisons nous prsentons directement le formalisme des MDP multicritre (2VMDP)[7]. Soit Z = {z1 , z2 , . . . , zn } un vecteur de critres zi , ou chaque zi reprsente un des critre du rsultat. Une action aj prise dans un ensemble dactions A = {a1 , a2 , . . . , am } agit sur un certain nombre de critres (quelques-uns ou tous) transformant le vecteur Z en Z = {z1 , z2 , . . . , zn }. Il convient donc de modier la dnition du MDP an dinsrer la prise en compte de ces critres. Ainsi, un MDP multicritres se dnit par : un ensemble dtats S un ensemble dactions A une fonction de transition p(s, a, s ), s, s S, a A une fonction de rcompense r(s) = {r1 (s), r2 (s), . . . , ri , . . . , rn (s)} o chaque ri (s) reprsente la rcompense obtenue dans ltat s pour le critre i (de la mme maniere que dans les MDP monocritre). Reprenons maintenant lquation de Bellman qui permet de driver, par le calcul de la recompense spre de chaque tat V (s), une politique optimale. Dans sa formulation monocritre, elle scrit sous la forme : V (s) = R(s) + max
a s
Dnition 4 Norme pondre de Tchebychev : p, q Rn , s ,q (p) =

i{1,...,n}
max i pi qi
Cette norme nous permet de dnir, pour un point p, une distance un point de rfrence q . Pour q , nous choisissons le point Ideal(Dnition 3). Il reste dnir les poids i de la norme. Nous les utiliserons an de normaliser tous les critres entre eux. Les i sont donc dnis : i = i Ideali AntiIdeali
o le paramtre i permet de rintroduire au besoin des priorites entre les critres. Lintrt dutiliser cette norme (avec la normalisation) est de pouvoir exprimer pour chaque action le regret qua un agent davoir choisie une action par rapport une laction ideale. A partir de cette norme, nous pouvons construire un oprateur de dcision qui remplacera le max de lquation de Belleman dans les 2V-MDP.
Un oprateur dcisionnel : le LexDiff

Soit vi la valeur de la politique courante pour le la fonction valeur optimale (toujours critre i et vi pour le critre i). Nous dnissons un nouveau vecteur, appel vec teur dutilit et not V u , construit partir de la nome pondre de Tchebychev, reprsentant pour chaque critre la distance normalise(par les i ) au , v 2 , . . . , vn )(pondre si ncspoint Ideal q = (v1 saire par les coefcients i prsents dans les i ). Ainsi, pour un tat s S : u (s) v0 (s) = 0 v0 (s) v0 u v1 (s) = 1 v1 (s) v1 (s) V u (s) = . . . u (s) vn (s) = n vn (s) vn Une fois ce vecteur calcul, laction est slectionne par un tri selon un ordre lexicographique, en cherchant minimiser les maximaux. Cet oprateur nous garantit une solution pareto-optimale, tout en prservant une socit galitaire. Cest dire que la solution choisie ne laissera aucun critre trop se dgrader, mme si pour cela, elle perd un peu en utilit globale [3]. Pour dterminer ce vecteur V u (s) il est donc ncssaire deffectuer n optimisations mono-critre. Il est facile de calculer une valeur optimale pour une politique ne prenant en compte quun critre unique, en utilisant lalgorithme value iteration par exemple. Pour n critres, nous devons donc dterminer n fonctions de valeur optimales. Cela naugmente pas ncssairement de beaucoup le temps de
p(s, a, s )V (s )
Dans le cas multicritres, la fonction de rcompense retourne un vecteur. Plus formelement, soit : v1 (s) r1 (s) v (s) r2 (s) V (s) = 2 ... = ... vn (s) rn (s) v1 (s ) v (s ) p(s, a, s ) 2 + max ... a s vn (s ) O chaque vi , i 1 . . . n sont les valeurs des diffrents critres. Il apparait que, dans le cas gnral, lapplication directe de loprateur max est impossible, une mme action ne satisfaisant pas simultanment tous les critres. Loprateur max donc besoin dtre rednit dans le cadre multi-critre. Pour cela, nous nous basons sur la norme pondre de Tchebychev [2].
279
calcul global. En effet, comme toutes ces optimisations sont indpendantes, il est facile de les parallliser. Il est aussi possible dacclrer ce calcul en optimisant un critre tout en gardant les valeurs des autres critres qui, par la suite, serviront initialiser les calculs des critres suivants. Avant de le prsenter en detail ces ensembles, nous allons avoir besoin de quelques dnitions. Le monde dans lequel voluent les agents est reprsent par un MDP < S, A, T, R >. Un tat s S est constitu dun ensemble dobservations sur le monde o O a un instant t, nous notons s = Ot . Bien que nous utilisons un ensemble dobservations, nous ne nous plaons pas dans un contexte de processus de Markov partiellement observable, ces observations reprsentant ltat rel de lagent. Dnition 5 Soit i un agent possdant un ensemble dactions Ai A. Les pr-conditions ncessaires au dclenchement dune action a Ai dans un tat (consitu dun ensemble dobservations a un instant t) Ot sont notes : in(a) : Ot {true, false}, t > 0 Dnition 6 Etant donn un tat et une action, ltat rsultant est donn par : out(a) : A Ot Ot+1 A partir de tout cela, nous pouvons denir les quatre ensembles qui mesurerons limpact social des diffrentes actions. Un agent i calcule ainsi : t t , a) = {b Aj =i |in(a) Oi in(b) Ei (Oi t+1 t+1 t Oi Oi out(a) : in(b) Oi } t t , a) = {b Aj = i|in(a) Oi in(b) Di (Oi t+1 t+1 t Oi Oi out(a) : in(b) Oi }. t t EBi (Oi , a) = {b Aj =i |in(a) Oi in(b) t+1 t+1 t Oi Oi out(b) : in(a) Oi } . t t DBi (Oi , a) = {b Aj =i |in(a) Oi in(b) t+1 t+1 t Oi Oi out(b) : in(a) Oi }. Sur lexemple 2 : t EB (A,O) Nord (A,O) Sud Est (A,O)
t DB (C,O) (C,N) (D,O)
5 Un cadre fond sur les 2VMDP pour coordonner des agents

5.1 Limpact des actions des agents sur le groupe
Nous prsentons ici un formalisme pour exprimer limpact des dcisions de lagent sur la socit. Ce travail suit celui de AI Mouaddib et al. dans [8]. Pour prendre sa dcision, lagent se pose deux questions : quelles vont tre les impacts de mon action sur la socit ? quelles peuvent tre les impacts des actions des autres agents sur moi ? Ces ides sont illustres gure 2. Pour lagent B , le fait de choisir laction E (aller a lEst) empechera C daller au Nord et D daller lOuest, mais, dans le mme temps liberera laction E de A. De mme, laction O de B , qui nest dans ltat actuel du monde impossible, peut-tre rendue possible par un dplacement de A. En, si B va au Nord, il ne risque pas de conit avec un autres agents, et de plus, il liberera une action pour A. A partir de tout ces lments B pourra prendre en compte limpact de ses actions sur les autres agents, et perdre un peu en esperance de gain personnel an de donner plus de libert au groupe, ou bien dclancher une action impossible mais raportant normement en esperant que lagent bloquant bouge (exemple gure 2, agent B avec laction Ouest).
N
A B
?
Ebt B
O S
F IG . 2: Exemple de prise de dcision en ligne

Pour formaliser ce type de rpercutions, nous dnissons quatre ensembles : E(Enable), D(Disable), Eb(Enable by), Db(Disable by). Chaque ensemble reprsente respectivement les actions : rendues possibles chez les autres agents, inhibes, possible si . . ., impossible si . . ..
(A,N) (A,S) Ainsi chaque agent peut valuer les degrs de libert quil enlvera ou ajoutera aux autres agents, ainsi que les actions dont il peut, ou ne peut plus disposer cause dactions dautres agents. Nous pouvons remarquer que ces quations retournent des ensembles dactions, et non pas des valeurs numriques. Il est donc ncessaire, an dintgrer ces informations dans notre processus de dcision, de dnir une valuation de ces diffrents lments. Une fois cette valuation dnie, on peut constituer un petit MDP multicritres local permettant de dterminer laction qui conduira au meilleur compromis. On utilisera pour cela la mthode de rsolution des MDP multi-critres telle quelle a t prsente dans la partie prcdente.
Ouest
Dbt b (C,O) (C,N) (D,O)
280
5.2 Rsoudre le 2V-DEC-MDP

Pour cet exemple, nous nous limiterons au critre Di pour laspect social et Ri , la valeur de sa politique optimale, pour lintrt personnel de lagent i. Chaque agent calcule sa politique optimale horsligne, avec un algorithme standard tel que value iteration ou policy iteration etc. . . Une fois cette partie hors-ligne effectue, toutes les dcisions seffectuent en ligne. Avant chaque dcision, chaque agent calcule le vecteur de valeur pour toutes ses actions. Le premier lment du vecteur est la valeur dans ltat suivant, telle quelle est dnie dans lquation de Bellman. Le second lment est donc la valuation de lensemble Di . Pour terminer, nous utilisons loprateur LexDiff pour slectionner laction effectuer. Un des principaux problmes de se coordonner sans communication apparat dans des situations symtriques (deux agents face une porte par exemple). Pour viter ces situations, nous introduisons une matrice de cots similaire la matrice des gains de la thorie des jeux connue de tous les agents. Ceci est plus de lordre de limplmentation quune relle solution, mais cela nous permet dj de dbloquer de nombreux cas dinterblocage. Nous prsentons maintenant le schma de calcul pour dterminer un des composant du vecteur dimpact social (tel que Di ). Nous avons seulement besoin de sommer sur la valeur de ltat suivant la probabilit de transition. Comme les observations reprsentent ltat effectif, nous pouvons calculer Di de cette manire : Si deux agents a et b se trouvent sur le mme tat aprs leurs action, ils sont en collision, ils prennent alors une pnalit selon une matrice de cots de collision.
E pour tous les ai Ai faire penality 0 reward 0 pour tous les s S faire reward r + p(s , si , ai ) pour tous les aj Aj , (j = i) faire penality p(si , ai , s ) p(sj , aj , s ) C (i, j )
E E (ai , penality, reward) retourner PrefAction(E) Algorithme 1 : module en ligne des 2VDEC-MDP
6 Exprimentations
Dans les gures des sections 6.1 et 6.2, nous utilisons les reprsentations suivantes : Chaque tat est reprsent par un hexagone, les agents sont reprsents par des cercles, les hexagones foncs reprsentent des murs. Les agents on sept actions : avancer dune case dans chacune des six directions, et rester sur place. Toutes les actions ont le mme cot.
6.1 Exprimentation 1 : coordination spatiale locale

Nous montrons ici les rsultats fournis par lalgorithme pour une coordination spatiale locale.
a) Un groupe dagents est plac en bas. b) Les agents se dispersent pour casser le groupe dense en un groupe plus clairsem. c) Ils suivent leur politique optimale jusqu ce (p(s0 , a, s1 )(s2 , b, s1 )C (i, j )) Di (s, a) = quils atteignent le mur. t +1 bAj =i O i d) An de ne pas gner les premiers agents, les derniers prfrent bouger sur la droite. Ladaptation de la politique hors-ligne au contexte e) Ils suivent leur politique optimale. courant (prsence dautres agents) se fait par lalf) Stabilisation autour de ltat but. gorithme 1. Il sexcute rapidement, car, bien quil numre des ensembles potentiellement grand, la restriction une exploration locale trs restreinte 6.2 Exprimentation 2 : mergence de fait que seul une petite partie de ces ensembles est formation de coalition en ralit pris en compte. Cet exprience a pour but de montrer comment Aucune supposition nest faite sur les actions que grce cet algorithme, nous pouvons obtenir un les autres agents vont rellement choisir. Chaque comportement en essaim. ensemble reprsente donc ce quil pourrait arriver, ces ensembles sont ainsi pris en compte an de rafa) Un groupe dagents est plac au centre du ner le processus de dcision. La fonction PrefAcmonde, et des buts dans chacun des angles. tion(E) retourne laction slectionn par loprateur LexDiff dans lensemble E . b) Formation dun groupe clairsem.
281
(a)
(b)
(a)
(b)
(c)
(d)
(c)
(d)
(e)
(f)
(e)
(f)
F IG . 3: Coordination spatiale locale
F IG . 4: Formation de Coalitions et coordination spatiale
282

c) Ils continuent vers leurs buts individuels, en essayant de ne pas nuire aux groupe, nous obtenons alors quatre groupes diffus. d) Ces groupes forms, chaque agent suit sa politique optimale. e) Quand ils convergent vers leurs tats but, les agents doivent nouveau modier leurs politiques an de ne pas se retrouver en conit avec dautre agents f) Finalement nous aboutissons principalement deux types dquilibres ; un (comme les deux groupes sur la gauche) o les agents se place de manire clairsem et rgulire prs de ltat but, et lautre (comme dans le coin suprieur droit) o tous les agents se placent autour. Ces diffrences proviennent du fait que les actions sont non ordonnes, ainsi si pour un agent deux actions sont quivalentes en termes de rcompense, lagent choisit au hasard. Selon les actions choisies, le groupe adoptera lune ou lautre des formes. chev munie dun ordre lexicographique appropri et dun algorithme de chainage arrire pour driver une politique satisfaisante. Lalgorithme bas sur le regret respecte les conditions prsent dans [9] et est similaire lalgorithme de Jacobi modi adapt aux problmes de planication multiagents.
8 Conclusion
Nous navons pas pour but ici dapporter des solutions au problme de la dcision multi-crititre, nous cherchons montrer comment la prise en compte de critres supplmentaires permet une amlioration du comportement dun groupe dagents. De ce fait, nous ne cherchons pas pour le moment tablir des proprits sur nos oprateurs, mais seulement montrer quils permettent daboutir un comportement satisfaisant. Nous avons apport trois contributions : (1) Nous avons introduit un cadre formel pour exprimer les liens entre les objectifs, (2) un modle dcisionnel attach utilisant un processus dcisionnel de Markov dcentralis valuation vectorielle et (3) un algorithme pour rsoudre le DEC-MDP obtenu. Nous avons montr que rsoudre ce DEC-MDP peut conduire, sous certaines conditions, des comportements sociaux plus satisfaisants que lapplication des politiques optimales mono-agent, cette approche rduisant le nombre de conits. Des expriences et analyses sont ncessaires an de caractriser plus nement le comportement mergent global. Les travaux futurs aborderons lutilisation dapprentissage par renforcement multi-critre [4] des Ri ainsi que des poids i de la norme pondre de Tchebychev et de leurs effets sur le comportement mergent et sur la coordination (ou le dsordre) des politiques locales. Notre approche ne peut garantir la coordination des politiques locales dans tous les tats mais peut rduire le dsordre en valuant les ensembles Di , DBi , Ei , EBi . Apprendre ces mesures peut permettre une meilleur coordination. Nous dveloppons des agents pour la RobocupRescue [1] an de valider ces rsultats dans une simulation plus complte.
7 Travaux connexes
Ce travail est un dbut vers de nouvelles approches pour traiter les problmes dintelligence collective (COIN), qui a pour but de coordonner un groupe dagent sans exhiber le comportement global voulu. Wolpert et al. dnissent les foncions de World Utility(WU) et Wonderful Life Utility comme tant une somme de Ri tandis que dans notre approche, ils sont reprsent part la fonction de rcompense augmente ARi . Nous utilisons une reprsentation vectorielle car parfois, contrairement au COIN, les fonctions Ri , Ei , Di , EBi , DBi peuvent ne pas tre du mme type. Cette fonction augmente vite davoir des agents travaillant contresens (la prise en compte de Di , DBi et Ei , EBi ) et conduit une certaine coordination entre agents. Cette approche contribue aussi aux systmes multi-agents (SMA) car il parvient surmonter la principale difcult rencontr dans la dnissions des problme de SMA : la mise au point de structure de coordination articielle pour imposer la coordination. De tel structures de coopration rendent le passage lchelle difcile et souvent non robuste. Cette approche est dans lesprit de nombreux modle existant de MDPs avec des fonctions valeurs vectorielle [11, 9] et des algorithmes appropris pour les rsoudre, o la plupart utilise le chanage arrire, policy iteration et value iteration en substituant les oprations (+, ) par (max, min)dans les calculs. Dautre approches se sont intresses lutilisation dune version qualitative des MDP ainsi quaux MDP algbriques [9]. Non loin de ces rsultats positifs, nous proposons une alternative aux MDP standart en combinant une mesure de regret similaire la norme pondre de Tcheby-
Rfrences
[1] www.rescuesystem.org/robocuprescue/. [2] M.J. Bellosta, I. Brigui, S. Kornman, S. Pinson, and D. Vanderpooten. Un mcanisme de ngociation multicritre pour le commerce lectronique. In Reconnaissance des Formes et Intelligence Articielle, RFIA 2004, pages 10091016, 2004. 28-30 Janvier, Toulouse. [3] Matthieu Boussard. Processus dcisionnels de markov multi-critre, 2005. Rapport de Master 2.
283
[4] Zoltan Gabor, Zsolt Kalmar, and Csaba Szepesvari. Multi-criteria reinforcement learning. In ICML, pages 197205, 1998. [5] L. Galand. Recherche dun chemin de meilleur compromis dans un graphe multicritre. In 7me Congrs de la Socit Franaise de Recherche Oprationnelle et dAide la Dcision, pages 121136. Presses Universitaires de Valenciennes, 2006. [6] M. Grabisch and P. Perny. Agrgation multicritre. In Logique oue, principes, aide la dcision, pages 81120. 2002. [7] AI Mouaddib. Towards techniques to solve vector-valued mdps. Technical report, 2005. [8] Bouzid maroua Mouaddib Abdel-Illah, Boussard mattthieu. Towards a formal framework for multi-objective multi-agent planning. In AAMAS 2007, 2007. [9] P. Weng P. Perny, O. Spanjaard. Algebraic markov decision processes. In 19th International Joint Conference on Articial Intelligence, pages 13721377, 2005. [10] P. Vincke. Laide multicritre la dcision. Statistique et mathmatiques appliques. Edition de luniversit de bruxelles, edition ellipses edition, 1989. [11] K. Wakuta and K. Togawa. Solution procedures for multi-objective Markov decision processes. 1998. [12] D.H. Wolpert and K. Tumer. Introduction to collective intelligence. Handbook of Agent Technology. AAAI Press / MIT Press, 2000.
284
Le modle des cartes cognitives contextuelles

L. Chauvin D. Genest {lionelc,genest,loiseau}@info.univ-angers.fr LERIA - Universit dAngers 2 boulevard Lavoisier 49045 Angers Cedex 01 Rsum : Le modle des cartes cognitives offre une reprsentation graphique dun rseau dinuences entre diffrentes notions. Une carte cognitive peut contenir un grand nombre de liens dinuence ce qui rend difcile son exploitation. De plus ces inuences ne sont pas toujours pertinentes pour des utilisations diffrentes de la carte. Nous proposons une extension de ce modle qui prcise le contexte de validit dune inuence laide de graphes conceptuels et nous fournissons un mcanisme de ltrage des inuences en fonction dun contexte dutilisation. Mots-cls : cartes cognitives, contexte, graphes conceptuels Abstract: A cognitive maps is a network of inuences between concepts. A cognitive map can contain a great number of inuence what makes difcult its exploitation. Moreover these inuences are not always relevant for different use of a map. We propose an extension of this model which species the context of validity of an inuence using conceptual graphs and we provide a ltering mechanism of the inuences according to a context of use. Keywords: cognitive maps, context, conceptual graphs S. Loiseau
1 Introduction
Une dcision peut tre vue comme un choix parmi plusieurs alternatives dans le but datteindre un objectif. Un systme daide la dcision manipule des connaissances et fournit des mcanismes lutilisateur lui facilitant la prise de dcision. Un tel systme peut prsenter une solution lutilisateur puis lui expliquer comment cette solution a t dtermine comme optimale selon des critres prdnis. Il peut aussi tre plus souple en donnant la possibilit lutilisateur de naviguer parmi les alternatives pour effectuer son choix. Une carte cognitive [1] reprsente graphi-
quement un rseau dinuence entre diffrentes notions. Ce type de reprsentation visuelle offre un moyen de communication simple entre plusieurs personnes. Les cartes cognitives ont t utilises dans de nombreux domaines pour expliquer le fonctionnement de systmes complexes comme par exemple en biologie [1], en cologie pour dcrire des co-systmes [2][3], en sociologie pour dcrire des comportements sociaux [3]. Les cartes cognitives ne sont pas uniquement un outil de reprsentation, elles facilitent la prise de dcision. En effet, le parcours des inuences de notion en notion reprsente les tapes mentales quun individu effectue pour valuer les consquences dune dcision possible. Les diffrents chemins dinuence arrivant sur un objectif reprsentent les alternatives possibles permettant de latteindre. Les cartes cognitives ont donc des applications dans des domaines ncessitant une prise de dcision, comme dans les domaines politiques et conomiques [4][5]. La reprsentation informatique dune carte cognitive et lautomatisation du parcours des inuences sont relativement aiss. Cest la facult des cartes cognitives servir de support la communication et daide la dcision par lintermdiaire dun outil informatique qui nous intresse dans ce travail. Bien quelles permettent de reprsenter de faon simple un systme o les notions sinuencent entre elles, les cartes cognitives de grande taille sont difciles apprhender par un utilisateur. Une telle carte peut tre le fruit dun travail collaboratif ou le rassemblement des connaissances de plusieurs individus. Certaines parties
285
Le ___________________________________________________________________________ modle des cartes cognitives contextuelles
peuvent tre fortement lies des points de vue ou aux centres dintrts des personnes qui ont exprim ces connaissances, ce qui peut rendre lensemble de la carte peu homogne. Le concepteur dune carte place une inuence entre deux notions en pensant un contexte prcis. Un observateur extrieur ne connaissant pas cette information de contexte peut trouver cette inuence contestable. Notre travail est une extension du modle des cartes cognitives. Son originalit consiste fournir au(x) concepteur(s) la possibilit dexpliciter le contexte de validit de chaque inuence dune carte. Un mcanisme permet lutilisateur de ltrer les informations de la carte en fonction du contexte dutilisation qui lintresse. Pour ce faire, notre modle de cartes cognitives contextuelles utilise une ontologie. Il associe un graphe conceptuel [6] chaque inuence pour dcrire son contexte de validit. On garde ainsi la simplicit dutilisation dun modle graphique tout en fournissant un vocabulaire. Pour manipuler une carte, lutilisateur dcrit laide dun graphe conceptuel le contexte dans lequel il lutilise. Lopration de projection des graphes conceptuels permet de ltrer les inuences qui ont un sens dans ce contexte dutilisation. Lutilisateur peut alors exploiter plus facilement cette carte simplie. Dans la partie 2, nous dcrivons le modle des cartes cognitives contextuelles. La partie 3 traite de lexploitation de ce modle. Enn nous prsenterons dans la partie 4 le prototype que nous avons dvelopp utilisant ce modle.
sation dune carte. Le modle des graphes conceptuels utilis ici, est une version simplie de celui dni dans [7]. Tout graphe conceptuel est dni sur un support qui organise, laide de relations sorte de, un vocabulaire compos de types de concepts et de types de relations. Dnition (support): Un support S est un couple (TC , TR ) tel que : TC , ensemble des types de concepts, est un ensemble partiellement ordonn par une relation sorte de (note ) possdant un plus grand lment (not ) appel type universel. TR , ensemble des types de relations, est un ensemble partiellement ordonn, partitionn en sous-ensembles de types de relations de mme arit. TR = TR1 . . .TRp , o TRi est lensemble des types de relations darit i. Tout TRi admet un plus grand lment (not i ). Exemple: Le support dcrit en gure 1 dnit des types de concepts tels que Ville (qui est une sorte de Lieu) et des types de relations binaires tels que agent.
TC
Vhicule
Mort
Etre Vivant
Lieu
Action
Priode
Voiture Cyclomoteur Personne Ville
Campagne Accident Jour Nuit
Piton
Homme Femme Autoroute
Route dpartementale
TR
agent
lieu
T2
temps
tat
utiliser
F IG . 1 Un support Un graphe conceptuel est un graphe contenant deux sortes de sommets. Les sommets de ces deux classes sont tiquets respectivement par des noms de concepts et des noms de relations conceptuelles entre ces concepts. Les noms de concepts et
2 Le modle des cartes cognitives contextuelles

Rappelons dans un premier temps la dnition du modle de graphe conceptuel utilis pour reprsenter les contextes dutili286
de relation tant pralablement dnis dans le support. Les sommets concepts et les sommets relations sont relis par des artes numrotes. Dnition (graphe conceptuel): Un graphe conceptuel G = tiqG ) dni sur un support (CG , RG , EG , e S , est un multigraphe non orient, biparti o : CG est lensemble des sommets concepts. RG lensemble des sommets relations. EG est lensemble des artes. Toutes les artes dun graphe conceptuel G ont une extrmit dans CG et lautre dans RG . e tiqG est une application qui tout sommet de CG , de RG et toute arte de EG associe une tiquette : si r RG , e tiqG (r) TR ; si c CG , e tiqG (c) TC ; si e EG , e tiqG (e) N. Lensemble des artes adjacentes tout sommet relation r est totalement ordonn, ce que lon reprsente en tiquetant les artes de 1 au degr de r. Exemple: Le graphe conceptuel de la gure 2 reprsente un accident mortel (accident dans lequel une personne est morte)
1
un signe + ou - pour signier quune notion peut avoir une inuence ngative ou positive sur une autre. Le concepteur dune carte cognitive contextuelle peut exprimer laide de graphes conceptuels le contexte de validit de chaque inuence. Dnition (carte cognitive contextuelle): Une carte cognitive contextuelle dnie sur un support S est un graphe orient X = (NX , LX , CX , e tiqX ) o : NX est lensemble des noeuds du graphe. LX est lensemble des arcs du graphe, appels liens dinuence de la carte. CX un ensemble de graphes conceptuels. e tiqX est une fonction dtiquetage qui : tout lment n de NX associe un intitul dcrivant la notion. tout lment l de LX associe un couple (s, c) avec s {+, } reprsentant le signe de linuence l et c CX un graphe conceptuel appel contexte de validit de linuence l. Un contexte de validit particulier appel contexte vide est associ aux inuences toujours valides. Notation: tiqX ) une carte Soit X = (NX , LX , CX , e cognitive contextuelle. Soit l LX , on note source(l) la notion qui est lorigine de larc et cible(l) celle qui est lextrmit. On note cont_val(l) le contexte de validit de l. Le contexte de validit vide est reprsent par le symbole . Un nom unique peut tre associ chaque contexte de validit. Exemple: La carte cognitive de la gure 3 sinspire des problmes de scurit routire et peut tre utilise an de sensibiliser des personnes ces problmes. Il est possible de considrer une notion comme un vnement, dans ce cas, un lien dinuence positif entre deux notions pourrait se dcrire
287
Accident
agent
Personne
tat
Mort
F IG . 2 Un graphe conceptuel Une carte cognitive contextuelle est reprsente sous la forme dun graphe orient. Les noeuds du graphe sont tiquets par un intitul dcrivant une notion. Pour simplier nous supposons quil nexiste pas deux noeuds de la carte tiquets par le mme intitul, nous emploierons donc le mot notion pour parler du contenu dune tiquette et du noeud lui-mme. Les arcs dans le graphe reprsentent des liens dinuence. Un lien dinuence est une relation de causalit possible entre deux notions. Les arcs du graphe sont tiquets par
de la faon suivante : si la premire notion se produit alors il est probable que la seconde se produise. A linverse, un lien dinuence ngatif peut se dcrire par : si la premire notion se produit alors il est moins probable que la seconde se produise. Par exemple, si lon prend les notions mettre sa ceinture et accident mortel, le fait de mettre sa ceinture diminue les risques davoir un accident mortel.
F IG . 3 Carte cognitive A chaque inuence de la carte de la gure 3 est associ un des contextes de validit reprsents dans la gure 4. Par exemple, certaines inuences comme la "fatigue" qui inuence les "erreurs humaines" sont toujours pertinentes quel que soit le contexte dutilisation de la carte, le contexte vide leur est donc associ (gure 4A). Utiliser un "passage pour piton" diminue les risques daccidents mortels pour un piton (gure 4B). Linuence dune "mauvaise tenue de route" sur les "accidents mortels" est vraie pour un automobiliste (gure 4C).
A: Contexte vide:
Une carte cognitive contextuelle nest pas seulement un outil de reprsentation mais est aussi un systme daide la dcision qui permet lutilisateur de dduire les consquences dune notion sur une autre. Certaines notions peuvent tre des consquences indirectes, cest pourquoi il est possible de dnir un mcanisme de propagation de linuence dans le graphe. Linuence propage dune notion sur un autre est dnie en fonction des chemins qui existent dans la carte entre ces deux notions, et des tiquettes portes par les liens. Cet effet peut tre positif (not +), ngatif (-), nul (0) ou ambigu ( ?). Linuence propage entre deux notions est positive (respectivement ngative) lorsque le cumul des inuences de tous les chemins entre ces deux notions est positif (respectivement ngatif). Linuence propage entre deux notions est nulle lorsquil nexiste pas de chemins entre ces deux notions. Enn linuence propage est ambigu lorsquil existe deux chemins dont les cumuls des inuences sont de signes diffrents. Dnition (propagation de linuence dans une carte cognitive): Soit X = (NX , LX , CX , e tiqX ) une carte cognitive contextuelle dnie sur un support S , linuence I de X est une application de NX NX dans {+, , 0, ?} telle que : I (n i , n j ) =
H Hi,j i[1,|H |1]
I1 (hi , hi+1 )
B: Pieton: C: Automobiliste:
Piton
Personne
utiliser
Voiture
F IG . 4 Ensemble des contextes de validit des inuences

288
Hi ,j tant lensemble des chemins ayant pour pour premier sommet ni et comme dernier sommet nj . Chacun de ces chemins tant de la forme H = (h1 , . . . , hk ) avec k = |H |. I1 tant une application de NX NX dans {+, , 0} telle que I1 (ni , nj ) = e tiqX (l) si il existe un l = (ni , nj ) dans LX et 0 sinon. et tant des applications de {+, , 0, ?} {+, , 0, ?} dans {+, , 0, ?} dnies ainsi :
+ 0 ?
+ ? + ?
? ?
+ 0 ?
? ? ? ?
+ 0 ?
+ 0 ?
+ 0 ?
0 0 0 0
? ? 0 ?
Exemple: Sur la carte de la gure 3 linuence positive de la notion Circuler sur autoroute sur la notion Accident sur autoroute peut tre interprte de la faon suivante : "Circuler sur autoroute augmente les risques davoir un accident sur autoroute". De mme linuence ngative de la notion Femme sur la notion Circuler sur autoroute peut sinterprter par : "Une femme circule peu sur autoroute". Le mcanisme de propagation permet de dduire : "Etre une femme diminue les risques davoir un accident sur autoroute".
exemples nous considrons que lutilisateur choisi dutiliser pour contexte dutilisation lun des graphes conceptuels piton et automobiliste qui sont utiliss pour dcrire les contextes de validit des inuences (gure 4). Le contexte dutilisation nest pas toujours lun des contextes de validit des inuences de la carte, en effet, les contextes de validit des inuences sont gnralement moins spcialiss que le contexte dutilisation ce qui permet une inuence de sactiver dans plusieurs cas. Le mcanisme de ltrage sappuie sur lopration de projection dun graphe conceptuel dans un autre. Dnition (projection): Une projection dun graphe G = (CG , RG , EG , e tiqG ) dans un graphe H = (CH , RH , EH , e tiqH ) est une application : NG NH (avec NG = CG RG et NH = CH RH ), telle que : les artes et les tiquettes des artes sont conserves : pour toute arte rc de EG , (r)(c) est une arte de EH et e tiqG (rc) = e tiqH ((r)(c)) ; les tiquettes des sommets peuvent tre spcialises : pour tout n de NG , tiqG (n). e tiqH ((n)) e Exemple: Le concept Voiture est dni dans le support comme tant une sorte de Vhicule. De faon intuitive, le graphe utilisateur dun vhicule se projette dans le graphe automobiliste car linformation reprsente par le graphe utilisateur dun vhicule (voir gure 5) est incluse dans le graphe automobiliste. Pour modier le raisonnement selon le contexte dutilisation, les inuences qui ne sont plus pertinentes dans ce contexte ne sont pas prises en compte dans la propagation. Une inuence est dsactive si son
289
3 Exploitation
Une fois la carte tablie, une fois que des contextes ont t associs aux inuences, un utilisateur peut manipuler la carte cognitive contextuelle. Pour cela il prcise dabord le contexte dans lequel il souhaite lutiliser. Le mcanisme de ltrage prsent dans cette section active les inuences et les notions valides dans le contexte dni. Une carte restreinte au contexte est ainsi dtermine. Lutilisateur peut enn utiliser le mcanisme de propagation sur cette carte restreinte pour connatre linuence de nimporte quelle notion sur une autre. Dnition (contexte dutilisation de la carte): Un contexte dutilisation cont_util est un graphe conceptuel dni sur un support S . Le contexte dutilisation vide est not . Exemple: Lutilisateur construit un nouveau graphe conceptuel pour dcrire le contexte dutilisation de la carte. Dans les prochains

Utilisateur dun vhicule:
Personne
utiliser
Vhicule
Automobiliste:
Personne
utiliser
Voiture
Sur cette carte il est possible dappliquer les mcanismes de propagation dinuence vus prcdemment. Dnition (carte restreinte au contexte): Soit X = (NX , LX , CX , e tiqX ) une carte cognitive contextuelle dnie sur un support S , la carte restreinte de X au contexte cont_util est le sous graphe qui vrie : (activ e (NX , cont_util), activ e (LX , cont_util), CX , e tiqX ) Une fois la carte restreinte obtenue, il est possible dutiliser le mcanisme de propagation dinuence sur celle-ci. Dnition (propagation dinuence selon un contexte dutilisation): Soit X = (NX , LX , CX , e tiqX ) une carte cognitive contextuelle dnie sur un support S , soit cont_util un contexte dutilisation, linuence I de X dans le contexte dutilisation cont_util est linuence I de X = (activ e (NX , cont_util), activ e (LX , cont_util), CX , e tiqX ) Exemple: La carte cognitive de la gure 7 a pour but de sensibiliser les pitons aux problmes de la route, elle est obtenue en masquant les inuences dont le graphe conceptuel associ nest pas gale T et qui ne se projette pas dans le contexte dutilisation "Piton". Dans un contexte de sensibilisation des pitons aux problmes de la route, les informations qui sont lies lutilisation de vhicules comme par exemple linuence de lexcs de vitesse sur les accidents mortels sont masques. La carte est alors plus simple, et permet deffectuer des raisonnements plus adapts cette utilisation. Par exemple, pour un piton, circuler en ville augmente ses risques davoir un accident mortel, ce qui nest pas le cas pour un automobiliste (gure 6). La carte cognitive contextuelle prsente dans cette exemple pourrait tre amliore pour sadapter dautre cas dutili-
F IG . 5 Projection du graphe conceptuel utilisateur de vhicule dans le graphe automobiliste graphe conceptuel associ ne se projette pas dans le graphe conceptuel reprsentant le contexte dutilisation de la carte. On dnit ainsi lensemble des inuences actives. Dnition (ensemble des inuences actives): Soit X = (NX , LX , CX , e tiqX ) une carte cognitive contextuelle dnie sur un support S , soit cont_util un contexte dutilisation, activ e (LX , cont_util) = {l LX | (cont_val(l) = une projection de cont_val(l) dans cont_util)} Une notion qui est relie aucune inuence active dans le contexte dutilisation a peu dintrt pour lutilisateur, nous dnissons donc quune notion est active si elle est relie au moins une inuence active. Les notions dsactives peuvent ne pas tre prsentes lutilisateur. Dnition (ensemble des notions actives): Soit X = (NX , LX , CX , e tiqX ) une carte cognitive contextuelle dnie sur un support S , soit contu til un contexte dutilisation, activ e (NX , cont_util) = {n NX | l activ e (LX ) tq source(l) = n cible(l) = n} Une fois que les sous-ensembles des inuences et des notions actives sont dtermins laide du contexte dutilisation de la carte, ils forment une nouvelle carte, plus simple et plus adapte au contexte.
290
sations. Elle pourrait par exemple servir la sensibilisation de cyclomotoristes ou de conducteurs de camions. Les inuences qui seraient valides la fois pour des automobilistes, des cyclomotoristes et des conducteurs de camions recevraient pour contexte de validit le graphe conceptuel utilisateur de vhicule de la gure 5
F IG . 6 Utilisation pour une voiture
F IG . 7 Utilisation pour un piton
port sont dvelopps laide de la bibliothque ddition et de manipulation de graphes : JGraph 2 Au cours de la manipulation dune carte cognitive contextuelle, lutilisateur dite le contexte dutilisation de la carte. Les notions et les inuences dsactives sont alors automatiquement grises. Cette fonctionnalit de ltrage utilise lopration de projection qui est implmente de manire efcace par Cogitant 3 . Dans la capture dcran de notre prototype (gure 8), les notions et les inuences qui ne sont pas valides dans le contexte dutilisation dune voiture sont grises comme par exemple la notion Dfaillance technique. Nous avons implment les mcanismes de propagation permettant lutilisateur de demander linuence dune notion sur un autre. Les rsultats sont prsents de faon ergonomique grce un code de couleur : vert pour une inuence positive, rouge pour une inuence ngative et orange pour une inuence ambigu. La capture (gure 8) montre que linuence de "Circuler la nuit" sur "Accident mortel" est positive car la notion "Accident mortel" est de couleur verte. Par un chemin qui est afch en vert : "Circuler la nuit" augmente la "Fatigue" qui augmente les risque d"Erreur humaine", ce qui augmente les risques d"Accident mortel". Par un autre, "Circuler la nuit" un effet ngatif sur la "Bonne visibilit" et "Etre bien visible" (afchs en rouge). Ces deux notions diminuent les "Accident pour cause de mauvaise visibilit" (afch en vert) donc par ce chemin "Circuler la nuit" augmente les risques d"Accident mortels".
4 Prototype
Nous avons dvelopp un prototype1 (gure 8) en Java permettant de construire et de manipuler des cartes cognitives contextuelles. Les composants graphiques ncessaires la reprsentation dune carte cognitive, des graphes conceptuels et du sup1 tlchargeable ladresse : http://forge.info. univ-angers.fr/~lionelc/CCdeGCjava/
5 Conclusion
Lextension du modle des cartes cognitives prsente ici facilite lexploitation de cartes complexes grce un mcanisme de ltrage. Une carte de grande taille difcile comprendre est simplie pour ne pr2 http://www.jgraph.com 3 http://cogitant.sourceforge.net
291
F IG . 8 Prototype : Utilisation de la carte cognitive senter que les informations intressantes dans le contexte dutilisation. Dabord ce mcanisme fournit une base intressante pour la construction de carte, en permettant de sparer les parties associes des points de vue diffrents, un point de vue pouvant tre considr comme un contexte de validit. Ensuite cette extension permet deffectuer des raisonnements plus exacts car les inuences non pertinentes dans le contexte ne sont pas prises en compte dans le mcanisme de propagation. Des chemins de la carte dont les signes sont diffrents et qui appartiennent des contextes diffrents napparaissent pas en mme temps, les rsultats des calculs de propagation dinuence sont alors moins souvent ambigus. Enn lide de paramtrage dune carte en fonction du contexte pourrait sappliquer des modles de cartes cognitives plus complexes que celui prsent dans cet article. Le modle des cartes cognitives oues [8] considre les notions de la carte comme des variables et associe aux inuences des valeurs relles (comprises entre -1 et 1) reprsentant la force de linuence dune notion sur une autre. Dans notre modle une inuence positive peut tre dsactive dans un contexte au prot dune inuence ngative, de la mme manire le mcanisme de ltrage appliqu au modle des cartes cognitives oues per292
met dobtenir des valeurs de force qui varient en fonction du contexte dutilisation. Dans notre modle le sens de chaque notion est dni laide dun intitul formul en langage naturel ce qui peut mener des diffrences dinterprtation entre plusieurs utilisateurs dune mme carte. Notre modle peut tre utilis en complment dune autre extension des cartes cognitives : le modle des cartes cognitives de graphes conceptuels[9]. Cette extension prcise le sens dune notion en la dcrivant laide dun graphe conceptuel. Lopration de projection des graphes conceptuels est utilise dans cette extension pour slectionner de notions smantiquement lies et ainsi fournir des mcanismes de propagation entre deux ensembles de notions.
Rfrences
[1] Edward C. Tolman. Cognitive maps in rats and men. The Psychological Review, 55(4) :189 208, 2006. [2] Filiz Dadaser Celik, Uygar Ozesmi, and Asuman Akdogan. Participatory ecosystem management planning at tuzla lake (turkey) using fuzzy cognitive mapping, 2005. [3] Poignonec D. Apport de la combinaison cartographie cognitive/ontologie dans la comprhension de la perception du fonctionnement dun cosystme rcifo-lagonaire de NouvelleCaldonie par les acteurs locaux. PhD thesis. [4] Axelrod R. Structure of decision : the cognitive maps of political elites. Princeton University Press, 1976. [5] Cossette P. Introduction, Cartes cognitives et organisations. Les presses de luniversit de Laval, cossette ed. edition, 1994. [6] Sowa J. F. Conceptual structures : Information processing in mind and machine. 1984. [7] Mugnier M.L. and Chein M.L. Reprsenter des connaissances et raisonner avec des graphes. (10) :756, 1996. [8] Kosko B. Neural networks and fuzzy systems : a dynamical systems approach to mahine intelligence. Prentice-Hall, Engelwood Cliffs, 1992. [9] Genest D and Loiseau S. Modlisation, classication et propagation dans des rseaux dinuence. 2007.
Rgles Naturelles Optimales pour lArgumentation

Y. Chevaleyre yann.chevaleyre@lamsade.dauphine.fr N. Maudet maudet@lamsade.dauphine.fr
LAMSADE Univ. Paris-Dauphine 75775 Paris Cedex 16 FRANCE Rsum : Deux agents dfendent des points de vue antagonistes propos dun point en discussion, qui dpend dun nombre (xe) de critres, ou aspects, quils connaissent tous deux. Supposons maintenant, quen tant quarbitre, vous souhaitiez prendre une dcision base sur ce que vont reporter les deux agents. Malheureusement, ce que peuvent communiquer les agents est limit. Comment alors concevoir les rgles du protocole, de faon minimiser les erreurs induites par ces contraintes de communication ? Cet article discute ce modle introduit par Glazer et Rubinstein [2] dans une version limite, et introduit des rsultats prliminaires dune exploration combinatoire de ce problme. Mots-cls : Argumentation, Conception de mcanismes. Abstract: Two players hold contradicting positions regarding a given issue, which depends on a (xed) number of aspects or criteria they both know. Suppose, as a third-party, that you want to make a decision based on what will report the players. Unfortunately, what the players can communicate is limited. How should you design the rules of your protocol so as to minimize the mistakes induced by these communication constraints ? This paper discusses this model originally due to [2] in a specic case variant, and introduces preliminary results of a combinatorial exploration of this problem. Keywords: Argumentation, Mechanism design.
valeur des critres. Dans notre contexte, les dcisions envisages sont binaires (la dcision dfendue par le premier joueur, et la dcision dfendue par le deuxime joueur), ainsi que les critres, qui dfendent soit la position du premier joueur, ou celle du deuxime joueur. Enn, la rgle de dcision est connue des deux joueurs (il sagit par exemple de choisir la dcision dfendue par une majorit de critres). Les deux joueurs sont daccord et connaissent ltat du monde rel : il savent donc quelle dcision devrait logiquement tre choisie. Mais imaginons maintenant la prsence dun tiers, un arbitre qui na pas accs ltat rel du monde. Cet arbitre peut nanmoins observer lchange darguments qui a lieu entre les deux joueurs, suite quoi il devra dcider quelle dcision prendre. Dans le cas o la communication entre les agents est limite, on se trouve face un problme dlicat de conception de mcanisme (mechanism design) : concevoir les rgles du dbat de manire maximiser la probabilit dopter pour la bonne dcision , cest--dire celle qui serait choisie si linformation tait complte. Ce problme a t introduit par Glazer et Rubinstein dans [2], dans les termes qui suivent. Un dbat est constitu de deux lments. les rgles procdurales spcient le protocole, les rgles contraignant les arguments que les dbatteurs peuvent avancer (on supposera en particulier ici quun agent ne peut avancer que des arguments qui consistent rvler quun critre est en sa faveur) ; les rgles de persuasion spcient la rgle employe par lobservateur pour
293
1 Introduction
Nous considrons la situation suivante : deux dbatteurs opposent leurs points de vue propos dun problme donn ; et nous supposons que ce problme dpend exclusivement dun ensemble donn de critres. Les valeurs de ces critres tant donnes, il est possible de dterminer la dcision prendre : cest le rsultat dune rgle de dcision qui est applique sur la
Rgles ___________________________________________________________________________ naturelles optimales pour l'argumentation
prendre la dcision nale, sur la base des arguments avancs au cours du dbat. En ce qui concerne les rgles procdurales, les auteurs distinguent trois types de dbats : le cas du dbat interlocuteur unique (single-speaker debate) ; le cas du dbat simultan (simultaneous debate), o les arguments sont rvls de manires simultane par les dbatteurs ; et enn le cas du dbat squentiel (sequential debate) qui correspond vident plus intuitivement la notion naturelle de dbat. Dans [2], les auteurs tudient les trois types de dbat, mais dans le contexte restreint o la dcision nest base que sur 5 critres diffrents, et o le nombre darguments qui peut tre communiqu est limit 2. Ils montrent en particulier que la rgle optimale, dans ce contexte-l, est ncessairement squentielle. Dans cet article, nous amorons une tude du comportement extrmal de ce problme (lorsque le nombre de critres sur lequel est base une dcision est important). Le reste de cet article se prsente comme suit. Dans la section suivante, nous introduisons les notions lmentaires que nous utiliserons. La section 3 prsente ensuite lanalyse de diffrentes rgles naturelles que larbitre pourrait vouloir employer pour prendre sa dcision. Par naturelles, nous entendons ici quelles doivent pouvoir tre nonces naturellement en langage naturel. Nous proposons ensuite une tude analytique de deux rgles simples : montre-moi nimporte quel ensemble de taille k, et "montre-moi cet ensemble), et explorons exprimentalement le large territoire des rgles qui tombent entre ces deux extremes. Enn, nous concluons et voquons quelques liens avec des travaux connexes.
utile nos propres notations. Nous reprsenterons un tat comme un vecteur binaire {0, 1}n , et chaque joueur (dbatteur) (0,1) contrle les arguments (bits) qui lui sont favorables (cest--dire quil ne peut pas mentir, et ne peut pas rvler darguments favorables son adversaire). Nous appelons un tat objectivement gagnant pour un agent x si un arbitre ayant accs la totalit des arguments choisirait effectivement x comme vainqueur. Par exemple, ltat 0, 1, 1, 1, 1 signie que le premier argument est en faveur de lagent 0, tandis que les quatre autres dfendent le point de vue de lagent 1. Cest un tat objectivement gagnant pour lagent 1, si nous supposons que nous employons la rgle de majorit. Typiquement, les dbats auxquels nous nous intressons seront limits k bits de communication, et videmment plus prcisment k < n/2 puisque nous utilisons la rgle de majorit. Une rgle de persuasion peut tre dnie en extension comme un ensemble E = {S1 , S2 , . . . , Sn } o chaque ensemble Si est un sousensemble de [n] de taille k (k-subset). Une telle rgle doit tre interprte comme suit : Je vous dclare vainqueur si vous me montrez tous les arguments de S1 , ou tous ceux de S2 , etc. sont en votre faveur. Par exemple, la rgle de persuasion E = {{1, 2}, {2, 3}} signie que lagent concern doit soit rvler les arguments 1 et 2, ou 2 et 3 (mais 1 et 3 nest pas sufsant) an dtre dclar vainqueur. Dans cet article, nous nous intresserons aux rgles de persuasion qui peuvent tre exprimes simplement en langage naturel (parce que, typiquement, elles exploitent des proprits de k-subsets qui composent la rgle). Le ratio derreur ( ) induit par une rgle est le nombre dtats o vous prendriez
2 Dnitions
Dans cette section nous prsentons plus formellement le problme, tel quil est introduit dans [2], en intgrant lorsque cest
294
une dcision diffrente de celle qui serait prise par un arbitre ayant linformation complte (nerr ), normalis sur le nombre dtats possibles. En considrant plus attentivement la notion derreur, il apparat en fait que deux types derreurs peuvent tre distingues : les erreurs minoritaires, correspondant aux tats o vous dclareriez lagent vainqueur, alors quil nest pas dans une situation de vainqueur objectif ; les erreurs majoritaires, correspondant aux tats o vous dclareriez lagent perdant, alors quil est dans une situation de vainqueur objectif. Prenons lexemple utilis plus haut, et supposons un dbat sur un vecteur de 5-bits. Dans les tats 1, 1, 0, 0, 0 et 0, 1, 1, 0, 0 va convaincre larbitre de le dclarer vainqueur, tort. Dun autre cot, dans les tats 0, 1, 0, 1, 1 , 1, 0, 1, 0, 1 , 1, 0, 1, 1, 0 , et 1, 0, 1, 1, 1 , lagent ne parvient pas convaincre larbitre, en dpit du fait quil est dans une situation gagnante. Cette rgle induit donc 6 erreurs au total (2 en faveur de lagent 1, et 4 en faveur de lautre agent). Mme si un type derreur est le dual de lautre (une erreur minoritaire pour un agent est une erreur majoritaire pour lautre agent ; ou, pour le dire autrement, toute erreur est une erreur minoritaire pour un agent ou pour lautre), il apparat toujours utile de faire cette distinction : cela permet en effet de distinguer quels agents sont favoriss par une rgle donne. Dans la suite de cet article, nous ferons usage de certaines autres notions. Nous dirons quune rgle de persuasion est couverte par un vecteur dtat lorsquau moins un de ses subset est couvert par ce vecteur, cest--dire lorsque tout argument requis par cet ensemble est prsent dans le vecteur. En ces termes, le problme doptimisation que nous avons traiter consiste trouver la rgle de persuasion qui minimisera la couverture sur les ensembles [ de vecteurs de vecteurs contenant [k, n 2 bits (situation objectivement perdantes), tout en maximisant la couverture sur len-
semble des vecteurs contenant n/2 bits ou plus (situations objectivement gagnantes). Nous noterons ces deux mesures cm et cM . Notons que de manire gnrale (pour k n/2), la relation suivante existe : nerr = cm + (2n1 cM ) Le nombre derreurs est simplement le nombre de situations minoritaires couvertes, ajout au nombre de situations majoritaires non couvertes par la rgle.
3 Rgles Naturelles
Dans cette section, nous discutons les proprits de certaines rgles naturelles. Par naturelles, nous entendons ici quelles peuvent tre simplement noncs en langage naturel par larbitre, ce qui nimplique pas ncessairement quelles exhibent une structure simple dans leur forme extensive. Nous renvoyons le lecteur [4] pour une discussion trs enrichissante sur le sujet. Il y a de nombreuses rgles naturelles auxquelles nous pouvons penser, et certains exemples peuvent tre trouves dans [2], comme par exemple Montre-moi k bits adjacents. Dans la suite de cette section, nous tudions deux rgles trs simples, qui consistent en un sens deux extrmes pour la reprsentation choisie. Nous discutons ensuite le cas gnral des rgles se situant entre ces deux extrmes. 3.1 Montre-moi nimporte quel ensemble de taille k Nous dbutons avec ce qui constitue peut tre la rgle la plus simple, et qui snonce ainsi : Montre-moi nimporte quel ensemble de taille k ; ou encore peut tre plus naturellement Montre-moi k bits. En dautres termes, lensemble E consisterait en lensemble puisant tous les ksubsets de {0, 1}n .
295
3.2 Montre-moi cet ensemble Dans ce cas, nous supposons que larbitre demande juste lagent de lui montrer un unique ensemble (|E | = 1), de taille arbitraire k. (Nous supposons aussi n impair.) Les couvertures minoritaires et majoritaires sont les suivantes :
n/2k
F IG . 1 Taux derreur pour la rgle Montre-moi nimporte quel k-subset (n = 20)
cm =
i=0 nk
nk i nk i
cM =
Quel serait le taux derreur induit par cette rgle ? Notons pour commencer que le nombre derreurs majoritaires est nul ]. En gnral, le nombre lorsque k [1, n 2 total derreurs serait donc gal au nombre de situations perdantes couvertes par la rgle (cm ). Prenons t comme le nombre de bits placer pour faire une situation perdante lorsque la rgle est couverte. On en dnombre
n/2 i= n/2k
Dans ce cas, nous avons cM cm . En observant que cM + cm = 2nk , nous concluons que : nerr = cm + 2n1 (2nk cm ) = 2cm + (2n1 2nk ) Le taux derreur est donc :
nerr = cm =
t=k
n t
ce qui indique que le nombre derreurs est donn par la somme des coefcients binomiaux de k n/2. Cela signie que cette rgle est en gnral trs inefcace : cest seulement lorsque le nombre de bits permis pour la communication approche n/2 que le taux derreur devient acceptable (voir Fig. 1). Cela correspond en effet lintuition : si vous pouviez demander lagent de communiquer un nombre arbitraire de bits, cette rgle serait videmment la rgle optimale que vous utiliseriez. En demandant lagent de montrer n/2 arguments en faveur de son point de vue, vous vous assurez de ne pas tre mysti dans une situation perdante, tout en ne ratant aucune situation gagnante.
296
2cm + (2n1 2nk ) 2n 1 cm = n1 + 2k 2 2 =
Nous allons prsent montrer que cest une fonction monotone croissante. Lemme 1 Pour les valeurs impaires, de n et pour k 1, le taux derreur de la rgle Montre-moi cet ensemble augmente avec k. Nous allons montrer que = cm 2nk1 est une fonction croissante de k. Plus prcisment, nous allons montrer que cm dcrot quand k crot, mais que 2nk1 dcrot plus vite,
Preuve.
nerr 2n1 2
garantissant ainsi que nerr augmente avec k. Pour cela, il nous suft de montrer que k+1 nk1 ck 2nk2 2nk2 . m cm 2 Dans ce qui suit, nous utilisons la relation 1 1 binomiale x = x + x . y y 1 y
k+1 ck m cm n 2 k = i=1
nk 2 k1 nk 1 i=1 i i n k 1 nk nk1 nk 2 + n i=1 i i 2 k n nk 2 k1 nk 1 + n i=1 i1 2 k n nk 2 k2 nk 1 + n i=0 i 2 k n k1 nk1 2 k2 nk 1 + n + n n i=0 i 2 k 2 k1 n 2 k nk 1 i=0 i
seul un ensemble peut tre demand, et le cas o nimporte quel k-subset peut tre demand. Il serait prsent intressant de se pencher sur le cas des rgles qui tombent entre les deux, cest--dire lorsque le nombre densembles composant la rgle de persuasion est compris entre ces deux bornes. videmment, dans la majorit des cas, les rgles considres ne seront pas naturelles au sens o nous lentendons. Pour cela, nous avons tout dabord driv une formule analytique qui reprsente le taux derreur dans le cas gnral. Malheureusement, obtenir des bornes suprieures et infrieures pour cette formule savre trs complexe, et nous navons pas encore obtenu de rsultats satisfaisants. Pour cette raison, nous avons mis en place une tude exprimentale, dont les rsultats sont reports dans la gure 2 (pour n = 21, un nombre |E | de k-subsets sont gnrs alatoirement pour crer une rgle de persuasion). Notez bien que laxe reprsentant
Tout dabord, on vrie aisment que k1 n 1 pour tout k k n2 2 1 et n 1. En utilisant le fait que
2x1 pour nimporte quel x N, et en substituant x pour n k 1, on peut nalement conclure que :
i=0
nk1 1 2
x1 2
x i
k+1 ck m cm
i=0 nk2
nk1 i
Quest ce que cela nous rvle ? Simplement que si larbitre ne peut demander quun unique ensemble darguments (quelque soit le nombre darguments composant cet ensemble), alors la solution optimale consiste demander lagent de rvler le plus petit ensemble darguments. Autrement dit, il faut simplement demander lagent de rvler un bit. Bien entendu, on ne peut pas sattendre dans ce cas un un trs bon taux derreur (par exemple, pour n = 20, le taux derreur est de 40% pour le singleton, et tend vers 50% lorsque k crot). 3.3 Entre ces extrmes : une rgion essentiellement non naturelle Jusque l, nous avons tudi deux cas extrmes de rgles naturelles : le cas o
F IG . 2 Taux derreur pour les rgles gnres alatoirement de taille |E |, en fonction de k la cardinalit de E est exprim sur une chelle logarithmique (log10 |E |). En effet, nous avons observ que la valeur de k pour laquelle le taux derreur est minimis dpendait logarithmiquement de la taille de E . Au cours de toutes nos exprimentations, nous avons remarqu que, tandis que
297
nous mesurions le taux derreur comme une fonction de k (les autres paramtres tant xs), le taux derreur dcrot toujours jusqu ce que k atteigne une valeur donne que nous appellerons kopt (cette valeur dpend des autres paramtres), puis crot de nouveau. Cette observation sapplique galement aux deux rgles extrmes discutes plus avant. Considrons tout dabord la rgle Montre-moi cet ensemble (|E |=1). Son taux derreur est optimal pour k = 1 on a donc (kopt =1), comme nous lavons dmontr, puis il augmente. A linverse, le taux derreur pour la rgle Donne-moi nimporte quel enn semble (|E | = n/ ) dcrot comme une 2 . Ainsi, fonction de k, jusqu atteindre n 2 . Ainsi, il apparat que on a bien kopt = n 2 dterminer cette valeur kopt est trs pertinent pour notre problme.
pourrait tre reprsente en extension par E = {{1, 2}, {2, 3}, {1, 3}, {4, 5}}, mais son intrt provient videmment du fait que lutilisation dun oprateur de type IN (Montre-moi k arguments parmi cet ensemble), qui permet une reprsentation compacte de la rgle ; en plus du fait que la rgle obtenue est une partition. An de nous donner quelques indices permettant de dterminer si ce type de combinaison doprateurs de type OR et IN est effectivement optimal lorsque n devient grand, nous avons conduit quelques exprimentations trs limites. Nous obtenons par exemple, que pour n = 21 et k = 3, les taux derreurs1 sont de 47% pour 3 IN-subsets, de 36% pour 5 IN-subsets, de 26% for 6 IN-subsets, pour nalement atteindre 21% pour une partition consistant de exactement 7 IN-subsets de taille 3. Cela semble suggrer que le taux derreur dcrot de manire constante lorsque le nombre de IN-subsets augmente. Si cela peut paratre surprenant premire vue, il faut bien noter que lorsque le nombre de IN-subsets augmente, la cardinalit de E (dnie en extension comme des ksubsets) dcrot. Dune certaine manire, on peut donc se demander si cette famille rgle ne fournit pas une approximation simple permettant de tomber dans la rgion prcdemment voque. Si cela, se conrme, nous aurions donc comme rgle optimale une rgle compose de n/2 INsubsets de taille k (ou k +1), mme si cette conclusion demande largement tre vrie. Notons toutefois que ce serait cohrent avec le rsultat report dans [2].
De plus amples exprimentations, que nous ne reportons pas ici, suggre fortement que la valeur optimale, pour n = 21, suit de manire linaire log10 |E |. La gure Fig. 2 montre le rsultats des exprimentations pour cette valeur. La valle" bleue dcrit la zone dans laquelle se situe kopt : par exemple pour log10 (|E |) = 1 (10 k-subsets), nous avons kopt = 2, quand log10 (|E |) = 2, kopt = 4, et quand log10 (|E |) = 5, nous avons nalement kopt = 9 (le taux derreur est alors de 8%). 3.4 Partitions densembles de Montre-moi k bits parmi cet ensemble Nous discutons brivement pour nir un cas dintrt historique, qui reprsente un famille de rgles particulires (plutt naturelles, voir [4]) qui permet de grouper ensemble les arguments. Commenons par rappeler que dans le cas n = 5, il a t prouv par [2] que la rgle optimale pour ce type de dbat consistait demander de montrer deux arguments, appartenant soit {1, 2, 3} soit {4, 5}. Cette rgle
298
4 Perspectives
Notre but dans ce travail a t dinitier ltude du comportement extrmal dun problme de mechanism design introduit dans [2]. Les rsultats prliminaires que nous obtenons ici concernent deux types
1 Nous reportons ici les taux derreurs optimaux obtenus aprs gnration alatoire de telles rgles.
simples de rgles : Montre-moi nimporte quel ensemble de taille k, ainsi que Montre-moi cet ensemble. Mme si la premire rgle est la seule optimale si le dbat nest pas restreint, elle savre vite trs inefcace lorsque lon pose des contraintes de communication. Quant la rgle Montre-moi cet ensemble, notre rsultat montre de manire remarquable quil savre alors optimal de demander lagent de seulement rvler un argument (mme si il est possible de communiquer plus darguments). Ces rsultats sont complts par des exprimentations qui montrent, pour les instances du problme que nous avons tudies, que la valeur de kopt pour laquelle le taux derreur est minimal dpend logarithmiquement de la taille de E . Pour nir, nous nous sommes brivement intresss au cas des partitions de IN-subsets (o nous permettons lagent de montrer k bits parmi un ensemble donn, quelque soient ces arguments), qui savrent tre une gnralisation de la rgle optimale de [2]. Ce travail peut tre dvelopp selon plusieurs axes. Pour commencer, nous devrons afner notre comprhension des rgles tudies ici. Il faut noter par exemple que les rsultats exprimentaux reports sont des moyennes sur les rgles gnres alatoirement, et il savrera sans doute lors dtudes plus pousses que certaines caractristiques (comme par exemple le taux de recouvrement entre les subsets gnrs) ont une inuence importante sur la qualit des rgles. Il pourrait tre intressant, pour commencer, dtudier non la moyenne mais le max pour les rgles gnres (cest ce que nous avons fait pour les partitions). A plus long terme, ltude des autres types de dbats prsents dans [2] sera certainement aussi trs riche en enseignement, en particulier les dbats squentiels. Plusieurs liens peuvent tre tablis avec des travaux connexes. En termes combi-
natoires, les rgles de persuasion sont des set systems, des objets largement tudis dans cette littrature, voir par exemple [1]. Pour autant, nous navons pas trouv de notions se rapprochant des proprits que nous tudions ici. Un autre domaine de recherche qui semble trs concern par les questions voques ici est celui de la complexit communication. La complexit communication sintresse la quantit minimale de bits quil est ncessaire dchanger an de calculer mutuellement la valeur dune fonction dont les donnes sont distribues [3]. Une diffrence essentielle est que dans ce contexte les agents sont supposs tre coopratifs, alors que dans notre cas ils sont en comptition pour convaincre larbitre. De plus, la complexit communication sattache typiquement dterminer des bornes sur le nombre de bits changer pour calculer la fonction sans aucune erreur, alors que dans notre cas nous partons dune contrainte sur la quantit de communication et essayons de minimiser lerreur invitablement induite dans le calcul de la fonction.
Rfrences
[1] B. Bollobas. Combinatorics : Set Systems, Hypergraphs, Families of Vectors, and Combinatorial Probability. Cambridge University Press, 1986. [2] J. Glazer and A. Rubinstein. Debates and decisions : On a rationale of argumentation rules. Games and Economic Behaviour, 36 :158173, 2001. [3] E. Kushilevitz and N. Nisan. Communication Complexity. Cambridge University Press, 1997. [4] A. Rubinstein. Economics and Language. Cambridge University Press, 2000.
299
Modlisation de rglementations pour le partage dinformation dans un SMA

Laurence Cholvy cholvy@cert.fr Christophe Garion garion@supaero.fr ONERA Centre de Toulouse 2 avenue douard Belin 31055 Toulouse SUPAERO 10 avenue douard Belin 31055 Toulouse Rsum : Lobjectif de cet article est de dnir un langage logique pour exprimer des politiques de partage dinformation dans un systme multi-agents. Nous proposons dutiliser un langage fond sur la logique du premier ordre pour exprimer des politiques via des concepts comme le temps, les actions, le contexte, les rles dans une organisation et des notions dontiques. Nous dnissons alors les proprits de cohrence et de compltude dune telle politique. Mots-cls : partage dinformation, logique, SMA Abstract: The aim of this paper is to dene a logical language to express information sharing policies for multiagent systems, which have to cope with dynamical environments. We propose to use a rst-order logic base language to express policies via concepts like time, action, context, roles in organizations and deontic notions. We dene then consistency for a sharing policy and propose two denitions for policy completeness. Keywords: information sharing, logics, MAS
Claire Saurel saurel@cert.fr
Si dans certains systmes ces changes dinformation sont laisss libres et non contrls, linverse, dans dautres systmes, ils sont rglements par une politique, notamment en vue de satisfaire certaines contraintes de scurit (condentialit de linformation par exemple) ou defcacit (diffusion large de linformation pertinente). Cest ce type de systmes que nous nous intressons ici. Lexemple illustratif que nous prendrons tout au long de cet article est celui du plan ORSEC (ORganisation des SECours)[1], qui est un plan de secours dont la France dispose en cas de catastrophe majeure et dont le but est dorganiser et de coordonner cinq services : les sapeurs-pompiers, le SAMU, la police, le STI (Service de Transmission de lIntrieur) et la DDE. Dautres moyens peuvent galement tre utiliss dans le plan ORSEC, comme par exemple des organisations internationales (Croix Rouge, . . . ) ou des individus pour aider secourir des victimes. ORSEC cre donc un systme multi-agents compos des diffrents services et organisations pour ragir efcacement. Ce SMA est gr centralement par le DOS (Direction des Opration de Secours). Dans un tel systme, les units de commande et de contrle des diffrents services ont besoin de partager linformation provenant de diffrentes sources (comme par exemple des units de renseignement)
301
1 Introduction
Les systmes multi-agents (SMA) offrent un cadre de modlisation pour de nombreux systmes existant ou concevoir, systmes dans lesquels des entits (quelles soient simples ou dj localement organises en systmes), cooprent an de remplir une tche globale. Dans un tel contexte, ces entits, que lon appellera alors agents, doivent ncessairement schanger de linformation, notamment an davoir une vision commune et partage de lenvironnement.
Modlisation ___________________________________________________________________________ de rglementations pour le partage d'information dans un SMA
pour pouvoir avoir une vue globale de la situation de crise et prendre ainsi des dcisions cohrentes en vue dachever leur mission. Elles doivent galement utiliser des informations partielles, avec des temps trs courts de traitement de ces informations. De plus, ce partage dinformation a lieu dans un environnement trs risqu [14] : les relations de conance entre les services peuvent changer avec le temps, elles peuvent ne pas tre symtriques et les individus peuvent changer leur rle dans lorganisation et donc changer ce quils ont besoin de savoir. Dans de telles conditions, il y a un risque assez grand de violer des proprits de scurit de linformation, comme la condentialit ou la disponibilit. Cela peut avoir des consquences dsastreuses pour lefcacit des secours. Par exemple, il peut tre ncessaire de cacher des informations la population pour viter un mouvement de panique. Pour que les utilisateurs aient conance dans le systme, il est ncessaire de contrler et de rguler la diffusion de linformation dans le systme au moyen dune politique. Une politique dchange peut donc tre vue comme une rglementation qui spcie les diffusions obligatoires, permises ou interdites lintrieur du systme dagents. Mais pour tre rellement utile, une telle politique doit satisfaire un certain nombre de proprits, notamment la proprit de cohrence et celle de compltude. Comme ce problme est proche de la problmatique de scurit de linformation, nous nous sommes inspirs dune approche connue dans ce domaine consistant dnir des politiques de scurit pour prserver les proprits de scurit de linformation (principalement la condentialit, disponibilit et intgrit). Dun ct, comme les agents du SMA que nous considrons sont souvent des services ofciels, nous pouvons utiliser les modles obligatoires [2, 3], o les droits des utilisateurs sont dnis par leur organisation. Avec cette approche, les droits ne
302
peuvent pas tre facilement changs ni dlgus dautres utilisateurs. Dun autre ct, les modles de contrle daccs discrtionnaires [12] autorisent chaque sujet donner ses droits daccs sur un objet dautres sujets. Malheureusement, ils peuvent conduire des fuites dinformation et ainsi violer la condentialit. Ces deux modles ne rgulent explicitement que les permissions daccs, lobligation tant gre implicitement par les spcications du systme dinformation. Dans notre cas, nous avons besoin explicitement de lobligation pour exprimer des rgles (pour la disponibilit et le bien-fond des informations) et pour pouvoir vrier des proprits sur lensemble des rgles de partage de linformation. Lobjectif de cet article est de dnir un formalisme permettant dexprimer une politique de partage (section 2). Ce formalisme se fonde sur des concepts dontiques et une logique du premier ordre. Nous dnissons ensuite dans ce cadre les proprits de cohrence et de compltude pour une politique de partage dans les sections 3 et 4. Nous listons enn les perspectives majeures de travaux que cette tude ouvre.
2 Un formalisme pour exprimer des politiques de partage dinformation

Dans cette section, nous prsentons les concepts utiliss dans notre formalisme et un cadre logique pour reprsenter et raisonner sur ces concepts. 2.1 Prsentation informelle concepts utiles des
Pour pouvoir exprimer une politique de partage, nous avons besoin de concepts primitifs comme le temps, les actions, les modalits dontiques (obligation, permission, interdiction) et les proprits sur le systme et son environnement.
Le temps est un concept important, car les notions dontiques associes au partage dinformation changent au cours du temps. Nous avons besoin de distinguer trois dimensions temporelles : le temps auquel une information est valide, le temps auquel un agent reoit une information, le temps auquel un agent envoie une information. Ces trois notions sont ncessaires. Par exemple, nous pouvons exprimer quun agent est oblig denvoyer une information ds quil la reue et avant un certain laps de temps. Dans ce travail consacre ltude du partage dinformation, nous ne considrerons que deux actions : laction dapprendre une information et laction denvoyer une information. Ainsi, nous devrons tre capable dexprimer quun agent apprend telle information telle date et quun agent envoie telle information tel autre agent telle date. Comme nous voulons exprimer des normes, i.e. des rgles qui spcient ce qui doit, peut ou ne doit pas tre fait, nous avons besoin de modalits dontiques, particulirement propos du partage dinformation. Pour cela, nous introduisons les concepts dontiques classiques dobligation, de permission et dinterdiction que nous ferons porter uniquement sur laction envoyer de linformation . Par ailleurs, conformment la plus simple des logiques dontiques, SDL [8], nous exprimerons la permission et linterdiction en fonction de lobligation (faire laction A est permis si et seulement si ne pas faire A nest pas obligatoire et faire laction A est interdit si et seulement si ne pas faire A est obligatoire) ainsi que la cohrence de lobligation (pour toute action A, il est faux quil soit obligatoire de faire A et quil soit obligatoire de ne pas faire A). Enn, les proprits sur le systme et son environnement peuvent tre dpen-
dantes du temps ou non. Par exemple, le fait quune information concerne un thme donn est une proprit atemporelle. Par contre, le fait quun agent joue tel rle dans lorganisation considre est dpendante du temps. Notons enn que parmi ces proprits, la notion de contexte est importante ici. Notre SMA voluera dans un environnement dynamique : situations de crises ou calmes, occurrences dvnements etc. Et les modalits de partage dinformation dpendent souvent du contexte. Par exemple, une diffusion large dinformation devient plus restreinte en contexte de crise. Ainsi, les contextes seront utiliss dans les rgles de partage dinformation comme des prmisses restreignant lapplication des normes. 2.2 Un formalisme logique An de modliser et raisonner sur les concepts introduits prcdemment, nous proposons dutiliser une logique du premier ordre plutt que dutiliser une logique modale dontique du premier ordre, et ce an de rutiliser des algorithmes efcaces (comme un algorithme dabduction que nous verrons plus loin) qui ont t dnis dans le cas du premier ordre uniquement. Comme nous verrons ci-dessous, cette solution va nous obliger reprsenter les modalits dontiques par des prdicats et de reprsenter les vnements crs par les envois dinformation par des termes qui seront arguments de ces prdicats. Comme dhabitude, lalphabet du langage logique que nous dnissons, L, sera compos de trois groupes distincts de symboles : les symboles de constantes, de prdicats et de fonctions. Enn, comme nous voulons typer notre langage, nous distinguerons des groupes diffrents de symboles dans ces catgories.
303
Denition 1 Nous distinguons quatre ensembles de constantes : les I-constantes qui reprsentent des valeurs du domaine des attributs du modle dinformation. les Ag-constantes qui reprsentent les agents qui partagent de linformation dans le SMA. les T-constantes qui reprsentent des dates temporelles. les autres constantes sont des Oconstantes. Denition 2 Nous caractrisons les symboles de prdicats de la faon suivante : Obligatory, Permitted et Forbidden sont des prdicats unaires appels Dprdicats. Learn(.,.,.) est un symbole de prdicat ternaire. les contextes sont exprims travers des prdicats ayant au moins un paramtre pour le temps. Nous les appelons Cprdicats. les P-prdicats seront utiliss pour exprimer toutes sortes de proprits sur linformation, les agents etc. Denition 3 Les fonctions sont caractrises de la faon suivante : les I-fonctions reprsentent les relations entre les objets. Par exemple position(.,.) est une fonction reprsentant la relation entre un objet et ses coordonnes gographiques. send(.,.,.,.) est une fonction quatre arguments reprsentant laction denvoyer une information. not(.) est une fonction unaire servant reprsenter la ngation. Elle portera uniquement sur la fonction send et servira exprimer laction de ne pas envoyer une information. Nous pouvons maintenant dnir les formules de L.
304
Denition 4 Les formules de L sont dnies rcursivement comme suit : Si f est une I-fonction, si t1 , . . . , tn sont des I-constantes ou des variables, alors f (t1 , . . . , tn ) et not(f (t1 , . . . , tn )) sont des I-termes. Si t1 , . . . , tn sont des constantes ou des variables, si C est un C-prdicat, alors C (t1,...,tn ) est un C-littral et une formule de L. Soient x une Ag-constante, i un I-terme ou une variable, t une T-constante ou une variable. Alors Learn(x, i, t) est un L-littral et une formule de L. Soient x et y des Ag-constantes ou des variables, i un I-terme ou une variable, t une T-constante ou une variable. Alors Obligatory (send (x, i, y, t)), Permitted (send (x, i, y, t)) et Forbidden (send (x, i, y, t)) sont des D-littraux et des formules de L. Si t1 , . . . , tn sont des constantes ou des variables, si P est un P-prdicat, alors P (t1 , . . . , tn ) est un P-littral et une formule de L. Soient F1 et F2 des formules de L et x une variable. Alors F1 , F1 F2 , F1 F2 , x F1 et x F1 sont des formules de L et sont dnies comme dhabitude. 2.3 Dnition dune politique de partage dinformation Dans cette section, nous dnissons des rgles pour dnir une politique de partage dinformation avec le langage logique prcdemment dni. Une politique de parage dinformation est un ensemble de formules de L qui sont des clauses dnies1 l1 l2 . . . ln telles que : ln est le seul littral positif et est un Dlittral, i {1, . . . , n 1}, li est un C-littral, L-littral, P-littral ou D-littral ngatif,
1 Une clause dnie est une clause dans laquelle seul un littral est positif.
si x est une variable de ln , alors i {1, . . . , n 1} tel que li est un littral ngatif et contient la variable x. Cette dernire dnition provient de la dnition dun domaine restreint dans le monde des bases de donnes : il permet de caractriser des formules signicatives. Example 1 Considrons une politique de partage stipulant que dans un contexte de crise, une information portant sur le sujet risque dexplosion doit tre envoye lagent B partir du moment o A a appris linformation et le fait quelle porte sur le thme risque dexplosion . Cette rgle peut tre exprime par la formule suivante : (R1) i t t Crisis (t) Learn (A, i, t) Learn (A, topic (i, ExpRisk ), t ) Obligatory (send (A, i, B, max (t, t )))
(D1) signie que si un agent a apprend au temps t que le type de x est y , alors la mme date il apprend que les informations le type de x est y et la position de x est z traitent toutes les deux du thme y . (D2) t (Quiet (t) Crisis (t)) (D2) signie quon ne peut pas tre en mme temps dans un contexte calme et de crise. Nous ajoutons galement les axiomes suivants propos des D-prdicats, comme expliqu intuitivement dans 2.12 :
(A1) x Permitted (x) Obligatory (not (x)) (A2) x Forbidden (x) Obligatory (not (x)) (D) x Obligatory (not(x)) Obligatory (x) (neg )x Obligatory (not 2n (x)) Obligatory (x)
3 Cohrence dune politique de partage dinformations

tant donnes une situation et une politique de partage, nous voulons viter de dduire quil est la fois oblig et interdit pour un agent a (ou permis et interdit) de transmettre une information un agent b. Dans ce cas, a serait confront un dilemme. Nous dnissons donc la proprit de cohrence pour une politique de partage. Soit Dom lensemble de connaissances du domaine et les mta-connaissances du domaine (par exemple, il contient les relations entre les thmes). Dom pourrait par exemple contenir les informations suivantes :
Dun point de vue formel, (neg ) est un raccourci dcriture pour une innit de formules (on considre que n N dans (neg )). Nous pouvons maintenant introduire notre dnition de cohrence dune politique. Denition 5 Soit P une politique de partage, dnie comme un ensemble de formules de L (cf. 2.2). P est cohrente si et seulement si il nexiste pas densemble S de clauses sans D-littral tel que S Dom est cohrent et la thorie logique P {(A1), (A2), (D), (neg )} S Dom soit incohrente. Si nous pouvons trouver un tel ensemble S , alors S est lensemble des circonstances qui amne la contradiction.
Example 2 Soit P une politique de par(D1) x y z a t Learn (a, type (x, y ), t) tage qui exprime quen contexte de crise : 2 pourra remarquer quil sagit essentiellement de traduire Learn (a, topic (type (x, y ), y ), t) dansOn notre formalisme du premier ordre laxiome D de SDL [8] et les liens entre obligation, permission et interdiction. Learn (a, topic (position (x, z ), y ), t)
305
(R1) tout agent x doit envoyer tout agent y toute information concernant le thme risque dexplosion (not ExpRisk ) ds quil lapprend :
(R1) x i y t t Crisis (t) 10 :15, a est donc face un dilemme : Learn (x, i, t) envoyer ou ne pas envoyer la position de Learn (x, topic (i, ExpRisk ), t ) E b. Obligatory (send (x, i, y, max(t, t ))) Considrons S = { Learn ( a, type ( o, Bac ) , 10 : 00 ) , (R2) il est interdit pour tout agent denvoyer une information concernant le Learn (a, type (o, ExpRisk ), 10 : 15 ), thme risque bactriologique (not Crisis (10 : 00 )}. On peut montrer Bac ) quelquun qui ne joue pas un que S Dom est cohrent et que rle ofciel (modlis ici par un rle No- P {(A1), (A2), (D), (neg )} S Dom est incohrent. Cela signie que P est nOff) : incohrent daprs notre dnition. (R2) x i y t t t Crisis (t) Learn (x, i, t) t > max(t, t ) Learn (x, topic (i, Bac ), t ) Playsrole (y, NonO ) Forbidden (send (x, i, y, t )) Considrons que Dom comprend les deux rgles (D1) et (D2). Considrons maintenant le scnario suivant : il y a un contexte de crise. 10 :00, a apprend la position dun vnement E et que E peut inclure un risque bactriologique. 10 :15, a apprend que E implique un risque dexplosion. Avec P , on peut dduire que daprs (D1), 10 :00 a apprend que linformation concernant la position de E est du thme Bac . Dans ce cas, en utilisant (R2), il est interdit pour a denvoyer la position de E partir de linstant 10 :00 tout agent qui nest pas une organisation ofcielle, en particulier un agent b qui nen est pas une. Mais comme a apprend 10 :15 que E implique un risque dexplosion, a apprend
306
galement daprs (D1) que linformation concernant la position de E est du thme ExpRisk . Dans ce cas, daprs (R1), a est oblig immdiatement denvoyer linformation tout agent, donc en particulier b.
4 Compltude dune politique de partage dinformation

Nous souhaitons maintenant dnir la notion de compltude pour une politique de partage. Intuitivement, la compltude permet de savoir dans nimporte quelle situation et pour nimporte quel agent ce qui lui est interdit, autoris ou oblig de faire. Nous proposons ici une dnition plus faible de la compltude qui est restreinte certains cas. Denition 6 Soit P une politique de partage dnie sur L. Soient D(x, i, y, t) une formule de L et C une information reprsentant un contexte. P est dite complte pour D et C pour chaque couple dagents x et y si et seulement si : P |= C (x i y t D(x, i, y, t) Obligatory (send (x, i, y, t))) ou P |= C (x i y t D(x, i, y, t) Forbidden (send (x, i, y, t))) ou P |= C (x i y t D(x, i, y, t) Permitted (send (x, i, y, t))) Example 3 Reprenons lexemple 2 en changeant le contexte de la rgle (R2)
pour garantir sa cohrence. Les rgles pour la politique sont :
(R1) x i y t t Crisis (t) Learn (x, i, t) Learn (x, topic (i, ExpRisk ), t ) Obligatory (send (x, i, y, max(t, t )))
Le problme de la compltude dune politique est diffrent et plus difcile. Nous avons propos une dnition restreinte pour la compltude permettant de considrer la proprit seulement pour certains thmes par exemple. Le concepteur dun systme peut alors se concentrer sur les domaines importants. Ce travail prliminaire peut tre tendu dans diffrentes directions. Premirement, nous pourrions amliorer le cadre thorique en proposant une dnition plus prcise de la compltude. Remarquons galement que nous navons pas trait des problmes classiques en logique dontiques (comme les Contrary-to-Duties [9, 6]. Cette tude doit tre faite, en particulier dans un cadre SMA o la rglementation peut tre trs volumineuse et o de tels problmes peuvent arriver. Nous pouvons galement tudier les obligations avec deadlines qui sont lies notre problmatique [5]. La smantique du prdicat Learn reste encore expliciter. Plus prcisment, le lien formel entre la mise jour de la base de croyances dun agent (quand lagent reoit une information) [11] et lapplication de normes (une obligation ou une permission doit tre prise en compte un certain moment) est une extension intressante de ce travail. Si nous considrons que chaque agent a une base de croyances qui peut tre mise jour par de nouvelles informations, le dclencheur pour les nouvelles rglementations doit tre calcul partir de la diffrence entre les anciennes croyances de lagent et ses nouvelles croyances (seules les nouvelles informations doivent tre considres). De plus, nous ne intressons pas lapprentissage par lagent dinformations plus complexes. Par exemple, si lagent apprend a b puis a, doit-on considrer quil a appris b ? Si oui, il faudrait tendre notre formalisme pour pouvoir raisonner sur les informations apprises par lagent.
307
(R3) x i y t t t Quiet (t) Learn (x, i, t) t > max(t, t ) Learn (x, topic (i, Bac ), t ) Playsrole (y, NonO ) Forbidden (send (x, i, y, t )) Nous pouvons montrer que cette politique est complte pour la formule suivante :
t t Learn (x, topic (i, Bac ), t) Learn (x, i, t) t > max(t, t )
5 Conclusion
Nous avons dni dans ce papier un cadre logique pour exprimer et raisonner sur des politiques de partage dans un systme multi-agents. Les rgles exprimes dans ces politiques dpendent de plusieurs concepts : notions dontiques, temps, actions de communication et contextes. Nous avons propos une dnition pour la cohrence dune politique. La cohrence permet un concepteur de politique de vrier quun agent de pourra pas tre face un dilemme concernant une information. Il a t montr dans [10] que lon peut utiliser la SOL deduction [13] pour vrier efcacement cette cohrence et pour trouver dventuels contre-exemples.
Enn, dans un SMA, le besoin dinformation pour un agent est plus contraint par le rle jou par lagent dans le SMA que par lagent lui-mme. Plusieurs agents peuvent jouer le mme rle dans le SMA, le rle dun agent peut changer durant la mission du SMA etc. Nous pourrions facilement tendre notre cadre pour introduire des prdicats comme PlaysRole (introduit dans les exemples) pour modliser ces notions [4, 7]. Ceci permettrait dexprimer des conditions sur les rles, ce qui est moins fastidieux que dexprimer des conditions sur les agents.
[6]
[7]
Rfrences
[1] Dcret numro 2005-1157 du 13 septembre 2005 relatif au plan ORSEC et pris pour application de larticle 14 de la loi numro 2004-811 du 13 aot 2004 de modernisation de la scurit civile. Journal Ofciel de la Rpublique Franaise, 15 septembre 2005. http:// www.legifrance.gouv.fr/ texteconsolide/PRHV8.htm. In French. [2] D.E. Bell and L.J. LaPadula. Secure computer systems : unied exposition and multics interpretation. Technical report, The MITRE corporation, 1975. [3] K.J. Biba. Integrity consideration for secure computer systems. Technical report, The MITRE corporation, 1977. [4] G. Boella and L. van der Torre. Attributing mental attitudes to roles : The agent metaphor applied to organizational design. In Proceedings of ICEC04, pages 130137. ACM Press, 2004. [5] J. Broersen. On the logic of being motivated to achieve before . In J. J. Alferes and J. Leite, editors, Logics in Articial Intelligence, 9th European Conference JELIA 2004,
308
[8] [9] [10]
[11] [12]
[13]
[14]
number 3229 in Lecture Notes in Articial Intelligence, pages 334346. Springer, 2004. J. Carmo and A. Jones. Handbook of Philosophical Logic, volume 8 : Extensions to Classical Systems 2, chapter Deontic Logic and Contraryto-Duties, pages 265343. Kluwer Publishing Company, 2nd edition, 2002. J. Carmo and O. Pacheco. Deontic and action logics for organized collective agency, modeled through institutionalized agents and roles. Fundamenta Informaticae, 48(2,3) :129 163, 2001. B.F. Chellas. Modal logic. An introduction. Cambridge University Press, 1980. R. Chisholm. Contrary-to-duty imperatives and deontic logic. Analysis, 24 :3336, 1963. L. Cholvy. Checking regulation consistency by using SOL-resolution. In International Conference on Articial Intelligence and Law, pages 73 79, 1999. P. Gardenfors. Knowledge in Flux : Modelling the Dynamics of Epistemic States. MIT Press, 1988. M.A. Harrison, W.L. Ruzzo, and J.D. Ullman. Protection in operating systems. In Communications of the ACM, volume 8, pages 461471. ACM Press, 1976. K. Inoue. Linear resolution for consequence nding. Journal of Articial Intelligence, 56 :301353, 1992. C. E. Phillips, T. C. Ting, and S. A. Demurjian. Information sharing and security in dynamic coalitions. In SACMAT, pages 8796, 2002.
Inuence du protocole sur lissue des ngociations

Sylvia Estivie estivie@lamsade.dauphine.fr LAMSADE Universit Paris-Dauphine Paris, FRANCE Rsum : Dans le domaine des Systmes MultiAgents, la trs large majorit des recherches ddies lallocation de ressources indivisibles se focalisent sur le problme centralis des enchres combinatoires. On peut aborder le problme par une autre approche en distribuant cette prise de dcision et en recourant la ngociation entre agents. Dans un problme dallocation de ressources dcentralis, lissue des ngociations est souvent conditionne par de nombreux paramtres et celle-ci nest pas toujours optimale au sens du bien-tre social que lon choisit dtudier. Dans cet article, nous avons choisi de nous focaliser sur le protocole de ngociation utilis par les agents et son inuence sur lissue des ngociations. La question qui sous-tend cette recherche est donc la suivante : dans quel mesure un protocole de ngociation inue-t-il sur lissue des ngociations ? Nous verrons que selon les paramtres utiliss, il est possible damliorer le caractre galitaire de lallocation nale. Mots-cls : Simulation Multi-agent, Allocation de ressources, Ngociation, Protocole, Bien-tre social Abstract: In this paper, we study a framework where allocations of goods result from distributed negotiation conducted by autonomous agents implementing very simple deals. Assuming that these agents are strictly self-interested, we study the impact of different negotiation protocols over the outcomes of such negotiation. We rst discuss a number of negotiation protocols. By running different experiments, we identify parameters which have an inuence on individual welfare of agents and on egalitarian social welfare. We nally identify value of protocol favouring equitable outcomes. Keywords: MultiAgent Simulation , Resource Allocation, Negotiation, Protocol, Social Welfare
ce contexte, les enchrisseurs expriment au commissaire-priseur leurs prfrences concernant diffrents lots dobjets. Dans ce cas-l, le problme de la dtermination de lallocation optimale (au sens o elle maximise le gain du commissaire-priseur) est connu pour tre NP-complet. Mme si des algorithmes de plus en plus performants sont dvelopps [7], il parat clair que cette approche centralise est inadapte lorsque le nombre de ressources excde une certaine limite [6], ainsi que dans les situations o il nexiste pas dagent pouvant tenir le rle du commissaire-priseur (ou encore si celui-ci nest pas digne de conance). Une manire alternative daborder le problme consiste distribuer la prise de dcision, en recourant la ngociation entre agents. Dans ce cas-l, les agents contractent de manire autonome des transactions les uns avec les autres, sur la base de critres locaux de rationalit. Partant dune allocation initiale, les agents progressent donc pas pas, chaque transaction permettant de passer une nouvelle allocation. Le rle du concepteur de lapplication est alors de rguler les changes, de telle faon que certaines proprits puissent tre garanties, en particulier que lallocation nale sera effectivement optimale. Cette approche reprsente selon nous un enjeu majeur pour la communaut multiagent et a rcemment retenu lattention de plusieurs auteurs [8, 2, 3]. Un rsultat fondamental, d Sandholm, montre que des changes dune complexit arbitraire peuvent tre ncessaires pour atteindre une allocation optimale au sens de la somme des bien-tre individuels (utilitaire). Il est pourtant peu pertinent de se placer dans ce cadre gnral, car les tran309
1 Introduction
Les recherches, dans le domaine de lintelligence articielle, concernant le problme de lallocation de ressources se sont concentres autour du problme centralis des enchres combinatoires [1]. Dans
Influence ___________________________________________________________________________ du protocole sur l'issue des ngociations
sactions utilises en pratique sont extrmement simples : elles nimpliquent souvent que deux agents ainsi quun nombre trs restreint de ressources [8]. Comment alors continuer garantir des proprits intressantes pour le systme ? Une solution consiste mettre des hypothses quant la structure utilise pour reprsenter les prfrences des agents. Dans cet article, nous nous plaons dans le cadre restreint (mais cependant trs raliste) des transactions simples et o les prfrences des agents sont reprsentes laide de fonctions dutilit additives. Dans ce cadre, nous savons que des ngociations utilisant uniquement des transactions rationnelles mnent lallocation optimale au sens du bien-tre social utilitaire mais quelles ne garantissent pas une issue optimale du point de vue du bien-tre social galitaire. Il a t montr dans [5] quil est possible dinuer sur le caractre galitaire de lallocation atteinte lissue des ngociations avec des fonctions de paiement. Cependant, il est apparu que ceci nest pas lunique solution, et que le protocole de ngociation peut galement inuer sur le caractre galitaire de lallocation nale. La question qui sous-tend cette recherche est donc la suivante : le protocole de ngociation peut-il inuer sur le caractre galitaire de lallocation nale et si oui quels sont les paramtres inuant du protocole et les valeurs pouvant tre prise par ces derniers favorisant une issue galitaire. A laide dune tude exprimentale, nous identierons un paramtre ayant une forte inuence la fois au niveau local (BE individuel) et au niveau global (BE Social). Nous proposerons galement une valeur pour ce paramtre, bas sur une heuristique, favorisant le caractre galitaire de lallocation nale. La structure de ce papier est la suivante. La section 2 dcrit le cadre de lallocation de ressources. Nous nous intresserons ensuite au sujet central de cette tude qui est le protocole de ngociation (section 3) et nous tenterons de lister de faon exhaustive les diffrents protocoles existants. Dans la suite de ce travail, nous nous
310
intresserons principalement trois protocoles, et nous les comparerons laide dune tude exprimentale. La section 4 est ddie lidentication des paramtres inuants, laide dune tude des bientre individuels des agents. Ensuite, dans la section 5, nous nous focaliserons sur le caractre galitaire de lallocation nale en fonction de diffrentes valeurs de certains paramtres du protocole. Enn, nous conclurons en voquant quelques pistes de recherches ouvertes par ce travail.
2 Allocation de ressources
2.1 Agents et ressources Dans ce cadre, un ensemble ni de n agents (not A) ngocient la possession dun ensemble ni de m ressources (not R). Ces ressources ont la particularit dtre non-divisibles (il nest pas possible de segmenter la ressource) et nonpartageables ( un instant de la ngociation, un agent seulement peut possder une ressource donne). On suppose galement que toute ressource doit tre attribue un agent. Une allocation (note A) est donc une partition de R parmi A qui attribue chaque ressource un agent. Ainsi, A(i) = {r1 , r4 } signie que dans lallocation A, lagent i possde les ressources r1 et r4 . Le moyen dont disposent les agents pour faire voluer lallocation est deffectuer des transactions avec un ou plusieurs autres agents qui peuplent la socit durant lesquelles une ou plusieurs ressources changent de propritaire. Formellement, une transaction est simplement le passage dune allocation une autre (i.e. = (A, A )), qui peut impliquer un nombre arbitraire dagents et de ressources. Evidemment, dans la ralit, il nest pas envisageable dimplmenter des transactions trop complexes. On sintresse donc gnralement des catgories de transactions plus restreintes, en particulier les transactions simples, qui nimpliquent que le passage dune ressource dun agent un autre [8]. On considre aussi que les transactions peuvent tre facilites par des compensations montaires (cf. sect. 2.3).
2.2 Prfrence des agents Chaque agent value sa satisfaction possder un lot de ressources1 laide dune fonction de valuation vi : 2R R. Soit vi (A) la valuation de lagent i dtenir les ressources qui lui sont assignes par lallocation A. On fait ici lhypothse que ces fonctions ne traduisent pas dexternalits2 . Il est frquent de reprsenter les prfrences des agents avec des valuations additives, qui ont lavantage dtre simples, compactes et facilement interprtables. Malgr quelles soient peu expressives, elles ont la particularit dtre trs naturelles pour lexpression des prfrences des agents dans de nombreux domaines dapplication, o il nest pas ncessaire dexprimer des synergies entre les resi sources. En associant un coefcient r chaque resource r, une valuation additive vi peut scrire sous la forme dune somme. Dnition 2.1 (Fonction de valuation additive). Une valuation est dite additive ssi pour chaque ressource r, il existe un coefi cient r tel que
vi (R) =
rR i r
Une valeur positive de p(i) indique que lagent i va donner de largent et une ngative quil en reoit. On associe chaque allocation A, atteinte lissue dune squence de transaction, une fonction : A R reprsentant la somme des paiements que les agents ont changs, et nous avons galement iA (i) = 0. Un tat du systme est donc un couple (A, ) dune allocation A et dune balance de paiement . On notera donc (i) la balance des paiements de lagent i. Dautre part, an de prendre en compte largent cumul par les agents lors du calcul de leur bien-tre, nous allons dnir une fonction dutilit ui qui combine la valuation rsultant du lot de ressources possdes vi avec la balance montaire : ui (A) = vi (A) + i . Dans la littrature, de telles utilits sont souvent appeles utilits quasi-linaires, o v est la valuation et u lutilit relle [1]. 2.4 Rationalit des agents Cest leur satisfaction personnelle immdiate qui va motiver les agents accepter ou refuser une transaction. En ce sens, la rationalit des agents est clairement goiste et myopique 3 . On dnit lacceptabilit des transactions grce la notion de rationalit suivante : Dnition 2.2 (Rationalit Individuelle). Une transaction = (A, A ) avec paiement compensatoire est rationnelle ssi il existe un vecteur de paiement p Rn telle que vi (A ) vi (A) > p(i) pour tout i A4 2.5 Bien-tre Social Au cours des ngociations, o les agents schangent les ressources en fonction de leurs prfrences et de leurs critres de rationalit, le bien-tre de chacun va voluer et il en sera de mme pour le bien-tre de la socit. Mais comment dnir le bien-tre
3 ils ne sont pas capable danticiper sur des gains futurs 4 except pour les agents non impliqus dans cette transaction (agents i tels que A(i) = A (i)) o p(i) = 0 .
Pour allger lcriture ces valuations additives seront reprsentes sous la forme dune combinaison linaire. Par exemple vi (R) = 2 r1 + 3 r2 + 7 r3 avec ri {0, 1}. 2.3 Bien-tre individuel et argent Lors des transactions bilatrales o une seule ressource passe dun agent un autre, une phase de paiement peut tre mise en place pour compenser la perte de bien-tre que subit lagent qui donne la ressource (cette perte de bien-tre nest pas obligatoire mais cependant trs frquente). Cette phase de paiement peut tre modliser en utilisant une fonction de paiement p : A R tel que iA p(i) = 0
1 quil peut se voir attribuer au cours de la ngociation
sens o un agent calcule son bien-tre sur la base des ressources quil possde seulement
2 au
311
de la socit dans sa globalit ? Rpondre cette question revient dnir une mesure de bien-tre social (BES). La mesure la plus couramment employe dans le cadre de la communaut multiagents est sans nul doute la mesure utilitariste, dnie comme la somme des utilits des agents. Dnition 2.3 (BES utilitaire ). Le BES utilitaire swu (A) dune allocation de ressources A est dni comme suit : swu (A) =
iA 2
indique que les transactions simples sufsent garantir latteinte dune allocation optimale au sens utilitariste. Mais ce nest pas le cas du BES galitaire o lissue des ngociations nest pas garantie optimale.
3 Protocoles de ngociation
Lors du processus de ngociation, les agents vont prendre la parole tour de rle an de proposer aux autres agents les ressources quils possdent. La gestion de ces prises de parole va tre cone un protocole de ngociation. Cest pourquoi, il apparat ncessaire de sinterroger sur le protocole de ngociation utilis par les agents et sur son inuence sur lissue de la ngociation. Observons que le protocole na dinuence sur lissue des ngociations que lorsque celle-ci nest pas garantie optimale. 3.1 Dcomposition du protocole Le protocole de ngociation gre lordre des communications entre les agents au cours de la ngociation. Un agent ne communique avec un autre que lorsque le protocole lui en donne lautorisation et sous certaines contraintes. An dtudier linuence de ce protocole, il est ncessaire dans un premier temps de le decomposer an den extraire les paramtres. Le processus de ngociation se compose dune suite de dialogues impliquant deux agents, lun tant linitiateur (i.e. celui qui propose des transactions) et lautre le receveur (i.e. celui qui accepte ou refuse les transactions). Linitiateur va donc proposer une transaction, traitant dune ressource, qui sera accepte o non par le receveur. Lorsque ce dernier accepte, alors il obtient une nouvelle ressource quil pourra soit garder, soit proposer son tour dans une transaction. Ces dialogues entre les agents se regroupent en tour de ngociation. Dans un tour, tous les agents auront eu la possibilit de communiquer avec tous les autres agents de la socit. Une fois un tour termin, un autre sera relanc. La condition darrt du processus de ngociation sera quil ny ai plus aucune transaction pos-
ui (A)
La littrature conomique donne de multiples autres exemples de mesures de BES qui tentent de favoriser les allocations non seulement efcaces (au sens utilitariste), mais aussi justes , quitables ou galitaire. Dans cet article, on sintresse la mesure de BES galitariste qui consiste maximiser lutilit de lagent le moins satisfait de la socit. Dnition 2.4 (BES Egalitaire ). Le BES galitaire swe (A) dune allocation de ressources A est dni comme suit : swe (A) = min{ui (A) | i A} Autour de ces mesures de BES, on rappellera informellement pour commencer le rsultat essentiel suivant, du Sandholm [8] : nimporte quelle squence de transactions rationnelles mne une allocation optimale au sens utilitariste. Malheureusement, ce rsultat ne tient que si lon autorise des changes de complexit arbitraire. Ds que des contraintes sont poses sur le type de transactions autorises, il nest, en gnral, plus possible de garantir cette issue optimale de la ngociation. On sintresse alors des scnarios de ngociation restreints, comme dans le cas des transactions simples, o lon sait que dans le cadre de scnarios additifs, nimporte quelle squence de transactions simples rationnelles mne une allocation optimale au sens utilitariste [4]. Ce rsultat positif
5 On notera que le calcul de ces bien-tre sociaux est fait, non pas partir des valuations du bien-tre des agents, mais partir de leurs utilits relles cest dire en prenant en compte largent chang au cours des transactions.
312
sible, ce qui revient ce quun tour complet ait t excut sans quaucune transaction nait eu lieu. Le premier paramtre du protocole sera le choix de lordre des initiateurs : Comment le protocole va-t-il choisir lagent qui prend la parole ? Linitiateur peut tre choisi de diffrente faon : soit linairement6 , soit de faon totalement alatoire, ou selon une heuristique choisie par le concepteur du systme. La prise de parole de linitiateur peut durer plus ou moins longtemps. Il peut avoir la parole uniquement pour communiquer avec un autre agent, ou avec un ensemble dagents, voire tous les autres agents. Linitiateur va donc sadresser aux autres agents mais dans un ordre spci par le protocole. Ce ordre de choix du receveur sera donc lui aussi un paramtre du protocole. Enn, lagent initiateur va proposer ses ressources lagent receveur. Le dernier paramtre sera donc le choix de lordre de proposition de ces ressources7 . 3.2 Paramtres du protocole Nous allons donc nous intresser aux protocoles rsultant de la combinaisons de ces trois paramtres : Initiateur : Lordre du choix de linitiateur. Il peut tre linaire, alatoire ou bas sur une heuristique telle que le bien-tre individuel des agents. single/multi : la dure de la prise de parole. Le protocole spcie le nombre dagent que linitiateur contacte lorsquil a la parole. Cela pourra tre un agent, n agents ou tous les autres agents. Receveur : Lordre du choix du receveur. Comme linitiateur, le receveur pourra tre choisi de faon linaire, alatoire ou selon une heuristique.
6 cest dire que le premier agent va prendre la parole, puis le deuxime et ainsi de suite 7 Nous laisserons de cot le choix de lordre des ressources car celui-ci na aucune inuence sur lacceptation des transactions compte tenu que les valuations des agents sont additives et quil ny a donc pas de synergie entre les ressources (le fait quun agent possde une ressource ou non ninuera pas sur lacceptation dune transaction par ce dernier).
3.3 Les diffrents protocoles Nous venons de voir que les diffrents paramtres pouvaient prendre plusieurs valeurs. Le choix de linitiateur peut se faire selon au moins trois possibilits, il en est de mme pour le choix du rcepteur, et la dure de prise de parole peut elle prendre au moins deux valeurs. A partir de cela, il est donc possible de construire au moins 18 protocoles. Pour une meilleure comprhension de chacun dentre eux, nous allons regarder un ensemble dexemples dordre de prise de parole sur une socit compose de quatre agents (gure 1). An de diffrencier les protocoles nous utiliserons une notation faisant appel tous les paramtres qui nous intressent. Par exemple :
init 1:x recev
I R
init {lin, ?, heu} 8 recev {lin, ?, heu} x {1, n} 9
La valeur I nous informe que les initia? teurs sont choisis linairement, R que les receveurs sont choisis de faon alatoire et (1 : n) que la prise de parole est multiple. Regardons en dtail certains des protocoles proposs ci-dessus. lin 1:n ? I R : Dans celui-ci, linitiateur est choisis de faon linaire et le receveur de faon alatoire. De plus, linitiateur a la parole le temps de contacter tous les agents (multi). lin 1:1 lin I R : Le changement avec le protocole prcdent est que linitiateur ne prend la parole que pour contacter un seul agent (single)10 . 3.4 Protocole et heuristique Nous venons de prsenter un ensemble de protocole bas sur des choix dordres linaires ou alatoires. Or nous verrons que le choix de certains paramtres ( ordre
8 linaire, hasard, heuristique 9 soit un agent, soit tous les agents
lin
durant un tour il contacte quand mme tous les agents. On notera que quand un agent reprend la parole, il reprend ses propositions lagent suivant do il stait arrt. Lordre des receveurs est toujours linaire.
10 Cependant,
313

Init I R Rec lin 1:1 lin Init I R Rec Init lin 1:n ? I R Rec Init lin 1:1 ? I R Rec Init ? 1:n lin I R Rec ? 1:1 lin Init I R Rec Init ? 1:n ? I R Rec Init ? 1:1 ? I R Rec
lin 1:n lin
1 2 1 2 1 4 1 3 3 1 1 1 3 2 2 4
1 3 2 1 1 2 2 1 3 2 2 1 3 3 3 2
1 4 3 1 1 3 3 4 3 4 3 1 3 1 2 3
2 1 4 1 2 3 4 2 1 2 4 2 4 1 4 3
2 3 1 3 2 1 1 1 1 3 1 2 4 3 4 1
2 4 2 3 2 4 2 4 1 4 2 4 4 2 3 4
3 1 3 2 3 4 3 2 4 1 3 2 1 4 4 2
3 2 4 2 3 1 4 3 4 2 4 3 1 2 1 2
3 4 1 4 3 2 1 2 4 3 1 3 1 3 3 1
4 1 2 4 4 3 2 3 2 1 2 3 2 3 1 4
4 2 3 4 4 2 3 1 2 3 3 4 2 1 2 1
4 3 4 3 4 1 4 1 2 4 4 4 2 4 1 3
gie entre les ressources. Ceci implique que les transactions ne dpendront uniquement que dune ressource et le fait que lagent initiateur ou receveur possde ou non une autre ressource ninuera en rien sur les transactions. A partir de cette remarque, on peut dduire que le fait quun agent propose en premier ou en dernier ses ressources ninuera pas sur les transactions dune manire globale. 4.2 Inuence du choix des receveurs Pour ltude de linuence de lordre du receveur, nous nous sommes appuys sur une tude exprimentale en observant deux protocoles totalement identiques o seul le paramtre du choix du receveur varie :
lin 1:n lin
F IG . 1 Exemples de protocoles des agents ) ont une inuence sur le bientre individuel des agents. Cest pourquoi, il parait intressant de construire de nouveaux protocoles o le choix de lordre des initiateurs et des receveurs serait bas sur des heuristiques nous permettant de tendre vers un critre social (galitarisme, litisme,...). Une ide sera donc de choisir lordre des receveurs en fonction sur les bien-tre individuels des agents. Or nous avons choisi de nous intresser au BES galitaire, cest pourquoi nous tudierons dans la section 5 un protocole o le choix des receveurs se fera par ordre croissant des bien-tre individuels des agents (i.e. les agents les plus pauvres seront toujours contacts en premier).
I R R 2 3 4 1 3 4 1 2 4 1 2 3
1 1 1 2 2 2 3 3 3 4 4 4
lin 1:n ?
I R R 4 2 3 3 1 4 4 1 2 3 2 1
1 1 1 2 2 2 3 3 3 4 4 4
La gure 2 nous montre les valeurs des bien-tre individuels de chaque agent. Il apparat nettement que lorsque lon utilise le protocole I R , o le choix des receveurs est fait de faon linaire, les premiers agents ont en moyenne un bien-tre trs largement suprieur aux autres. Dun autre cot, on remarque que lorsque lon utilise lautre protocole o le choix des receveurs est alatoire, alors le bien-tre individuel de tous les agents est identique12 . Une premire interprtation de ce phnomne est que le protocole linaire a tendance nettement favoriser les premiers agents. Avec ce dernier, le bien-tre de lagent a1 est deux fois suprieur celui de lagent a10 13 . Lors de la ngociation, chaque ressource va passer dagent en agent qui la value toujours un peu plus chaque fois, jusqu atteindre celui qui la value le plus. Or un
12 Certes il nest pas identique sur une instance de ngociation, mais sur 10000 tests, les agents ont en moyenne le mme bientre. 13 On notera galement que les quatre premiers agents ont un bien-tre suprieur la moyenne, alors que les 5 derniers en ont un infrieur.
lin 1:n lin
4 Protocole et bien-tre individuel

An dtudier linuence du protocole de ngociation, nous avons choisi de faire un ensemble dexprimentations 11 . 4.1 Non-Inuence de linitiateur Compte tenu que nous sommes dans un cadre o les fonctions dutilit des agents sont additives, il nexiste pas de syner11 An davoir une bonne valeur moyenne, les tests sont effectus sur 10000 runs. Pour ces exprimentations, le nombre dagent (n) est x 10, le nombre de ressources (m) 50, et chaque fonction dutilit additive est compose de 10 termes (l).
314

450
initiateur lineaire - multi - receveur lineaire initiateur lineaire - multi - receveur aleatoire
400
Bien-etre individuel
350
300
tains agents en fonction de leur identit14 . Au regard de cette inuence du protocole sur le bien-tre individuel des agents, une question se pose : quand est-il du point de vu de la socit et des diffrentes mesures de bien-tre social.
250
5 Protocole et bien-tre social

1
2
3
4
6 5 Numero de lagent
7
8
9
10
200
150
F IG . 2 inuence du choix du receveur
agent gagne de lutilit chaque transaction dans laquelle il est impliqu. On en dduit que les agents ont intrt tre impliqus dans le plus de transaction possible. Nous allons donc plus formellement tudier la probabilit que les agents entre en possession dune ressource. Dans le cadre du protocole linaire, sachant que les numros des agents sont alatoires ainsi que lallocation initiale, on peut donc en dduire que si lagent a1 ne possde pas la ressource ri dans lallocation initiale, alors la probabilit que cet agent entre en possession de cette ressource est gale la probabilit que lagent a1 value plus la ressource ri que lagent qui la possde dans ltat initial. Or sachant que les fonctions dutilits des agents sont gnres de faon totalement alatoire et que les coefcients sont tirs alatoirement sur un intervalle pr-dnis, on a : 1 p(a1 possde ri ) = 2 . De plus, la probabilit que lagent a1 ne possde pas la 1 ressource ltat initial est p = n n et tend rapidement vers 1. On a donc : 1 p(ri transite par a1 ) 2 De mme, on calcule la probabilit que la ressource transite par lagent an : 1 p(ri transite par an ) n Ceci nous permet de conclure, en accord avec les exprimentations, que le protocole o les receveurs sont choisis de faon linaire, favorise trs largement cer-
Nous allons maintenant tudier linuence du protocole sur le caractre galitaire de lissue des ngociations et nous allons proposer un protocole permettant de maximiser le bien-tre social galitaire. Dans cette section, nous allons observer les consquences de cette partialit du protocole prsent dans la section prcdente sur le bien-tre social galitaire atteint lissue des ngociations. De plus, nous allons exploiter cette partialit dans le but de favoriser les agents en fonction de leur pauvret. Pour cela, on utilisera un protocole o le choix du receveur est bas sur une heuristique qui va favoriser les agents en fonction de leur bien-tre individuel (on favorisera le plus pauvre). Lordre des receveur sera choisi en fonction du bien-tre croissant des agents15 . Le principe de cette heuristique est de favoriser les agents pauvres en les contactant en premiers. Par consquence ils auront plus de chance de prendre part des transactions et ils auront galement plus souvent la possibilit de voir une ressource transiter par eux et donc le gagner sur lachat puis la revente de celle-ci. La gure 3 nous montre une srie dexprimentations utilisant les protocoles I R , I R et I R qui diffrent par le choix dordre du receveur (linaire, alatoire et selon lheuristique prsent ci-dessus). Nous observons les valeurs du bien-tre galitaire de lallocation nale lorsque le nombre de ressources va14 Contrairement cela, avec un protocole choisissant les receveurs de faon alatoire, la probabilit quune ressource transite par un agent est la mme pour tous les agents. Un agent ne sera donc pas plus favoris quun autre. 15 cest dire que une proposition sera dabord faite lagent le plus pauvre, puis aux autres agents mais selon un lordre croissant de leur bien-tre
lin 1:n lin
lin 1:n ?
lin 1:n heu
315

1400
SWe, final, uniform, heur SWu/n, final, uniform, alea SWe, final, uniform, linea
1200
Egalitarian Social Welfare
1000
800
600
400
200
50
100
150 Number of resources
200
250
F IG . 3 Evolution du BES galitaire rie. Dune manire gnrale, on observe que lissue du protocole alatoire est bien meilleure que celle du linaire du point de vue du bien-tre social galitaire. De plus, il apparat nettement que cest le protocole bas sur lheuristique qui distribue le mieux les richesses dans la socit16 . Ces rsultats nous conrment que le protocole utilisant un choix de receveur linaire prsente un trs gros biais en favorisant les agents en fonction de leur identit. Ce biais est visible au niveau local lorsque lon regarde le bien-tre individuel des agents comme dans la section prcdente, mais aussi au niveau global du point de vue du bien-tre social galitaire. Celui-ci est trs mauvais car les derniers agents se retrouvent souvent trs pauvres et le bien-tre social galitaire est donc trs faible.
tion nest pas la seule, et quil est possible de proposer des heuristiques pour le protocole de ngociation qui favorisent le caractre quitable de lallocation nale. Une prochaine tape ce travail pourrait tre de proposer dautres heuristiques pour le choix de lordre du receveur. Une heuristique pourrait tre que les premiers agents contacts pour une ressource soient ceux qui valuent le moins cette ressource. Ceci aurait pour consquence de faire transiter la ressource par le maximum dagent et donc de rpartir entre le plus dagent possible le surplus gnr par le passage de la ressource entre sa place initiale et sa place nale. Enn, une autre perspective serait dtendre ce travail dautres mesures de bien-tre social dont il est connu que lallocation optimale du point de vue de cette mesure nest pas atteinte lissue des ngociations (bien-tre social litiste, absence denvie, ...).
Rfrences
[1] P. Cramton, Y. Shoham, and R. Steinberg. Combinatorial Auctions. MIT Press, 2006. [2] Paul E. Dunne, Michael Wooldridge, and Michael Laurence. The complexity of contract negotiation. Articial Intelligence, 164(12) :23 46, 2005. [3] Ulle Endriss, Nicolas Maudet, Fariba Sadri, and Francesca Toni. Negotiating socially optimal allocations of resources. Journal of Articial Intelligence Research, 25 :315348, 2006. [4] Ulrich Endriss, Nicolas Maudet, Fariba Sadri, and Francesca Toni. On optimal outcomes of negotiations over resources. In AAMAS-2003. ACM Press, 2003. [5] Sylvia Estivie, Yann Chevaleyre, Ulle Endriss, and Nicolas Maudet. How equitable is rational negotiation ? In AAMAS-2006, pages 866873, May 2006. [6] Peter Gradwell and Julian Padget. Distributed combinatorial resource scheduling. In Proceedings of the 1st International Workshop on Smart Grid Technologies (SGT-2005), 2005. To appear. [7] T. W. Sandholm. Optimal winner determination algorithms. In P. Cramton, Y. Shoham, and R. Steinberg, editors, Combinatorial Auctions. MIT Press, 2006. [8] Tuomas W. Sandholm. Contract types for satiscing task allocation : I Theoretical results. In Proceedings of the AAAI Spring Symposium : Satiscing Models, 1998.
6 Conclusion
Nous venons de montrer quil existe diffrentes mthodes pour inuer sur lissue des ngociations. Dans [5], diffrentes fonctions de paiements ont t proposes an dinuer sur le caractre galitaire des ngociations. Ici, nous voyons que cette solu16 Plus prcisment, on remarque que lorsque le nombre de ressources est petit (50), le bien-tre social obtenu avec le protocole linaire est de 180, celui obtenu avec le protocole alatoire est de 210 et enn celui obtenu avec le protocole suivant lheuristique est de 340. Du point de vue du bien-tre social galitaire, le gain obtenu entre le protocole alatoire et celui utilisant lheuristique est de plus de 61%. On notera galement que lorsque le nombre dagents augmente, linuence du protocole diminue.
316
An Optimistic Approach for the Specification of more Flexible Roles Behavioural Compatibility Relations in MAS
Nabil Hameurlain
nabil.hameurlain@univ-pau.fr
Laboratoire LIUPPA, Universit de Pau Avenue de lUniversit 64012 Pau FRANCE
Rsum : Dans cet article, nous nous focalisons sur une nouvelle approche de dfinition dune compatibilit plus flexible des rles dans les SMA. Nous proposons une architecture formelle pour la spcification des rles et leur composition, prenant en compte la prservation de proprits comme la compltion et la terminaison propre des rles. Nous mettons en vidence le lien existant entre la compatibilit et la substitutabilit des rles, et plus particulirement, nous montrons que les relations de compatibilit ainsi dfinies sont prserves par la substitutabilit. Mots-cls : Rles, interaction, compatibilit optimiste, substitutabilit. Abstract : In this paper we focus on a new approach to the definition of more flexible roles compatibility in MAS. We provide a formal framework for modeling roles together with their composition, taking into account the property preservation such as the completion and the proper termination of roles. We show the existing link between roles compatibility and substitutability, namely the preservation of the proposed compatibility relations by substitutability. Keywords: Roles, interaction, components, optimistic compatibility, substitutability.
on their interactions. Usually, it is valuable to reuse roles previously defined for similar applications, especially when the structure of interaction is complex. To this end, roles must be specified in an appropriate way, since the composition of independently developed roles can lead to the emergence of unexpected interaction among the agents. Although the concept of role has been exploited in several approaches [2, 3, 9] in the development of agent-based applications, no consensus has been reached about what is a role and how it should be specified and implemented. In our previous work [4], we have shown that the facilities brought by the Component Based Development (CBD) approach [8] fit well the issues raised by the use of roles in MAS. In this context, we have proposed RICO (Role-based Interactions COmponents) model for specifying complex interactions, and study the compatibility semantics of roles. The RICO model is based on the Component-nets formalism which combines Petri nets and the componentbased approach. In this paper, we focus on a new approach to the definition of role-components compatibility, and provide a formal framework for modelling roles and their
1 Introduction
Roles are basic buildings blocks for defining the organization of multi-agent systems (MAS), together with the behaviour of agents and the requirements
317
An ___________________________________________________________________________ optimistic approach for the specification of more flexible roles [...]
composition. The contributions of this paper are: (1) to provide a new approach to the definition of more flexible rolecomponents compatibility and substitutability relations, (2) to show the existing link between compatibility and substitutability relations, namely the preservation of the compatibility by substitutability.
2 Roles modelling
2.1 The Component-nets formalism Backgrounds on Labelled Petri nets. A marked Petri net N = (P, T, W, MN) consists of a finite set P of places, a finite set T of transitions where P T = , a weighting function W : P T T P N, and MN : P N is an initial marking. A transition t T is enabled under a marking M, noted M (t >, if W(p, t) M(p), for each place p. In this case t may occur, and its occurrence yields the follower marking M', where M'(p) = M(p) - W(p, t) + W(t, p), noted M(t> M'. The enabling and the occurrence of a sequence of transitions T* are defined inductively. The preset of a node x P T is defined as x = {y P T, W(y, x) 0}, and the postset of x P T is defined as x = {y P T, W(x, y) 0}. We denote as LN = (P, T, W, MN, l) the (marked, labelled) Petri net in which the events represent actions, which can be observable. It consists of a marked Petri net N = (P, T, W, MN) with a labelling function l: T A {}. Let be the empty sequence of transitions, l is extended to an homomorphism l*: T* A* {} in the following way: l() = where is the empty string of T*, and
318
l*(.t) = l*() if l(t) {}, l*(.t) = l*().l(t) if l(t) {}. In the following, we denote l* by l, LN by (N, l), and if LN = (P, T, W, MN, l) is a Petri net and l' is another labelling function of N, (N, l') denotes the Petri net (P, T, W, MN, l'), that is N provided with the labelling l'. A sequence of actions w A* {} is enabled under the marking M and its occurrence yields a marking M', noted M(w>> M', iff either M = M' and w = or there exists some sequence T* such that l() = w and M(> M'. The first condition accounts for the fact that is the label image of the empty sequence of transitions. For a marking M, Reach (N, M) = {M'; T*; M(> M'} is the set of reachable markings of the net N from the marking M. Components nets (C-nets). A Component-net involves two special places: the first one is the input place for instance creation of the component, and the second one is the output place for instance completion of the component. A C-net (as a server) makes some services available to the nets and is capable of rendering these services. Each offered service is associated to one or several transitions, which may be requested by Cnets, and the service is available when one of these transitions, called accepttransitions, is enabled. On the other hand it can request (as a client) services from other C-net transitions, called requesttransitions, and needs these requests to be fulfilled. These requirements allow focusing either upon the server side of a C-net or its client side.
Definition 2.1 (C-net) Let CN = (P {I, O}, T, W, MN, lProv, lReq) be a labelled Petri net. CN is a Component-net (C-net) if and only if: l. The labelling of transitions consists of two labelling functions lProv and lReq, such that: lProv : T Prov {}, where Prov A is the set of provided services, and lReq : T Req {}, where Req A is the set of required services. 2. Instance creation: the set of places contains a specific Input place I, such that I = , 3. Instance completion: the set of places contains a specific Output place O, such that O = . Notation. We denote by [I] and [O], which are considered as bags, the markings of the Input and the Output place of CN, and by Reach (CN, [I]), the set of reachable markings of the component-net CN obtained from its initial marking MN within one token in its Input place I. Besides, when we deal with the graphical representation of the C-nets, we use ! and ? keywords for the usual sending (required) and receiving (provided) services together with the labeling function l instead of the two labeling functions lProv and lReq. Definition 2.2 (soundness) Let CN = (P {I, O}, T, W, MN, l) be a Componentnet (C-net). CN is said to be sound iff the following conditions are satisfied: 1. Completion option: M Reach(CN, [I]), [O] Reach(CN, M). 2. Reliability option: M Reach(CN, [I]), M [O] implies M = [O].
The Completion option states that, if starting from the initial state, i.e. activation of the C-net , it is always possible to reach the marking with one token in the output place O. Reliability option states that the moment a token is put in the output place O corresponds to the termination of a C-net without leaving dangling references. Composition of C-nets. The parallel composition of C-nets, noted : C-net C-net C-net, is made by communication places allowing interaction through observable services in asynchronous way. Given a client C-net and a server C-net, it consists in connecting, through the communication places, the request and the accept transitions having the same service names: for each service name, we add one communication-place for receiving the requests/replies of this service. Then, all the accept-transitions labelled with the same service name are provided with the same communication-place, and the client C-net is connected with the server C-net through these communication places by an arc from each request-transition towards the suitable communicationplace and an arc from the suitable communication-place towards each accept-transition. 2.2 Specification of roles
In our RICO model [4], a role component is considered as a component providing a set of interface elements (either attributes or operations, which are provided or required features necessary to accomplish the roles tasks), a behaviour (interface elements semantics), and properties (proved to be satisfied by the behaviour).
319
In this paper, we only consider behavioural interface of roles that is their behaviour specified by the C-nets together with the set of (provided and required) services. Definition 2.3 (Role Component) A Role Component for a role , noted RC, is a 2-tuple RC = (Behav, Serv), where, Behav is a C-net describing the lifecycle of the role . Serv is an interface, a set of public elements, through which RC interacts with other role components. Serv = (Req, Prov), where Req is a set of required services, and Prov is the set of provided services by RC. Since the life-cycle of roles is specified by C-nets, we say that a component role satisfies the completion (resp. terminates successfully) if and only if its behaviour that is its underlying C-net satisfies the completion option (resp. terminates successfully). The composition of two role-components is also a rolecomponent, and this composition is associative. Definition 2.4 (Roles composition) A Role RC = (Behav, Serv) can be composed from a set of (primitive) Roles, RCi = (Behavi, Servi), i = 1, , n, noted RC = RC1 RCn, as follows: Behav = Behav1 Behavn. Serv = (Req, Prov), Req = Reqi, and Prov = Provi, i=1, , n.
components composition together with their property preservation [1]. In our previous work, we have used this approach for role-based interaction components and study some compatibility relations [5]. In this paper, the basic idea behind the optimistic approach for rolecomponents compatibility is to consider explicitly the context of use of roles (environment) in the definition of roles compatibility relations. First, let define the notion of roles environment. Definition 3.1 (Environment) Let RC1 = (Behav1, Serv1) and RC2 = (Behav2, Serv2), be two roles such that Servi = (Reqi, Provi), i=1, 2. CP2 is called an environment-role (or environment) of CR1, and vice versa, iff Req1 = Prov2, Req2 = Prov1. We let ENV(RC), the set of the environments of the role component RC. The role component RC1 is considered an environment of RC2 iff both their sets of interfaces completely match. Given a role-component and its environment, it is possible to reason about the completion and the proper termination of their composition. Based on that, we define two notions of usability: Definition 3.2 (usability) 1. RC is weakly usable iff Env ENV(RC), Env RC satisfies the completion option. We say that Env weakly utilizes RC. 2. RC is strongly usable iff Env ENV(RC), Env RC terminates successfully. We say that Env strongly utilizes RC.
3 Compatibility of roles
In component-based software engineering, classical approaches for components compatibility deal with
320
a?
a!
b!
c!
b?
c?
RC1
RC2
Fig 1. RC1 weakly utilizes RC2, where l(a)= Ticket, l(b) = Visa, l(c) = eCash. 1
a?
a?
a?
a!
c!
b!
b!
c!
b?
c?
RC3 RC4 RC5 Fig 2. RC3 strongly utilizes RC5, RC4 strongly utilizes RC5.
a!
a!
c?
b?
RC Fig 3. RC is not weakly usable.
The names of transitions are drawn into the box.
Example 1: Lets take the example of the ticket service and the customer. Figure 1 shows RC1 representing the behaviour of the customer, and RC2 the behaviour of the Ticket-service. The Ticket service initiates the communication by sending (two) Tickets and waits of their payment (VISA and/or eCash). By receiving the Tickets, the customer determines the kind of payment of these two tickets. It is easy to prove that roles RC1 and RC2 are weakly usable, since RC1 weakly utilizes RC2 and vice versa. The role RC1 is not strongly usable, since the unique (weakly usable) environment of RC1 is the role RC2, and RC1 RC2 satisfies the completion option but does not terminate successfully. In figure 2, the ticket service RC5 initiates de communication by sending one Ticket and waits of the payment (either Visa or eCash). The role components RC3 and RC4 are two examples of the customers behaviour. By receiving the Ticket, they solve an internal conflict and determine the kind of payment. The roles RC3 and RC5 (resp. RC4 and RC5) are strongly usable, since for instance RC3 strongly utilizes RC5 (resp. RC4 strongly utilizes RC5) and vice versa. Last but not least, let us take the ticket service RC shown in figure 3. RC is not weakly usable since there is no environment which can weakly utilize it. Indeed, roles RC3 and RC4 are the two possible roleenvironments of RC (according to the behaviour of RC described by the language {Ticket!.Visa?, Ticket!.eCash?}), nevertheless, for instance the occurrence of the sequence {Ticket!.Ticket?.eCash!} in RC3 RC (as well as in RC4 RC) yields a
321
deadlock- marking that is a marking where no transition is enabled. This is because of an error in role-component RC: an internal decision is made (either Visa? or eCash?), when sending the Ticket, and not communicated properly to the environment [1]. We are finally ready to give adequate definitions for roles behavioural optimistic compatibility relations, which are based on the weak and the strong usability. Definition 3.3 (compatibility) Let RC1 and RC2 be two weakly (resp. strongly) usable roles. RC1 and RC2 are Weakly (resp. Strongly) Optimistic Compatible, noted RC1 WOC RC2 (resp. RC1 SOC RC2), iff RC1 RC2 is weakly (resp. strongly) usable. Example 2: As an example, it is easy to prove that roles RC1 and RC2, shown in figure 1, are weakly optimistic compatible that is RC1 WC RC2 holds since RC1 RC2 is weakly usable. Indeed, RC1 RC2 satisfies the completion option. Besides, the two roles RC3 and RC5 shown in figure 2 are strongly optimistic compatible that is RC3 SOC RC5 holds since RC3 RC5 is strongly usable. Indeed, RC3 RC5 terminates successfully. Property 3.1 (Hierarchy of compatibility) Compatibility relations form a hierarchy: SOC WOC
concepts, and namely their combination, which seems necessary, when we deal with incremental design of usable components-role. Our main interest is to define behavioural subtyping relations (reflexive and transitive) capturing the principle of substitutability [7]. We define two subtyping relations based upon the preservation of the (weakly and strongly) utilizing of the former role by any role of its environment. Definition 4.1 (behavioural subtyping) Let RCi = (Behavi, Servi), Servi = (Reqi, Provi), i=1,2, be two roles, such that: Prov1 Prov2 and Req1 Req2 2 . 1. RC2 is less equal to RC1 w.r.t Weak Substitutability, denoted RC2 WS RC1, iff Env ENV(RC1), Env weakly utilizes RC1 Env weakly utilizes RC2. 2. RC2 is less equal to RC1 w.r.t Weak Substitutability, denoted RC2 SS RC1, iff Env ENV(RC1), Env strongly utilizes RC1 Env strongly utilizes RC2. Weak (resp. Strong) Substitutability guarantees the transparency of changes of roles to their environment. In both weak and strong subtyping relations, the (super-) role component RC1 can be substituted by a (sub-) role component RC2 and the environment of the former role RC1 will not be able to notice the difference since: (a) the sub-role has a larger set of required and provided services (Req1 Req2 and Prov1 Prov2) than the super-role, and (b) any environment that weakly (resp. strongly)
4 Substitutability of roles
We show the existing link between compatibility and substitutability
322
2
The sub-role component has a larger set of (required and provided) services (Req1 Req2and Prov1 Prov2) than the super-role component.
utilizes the former role is also able to weakly (resp. strongly) utilize the new role. Example 3: As an example, consider the roles RC4 and RC1. RC1 WS RC4 holds since the unique environment that weakly utilizes RC4 is the role RC5, and RC5 RC1 satisfies the completion option. These two roles RC1 and RC4 are not related by the strong subtyping relation that is RC1 SS RC4 does not hold, since RC5 RC1 does not terminate successfully. Last but not least, consider the roles RC4 and RC3; RC3 SS RC4 holds since the role RC5 (which is the unique environment) that strongly utilizes RC4 also strongly utilizes RC3. Indeed RC5 RC3 terminates successfully. Property 4.1 (Hierarchy of subtyping) The relations H, H {WS, SS}, are preorder (reflexive and transitive) and form a hierarchy: SS WS. The following core theorem of this paper states two fundamental properties of roles compatibility and substitutability relations. First, substitutability relations are compositional: in order to check if Env RC2 H Env RC1, H {WS, SS}, it suffices to check RC2 H RC1, since the latter check involves smaller roles and it is more efficient. Second, substitutability and compatibility relations are related as follows: we can always substitute a role CR1 with a subrole CR2, provided that RC1 and RC2 are connected to the environment Env = (Behav, Serv) by the same provided services that is: Req Prov2 Req Prov1. This condition is due to the fact
that if the environment utilizes services provided by CR2 that are not provided by CR1, then it would be possible that new incompatibilities arise in the processing of these provided services. Theorem 4.1 (compositionality and compatibility preservation) Let RC1 = (Behav1, Serv1), RC2 = (Behav2, Serv2) be two roles where Servi = (Reqi, Provi), i = 1, 2. Let Env = (Behav, Serv) such that Req Prov2 Req Prov1. 1. Env WOC RC1 and RC2 WS RC1 Env WOC RC2 and Env RC2 WS Env RC1. 2. Env SOC RC1 and RC2 SS RC1 Env SOC RC2 and Env RC2 SS Env RC1.
5 Conclusion and related work

The aim of this paper is to present a new and optimistic approach to the definition of role-components behavioural compatibility and substitutability relations. The paper provides a framework for modelling usable rolecomponents together with their composition. This framework is discussed in terms of roles compatibility and substitutability relations. We furthermore investigated the link between compatibility and substitutability relations by showing that substitutability is compositional and the compatibility is preserved by the substitutability. Related work. The optimistic approach to the definition of components compatibility has been originally introduced in [1] for interface automata. Unlike traditional uses of automata, the authors proposed an optimistic approach
323
to automata composition. Two interface automata are (optimistic) compatible, if there exists a legal environment for these two automata, i.e. an environment such that no deadlock state is reachable in the automata obtained by the composition of the two interface automata and that environment. This work is close to ours, since our weak optimistic compatibility relation for role-components is related to the optimistic compatibility relation defined for automata composition. Our approach can be seen as an extension of this work, since it deals in addition with strong optimistic compatibility, which is related to the proper termination property. In [6], the concept of usability is used for analyzing web service based business processes. The authors defined the notion of usability of workflow modules, and studied the soundness of a given web service, considering the actual environment it will by used in. Based on this formalism together with the notion of usability, the authors present compatibility and equivalence definitions of web services. This approach is close to ours, since the compatibility of two workflow modules is related to our strong optimistic compatibility of rolecomponents. Our approach can be seen as an extension of this work, since we define in addition the notion of weak optimistic compatibility and study the existing link between compatibility and substitutability.
[2]
M. Dastani, V. Dignum, F. Dignum. Role Assignment in Open Agent Societies. AAMAS03, ACM 2003. G. Cabri, L. Leonardi, F. Zambonelli. BRAIN: a Framework for Flexible Role-based Interactions in Multi-agent Systems. CoopIS 2003. N. Hameurlain, C. Sibertin-Blanc. Specification of Role-based Interactions Components in MAS. In Software Engineering for MultiAgent Systems III. LNCS, pp 180197, Vol. 3390, Springer, 2005. N. Hameurlain. Formalizing Compatibility and Substitutability of Role-based Interactions Components in MAS. CEEMAS05, LNAI/LNCS Vol. 3690, pp 153-162, 2005. A. Martens. Analyzing Web Service Based Business. FASE2005, pp 19-33, Vol. 3442, LNCS, Springer, 2005. B. H. Liskov, J. M. Wing. A Behavioral Notion of Subtyping. In ACM TPLS, Vol 16, n 6, Nov. 1994. C. Szyperski. Component SoftwareBeyond Object-Oriented Programming. Addison-Wesley, 2002. F. Zambonelli, N. Jennings, M. Wooldridge. Developing Multiagent Systems : The Gaia Methodology. ACM TSEM, Vol 12, N 3, July 2003, pp317-370.
[3]
[4]
[5]
[6]
[7]
[8]
[9]
References
[1] L. De Alfaro, T.A. Henzinger. Interface Automata. In Proc. of ESEC/FSE, Vol. 26, 5 of Software Engineering Notes, ACM (2001).
324
Logique doxastique graduelle

Laverny Nol laverny@irit.fr; http://clsl.chez-alice.fr Institut de Recherche en Informatique de Toulouse Rsum : La modlisation des croyances est un sujet trs important de lintelligence articielle. Nous prsentons ici une logique modale permettant de raisonner sur des croyances plus ou moins fortes dun agent sur le systme. Nous dnissons un langage permettant de gradualiser les croyances : de la croyance faible jusqu la conviction en passant par divers degrs. Nous donnons une axiomatique et une smantique (complte et adquate) base sur les modles de Kripke. Nous montrons ensuite que toute formule peut se rduire une formule sans modalits imbriques. Nous dnissons alors des modles numriques bass sur les fonctions conditionnelles ordinales de Spohn. Mots-cls : Logique modale, croyances, croyances graduelles, fonction conditionnelle ordinale Abstract: Reasoning about beliefs is an important issue in articial intelligence. We present here a modal logic allowing for reasoning about more or less strong beliefs held by an agent. We dene a language for graded beliefs. We give then an axiomatics and a semantics based on Kripke models, together with a soundness and completeness result. We show that any formula can be reduced to a formula without nested modalities. We discuss an alternative semantics based on Spohns ordinal conditional functions. Keywords: Modal logic, beliefs, graded beliefs, ordinal conditional function
1 Introduction
La reprsentation de la connaissance (ou de la croyance) est un domaine dj bien tudi de lintelligence articielle. Pour autant, les convictions que peut avoir un homme sur tel ou tel fait sont plus complexes quune simple connaissance (voire croyance). Celles-ci sont en constante volution et remises en question. Nous faisons ici un premier pas dans la modlisation dun tat pistmique (lensemble
des convictions dun individu un moment donn) en considrant des degrs de croyances rassembls dans la logique doxastique graduelle. La premire personne crire sur la logique pistmique est le philosophe G.H. von Wright dans son livre An essay in modal logic en 1953 [18]. Son tude est uniquement axiomatique, sans utilisation de la smantique des mondes possibles. Les travaux sur la logique pistmique de la plupart des philosophes suivants ont consist dfendre ou attaquer les axiomes tablis par von Wright. Ce nest quaprs linvention de la smantique des logiques modales (modles de Kripke), que, dans les annes soixante, les sujets sur la logique pistmique eurissent. Les champs dapplications sont multiples : la thorie des jeux, les systmes distribus, la thorie de la dcision, la ngociation etc. On peut citer deux livres importants : Reasoning about knowledge [2] et Epistemic Logic for AI and Computer Science [13]. Dans la section 2 nous rappelons la dnition du systme modal de base permettant de raisonner sur connaissances et croyances. Puis nous dnissons dans la section 3 un systme graduel de croyances, nous en donnons les proprits ainsi quune smantique btie sur les OCFs. Nous discutons ensuite, dans la section 6, des travaux existant sur la gradualisation des croyances.
Connaissances et croyances
Les oprateurs habituellement utiliss sont K (comme Knowledge) et B (comme Belief). Leur interprtation est pist325
Logique ___________________________________________________________________________ doxastique graduelle
mique (K signie je sais que ) et doxastique (B signie je crois que ). Les langages utiliss ici seront donc L(PS, {K}) (PS dsignant un ensemble ni de symboles propositionnels, L(PS, {K}) est lensemble des formules bien formes partir de PS et K), L(PS, {B}) ou L(PS, {K, B}) (lagent pourra avoir des connaissances et des croyances). Ceux-ci sont assez expressifs et puissants pour raisonner sur les connaissances ou les croyances. Par exemple, il ny a pas de restriction sur la porte des oprateurs, pouvant nous conduire une formule du type KBp (je sais que je crois p) ou BKp (je crois que je ne sais pas p). 2.1 Le systme KB Dnition 1 Le systme KB est la logique runissant les axiomes du systme S5 pour K, les axiomes de KD45 pour B et les axiomes dinteractions suivants : A1. K B et A2. B KB La connaissance doit donc tre vraie et doit vrier lintrospection positive et lintrospection ngative. La croyance, elle, nest pas forcement vraie, mais doit tre consistante, et doit vrier aussi lintrospection positive et lintrospection ngative. La connaissance implique la croyance (A1) et lagent est conscient de ses croyances (A2). Tous ces axiomes constituent les bases de notre raisonnement sur connaissances et/ou croyances, ils sont assez simples et intuitifs et sufront pour notre propos. Notons toutefois quil y a discussion possible sur lensemble des proprits que doivent vrier les connaissances, les croyances et les interactions entre les deux. Si nous faisons lhypothse appele par Lenzen [11] entailment property (K B), ainsi que lhypothse de conviction des croyances (B BK), Lenzen, Lammarre et Shoham montrent ([11, 8]) que lagent ne peut pas avoir de
326
fausses croyances. Plusieurs solutions sont proposes : Dans [19], Voorbraak supprime l entailment property et dans [5], Halpern laffaiblit simplement aux formules objectives (formules o nintervient aucune modalit B ni K). Dans [4, 7, 14], les auteurs suppriment la proprit de conviction des croyances. Il parlent alors de croyance faible, par opposition la croyance forte, ou certitude. Dans [11, 8, 19], les auteurs affaiblissent les proprits de la connaissance. La modalit K ne satisfait plus S5 mais une logique plus faible situe entre S4 et S5 . Le systme que nous avons choisi correspond des croyances faibles et possde la proprit suivante : Proposition 1 Toute formule de L(PS, {K, B}) est quivalente une formule de profondeur modale infrieure ou gale un1 . 2.2 Quelques exemples 1. K(SurTable(livre) Dehors(Lunette)) exprime : lagent sait que le livre est sur la table et les lunettes dehors 2. Michel est parti Toulouse. Je ne sais pas o Michel est parti, mais je sais quil est parti Bordeaux ou Toulouse, je crois plutt Toulouse : K(Bordeaux Toulouse) BToulouse. Je dcide de lui tlphoner pour savoir ; quand je lui aurai tlphon, jaurai : KBordeaux KToulouse. Je lui tlphone, et maintenant : KToulouse .
3 La logique KD45G
Ltude prcdente nous montre que la classe de modles KB rallie expressivit et simplicit puisque toute formule
1 une proprit analogue est dmontre dans [5] o laxiome K B ne sapplique quaux formules objectives et avec laxiome de certitude des croyances B BK
a son quivalente sans modalits imbriques. Ceci assure une taille raisonnable des formules et modre ainsi la complexit des problmes de validit et de satisabilit. Cependant, on ne peut pas, avec seulement les modalits K et B, exprimer des degrs de conviction plus ou moins forts sur tel ou tel fait. Reprenons lexemple prcdent o je sais que Michel est parti Bordeaux (B) ou Toulouse (T), mais je crois plutt Toulouse. Ceci sexprime par : K(B T) BT. Imaginons que quelquun me dise : Moi aussi, je crois quil est parti Toulouse . A ce moment l, ma croyance : Michel est parti Toulouse sest renforce, ce que je ne peux exprimer avec L(PS, {K, B}). Ou encore, jentends : Ah, tu crois ? cest plutt Bordeaux, non ? . L, au contraire, ma croyance est affaiblie : si elle tait trs forte, jy crois encore, si elle tait moyenne, je nai maintenant plus aucune ide et si elle tait faible, je crois maintenant que Michel est parti Bordeaux. Se posent l deux problmes : 1. Comment exprimer des croyances plus ou moins fortes ? 2. Comment raliser la rvision de celles-ci en les combinant avec dautres croyances graduelles ? Le premier point ncessite la cration dun nouveau langage et dune nouvelle axiomatique. On pourra sinspirer avantageusement de L(PS, {K, B}) pour cela2 . 3.1 Le langage des croyances graduelles Lide est de remplacer la modalit B par une famille de modalits B = {Bi : i IN }3 . Bi signiant : Je crois avec un degr de conviction i que. . . . Plus le degr est grand, plus la croyance sera forte. A priori il ny a pas lieu de se limiter
I N dsignant lensemble des entiers naturels priv de zro et augment de linni (symbole )
2 Nous avons trait le deuxime point dans [10] 3
un degr de conviction maximum, on ira mme jusquau degr inni (B ). Formellement le langage que nous allons utiliser est L(PS, {Bi : i IN }) = Lg B. i B signie : lagent croit avec un degr de conviction gal i . B signie : lagent sait4 . Le langage permet bien sr limbrication de modalits comme B1 B2 ou B B3 ( B1 )
3.2 Le systme KD45G Dnition 2 Le systme KD45G est nor mal pour {Bi : i IN } et possde les axiomes du systme S5 pour B , les axiomes de KD45 pour chaque Bi , i 1 et les schmas daxiomes dinteraction suivants : A3. Bi Bj , si i > j A4. Bj B Bj
Autrement dit, B exprime la connaissance, cest une modalit S5. Chaque modalit Bi , exprimant la croyance au degr i, est une modalit de KD45. La hirarchie prvue dans cette famille de modalits se retrouve dans laxiome (A3). Laxiome (A4) est en quelque sorte lhomologue de laxiome (A2), il exprime que, pour tout j , lagent est conscient de ses croyances au degr j . 3.3 La classe de modles KD45G Nous dnissons maintenant une smantique pour interprter les formules de Lg B. Dnition 3 KD45G est la classe des modles de Kripke M = (W, R, ) o W est lensemble des mondes possibles R = {Ri : i IN } est un ensemble de relations daccessibilit
4 Nous pourrions nous en tenir : lagent a la conviction que , mais il est plus simple et plus raisonnable compte tenu des exemples que nous prendrons lis la robotique, dadmettre que tout ce dont est convaicu lagent est vrai.
327
: W PS {0, 1} tablit la valeur de vrit de chaque symbole propositionnel dans chaque monde. Chaque Ri pour i < (correspondant la modalit Bi ) est srielle, euclidienne et transitive et R (correspondant la modalit B ) est une relation dquivalence. De plus, pour tous i, j : i > j on a : R Rj Rj et Rj Ri . La valeur de vrit dune formule dans un monde w dun modle M KD45G , note (M, w) |= est dnie de manire classique pour PS, et et par : (M, w) |= Bi (v W (Ri wv (M, w ) |= )). La validit dans un modle (M |= ), la consquence ( |=KD45G ) et lquivalence ( KD45G ), sont dnies de manire classique. Proposition 2 KD45G est adquat et complet vis--vis de KD45G . Proposition 3 Toute formule de Lg B est quivalente une formule de profondeur modale infrieure ou gale un. Exemple 1 Pour toute formule objective , les formules suivantes sont des thormes :. B1 B2 B2 B2 B1 B1 B2 ( B3 ) B2 B3 B1 (B1 B3 ) B1 B3 Remarque 1 Intuitivement, on pourrait sattendre une simplication du type |=KD45G Bi Bj Bmin(i,j) (1)
4 Les OCFs : des modles pour KD45G

On va montrer dans ce paragraphe que toute formule consistante est satisable dans un modle dni par une fonction ordinale5 sur S (o S est lensemble de toutes les valuations possibles des symboles popositionnels : 2PS ). On introduit ces modles parce quils quantient les degrs de conviction des croyances. Leur utilisation facilitera, par de simples oprations arithmtiques, le calcul des combinaisons, au niveau smantique, de diffrentes croyances ([10]). Commenons par dnir formellement les fonctions ordinales. 4.1 Les fonctions ordinales Dnition 4 Une fonction ordinale sur lensemble des mondes (Ordinal Conditional Function [15] : OCF) est une fonction : S IN, telle que minsS (s) = 0. peut stendre aux formules objectives par () = min {(s) | s |= } .
On a bien |=KD45G Bi Bj Bmin(i,j) , mais la rciproque, |=KD45G min(i,j) i j B B B , elle, nest pas vraie. On peut mme montrer que lajout dans laxiomatique de cette proprit conduit une dgnrescence des Bi .
328
Intuitivement, (s) est le degr dexceptionnalit6 de s. En particulier (s) = 0 veut dire que s est un monde normal (un monde normal nest exceptionnel aucun degr) (s) = 1 veut dire que s est simplement exceptionnel ; (s) = 2 veut dire que s est doublement exceptionnel ; (s) = veut dire que s est impossible. Tout monde s tel que (s) < est appel monde possible . La contrainte de normalisation minsS (s) = 0 impose quil existe au moins un monde normal. LOCF vide est dni par vide (s) = 0 pour tout s.
5 inspires de celles de Spohn [15] 6 (s) est usuellement interprt en termes de probabilits innitsimales (s) = k < + signie prob(s) = o(k ), o est inniment petit.
On utilisera la notation classique s1 : n1 = s2 : n2 s3 : n3 qui signie que (si ) = ni pour i = 1, 2 et 3 et par convention que les autres tats s de S , absents dans la reprsentation, sont impossibles i.e. (s) = . 4.2 Vrit dune formule doxastiquement interprtable dans une OCF Toute combinaison boolenne de formules du type Bi est dite doxastiquement interprtable. Dnition 5 Si est une formule objective et une OCF, |= Bi () i
Alors |= B1 a B2 a : l agent croit a au degr 1 (car le (seul) monde normal, i.e. a b, satisfait a), mais cette croyance nest pas plus forte : a nest pas cru au degr 2, car il y a a-monde s tel que (s) = 1, il sagit de a b. |= B (a b), car tous les tats possibles (i.e., a b, ab et a b) satisfont a b ; b ne |= B1 b, car le monde normal a satisfait pas b. Proposition 4 Soit une formule doxastiquement interprtable, les deux propositions suivantes sont quivalentes : (1) est satisable dans un KD45G -modle. (2) est satisable dans un OCF-modle.
4.3 Correspondance entre les formules et les OCFs Dnition 6 Une formule est dite normale doxastique positive (on raccourcira avec le sigle NDP : Normal Doxastic Positive) lorsque = B Bn n . . . B1 1 o , 1 , . . . , n sont des formules objectives telles que pour tous i et j > i on a, |= i j Quand on crit une formule normale doxastique positive B Bn n . . . B1 1 , on peut supprimer les sous formules Bi i telle que i+1 i , ainsi que les tautologies de la forme Bi . Par exemple, B . . . B4 B3 a B2 a B1 (a b) est simplement remplace par B3 a B1 (a b). Les formules NDPs expriment tout ce que lagent croit, elles sont satifaites par une famille dOCFs (j ) possdant un plus petit lment que lon appellera modle minimal. Proposition 5 La fonction H qui toute formule normale doxastique positive (w.r.t.
329
Ceci veut dire que |= Bi est vraie ds que tous les modles s de sont exceptionnels au moins au degr i (on pourra dire aussi i-exceptionnels) i.e. sont tels que (s) i. Ou encore, tous les tats s tels que (s ) < i (i.e. au plus (i 1)exceptionnels) satisfont . En particulier, B1 est vraie lorsque tout les tats normaux (i.e. (s) = 0) satisfont , et B est vraie lorsque tous les tats possibles (i.e. (s) < ) satisfont . Cette proprit est importante car on sera amen utiliser ces formules pour reprsenter les croyances graduelles dun agent. Une formule doxastique positive dcrira ce que croit lagent sur ltat du monde tous les degrs de convictions possibles. Exemple 2 Soit PS = {a, b} et dnie par :nous donn7 ab : 1 a b : 0 = a b : 1 a b :
7 a b dsigne ltat o a est vrai et b est faux.
quivalence), associe son modle (OCF) minimal, est bijective . Cette proprit est primordiale pour la suite pour les raisons suivantes : 1. Elle tablit une caractrisation smantique des formules doxastiques positives qui traduisent tout ce que lagent croit ( tous les degrs) un moment donn. Elle tablit aussi une caractrisation syntaxique (par une formule positive) de tout modle. 2. Cette correspondance permettra de passer du cadre syntaxique au cadre smantique (ou vice-versa) en appliquant la fonction H (ou sa rciproque G = H 1 ). Les deux cadres ont nanmoins leur utilit. Le cadre smantique est plus puissant pour dnir les rgles de rvisions et de mises jour des croyances (cest dailleurs celui qui est le plus utilis dans la littrature). Le cadre syntaxique, lui, permet une reprsentation plus compacte des croyances, il est, computationnellement parlant, plus efcace que le cadre smantique. Nous noterons dsormais BS lensemble des tats de croyances. Un tat de croyances peut tre reprsent soit par une OCF , soit par une formule NDP . Nous pouvons remarquer, cependant, que les formules NDPs ( = B Bn n . . . B1 1 ) nont pas un modle unique. En effet, tout suprieur ou gal H () est aussi un modle de . Ceci vient du fait que les formules NDPs nexpriment que les croyances positives de lagent, alors quun modle (une OCF) vhicule davantage dinformation et notamment tout ce que lagent ne sait pas et ne croit pas ( tous les degrs de conviction). Pour obtenir, syntaxiquement, toutes les informations contenues dans une OCF, on peut enrichir le langage dune nouvelle famille de modalits, servant dcrire tout ce que lagent croit.
330
5 Modalit je crois seulement

Levesque, dans [12], a introduit la notion de only knowing avec un agent. Cette notion a t revue et tendue plusieurs agents par Halpern et Lakemeyer dans [6]. Nous ltendons ici aux croyances graduelles (pour un agent). 5.1 only knowing Le langage L(PS, {B}) est enrichi dune modalit N. De plus, la formule O est le raccourci de B N. O B signie (comme prcdemment) lagent croit au moins , N signie lagent croit au plus et O signie lagent croit seulement . Levesque en donne une smantique et une axiomatique quil prouve adquate et complte. 5.2 Modalit croire seulement pour KD45G On enrichit le langage dune famille N = {N , N1 , N2 , . . .} et dune famille O = {O , O1 , O2 , . . .} dans le mme esprit que chez [12, 6]. O Ni signie : au degr i, lagent croit au plus , et loprateur Oi est le raccourci de Bi Ni . Ltude complte de la logique dnie partir du langage L(PS, B N O) sloignant trop de notre propos nous nous contenterons ici de donner quelques proprits de loprateur Oi . Le langage permettant donc dexprimer ce que lagent croit et seulement ce quil croit est L(PS, B N O) = Lg O. La vrit dune formule (doxastiquement interprtable) dans une OCF est dnie par : |= Ni s(s |= (s) < i) et, puisque |= Bi s((s) < i s |= ) on a, pour Oi |= Oi s(s |= (s) < i).
|= Oi est vraie ds que tous les tats exceptionnels au moins au degr i sont les seuls satisfaire , ou bien, de manire quivalente, les tats exceptionnels au plus au degr i 1 sont les seuls satisfaire . En particulier O1 est satisfaite quand tous les tats normaux satisfont , et que ce sont les seuls. Notons que O1 signie que lagent ne croit rien au degr 1, par consquent, rien non plus au degr 2, etc. Le seul OCF satisfaisant O1 est vide . Proposition 6 Pour tout , les formules suivantes sont des thormes :
1. Oi Bi 2. Oi Bi
i s|= B ( F orm(s))
Proposition 7 Pour toute formule NDP = B Bn n . . . B1 1 , |= Only() =
6 Travaux connexes
La logique possibiliste. La smantique fournie par les OCFs est trs proche de celle des distributions de possibilits (voir [1] pour plus de dtails ce sujet). Du point de vue syntaxique notre langage est plus complet que celui de la logique possibiliste puisquil permet, par exemple, de raisonner sur les croyances de croyances. Par ailleurs, un langage de logique modale avec une smantique base sur les distributions de possibilits est propos dans [3]. Il se rapproche du notre mais lui nonplus ne considre pas les croyances sur les croyances. Des croyances graduelles bases sur un comptage des mondes. Dans [16], Meyer et van
Exemple 3 Soit PS = {a, b} et dnie par ab : 1 a b : 0 = a b : 1 . a b : Alors |= O1 (a b), car a b est satisfaite seulement par tous les tats normaux. |= O (a b). |= B1 a, mais |= O1 a Dnition 7 Pour toute formule normale doxastique positive (NDP) = B Bn n . . . B1 1 , Only() est la formule O On+1 On n . . . O1 1 . Ces formules expriment la totalit des croyances dun agent ; elles sont satisfaites dans l unique OCF = H () dnie selon la dnition 5. La proprit suivante nous assure de lexistence dune correspondance bi-univoque entre les NDPs et les OCFs (w.r.t. quivalence dans KD45G ) ainsi quune quivalence dexpressivit.
der Hoek dveloppent des modalits graduelles en logique pistmique, le systme Gr(S 5). Dans leur smantique, la croyance en un fait est dautant plus forte que le nombre de mondes du modle satisfaisant est grand. La modalit Bi exprimant le degr de croyance ne possde alors pas les mmes proprits que la ntre et sapplique donc des exemples bien diffrents des ntres.
Lapproche de Hans van Ditmarsch. Dans Prolegomena to dynamic logic for belief revision [17] van Ditmarsch dveloppe un modle (de Kripke) M = S, <, V bas sur la fonction < qui chaque s de S associe une relation <s de S S dite relation de plausibilit dans ltat s. Les modalits Bi quil utilise sont identiques aux ntres et ont les mmes proprits. Ces rsultats furent tablis en parallle des ntres [10, 9].
331
Rfrences
[1] D. Dubois and H. Prade. A synthetic view of belief revision with uncertain inputs in the framework of possibility theory. Int. J. of Approximate Reasoning, 17(23) :295324, 1997. [2] R. Fagin, J. Halpen, Y. Moses, and M. Vardi. Reasoning about Knowledge. MIT Press, 1995. [3] L. Farias del Cerro and A. Herzig. Modal logics for possibility theory. In Proceedings of the First International Conference on the Fundamentals of AI Research (FAIR91). Springer Verlag, 1991. [4] N. Friedman and J.Y. Halpern. A knowledge based frameword for belief change part I : foundations. In R. Fagin, editor, Proceedings of the Fifth Conference on Theoretical aspects of reasoning about knowledge, pages 4464, 1994. [5] J. Y. Halpern. Should knowledge entail belief ? Journal of Philosophical Logic, 25(5) :483494, 1996. [6] Joseph Y. Halpern and Gerhard Lakemeyer. Multi-agent only knowing. In Yoav Shoham, editor, Theoretical Aspects of Rationality and Knowledge : Proceedings of the Sixth Conference (TARK 1996), pages 251265. Morgan Kaufmann, San Francisco, 1996. [7] S. Kraus and D. Lehmann. Knowledge, belief, and time. Theoretical Computer Science, 58 :155174, 1988. [8] P. Lamarre and Y. Shoham. Knowledge, certainty, belief and conditionalisation. In Proceedings of the 4th International Conference on Principles of Knowledge Representation and Reasoning (KR94), pages 415 424, 1994. [9] N. Laverny and J. Lang. From knowledge-based programs to graded belief based programs, part I : on-line reasoning. Synthese.
332
[10] N. Laverny and J. Lang. From knowledge-based programs to graded belief based programs, part I : on-line reasoning. In Proceedings of ECAI04, pages 368372, 2004. [11] W. Lenzen. Recent work in epistemic logic. Acta Philosophica Fennica, 30 :1129, 1978. [12] Hector J. Levesque. All i know : a study in autoepistemic logic. Articial Intelligence, 42(2-3) :263 309, 1990. [13] J.-J. Meyer and W. van der Hoek. Epistemic Logic for AI and Computer Science. Number 41 in Cambridge Tracks in Theoretical Computer Science, 1995. [14] Y. Moses and Y. Shoham. Belief as defeasible knowledge. Articial Intelligence, 64(2) :299322, 1993. [15] W. Spohn. Ordinal conditional functions : a dynamic theory of epistemic states. In William L. Harper and Brian Skyrms, editors, Causation in Decision, Belief Change and Statistics, volume 2, pages 105134. Kluwer Academic Pub., 1988. [16] W. van der Hoek and J.-J.Ch. Meyer. Graded modalities for epistemic logic. Logique et Analyse, 133134 :251270, 1991. [17] H. van Ditmarsch. Prolegomena to dynamic belief revision. Technical report, University of Otago, New Zealand, 2004. [18] G.H. von Wright. An essay in modal logic. Nortf-Holland, 1953. [19] F. Voorbraak. Generalized kripke models for epistemic logic. In Y. O. Moses, editor, Theoretical Aspects of Reasoning about knowledge : Proc. 4th Conference, pages 214 218. Morgan Kaufman, 1992.
Donner corps aux interactions (linteraction enn concrtise)

P. Mathieu mathieu@lifl.fr S. Picault picault@lifl.fr J.-C. Routier routier@lifl.fr
Laboratoire dInformatique Fondamentale de Lille Universit des Sciences et Technologies de Lille 59655 Villeneuve dAscq cdex FRANCE Rsum : Depuis plusieurs annes, nous utilisons IODA comme mthode de description et de ralisation de simulations multi-agents. Cette mthode a pour originalit de concrtiser les interactions de manire ce quelles soient gnriques et rutilisables dans diffrents contextes. Cet article a pour objectif didentier les problmes durs dans ce type de simulation et de montrer comment IODA apporte une aide leur rsolution. Mots-cls : Interactions concrtes, slection daction, comportement, simulation Abstract: Since several years, we use in our team the IODA methodology to describe and realize multi-agent simulations. This method is original and not similar to the others because it makes Interactions becoming concrete and then able to become sufciently general to be reused in many contexts. The aim of this paper is to identify some hard problems in this kind of simulation and to show how IODA can be helful to solve them. Keywords: Concrete Interactions, selection of actions, behaviour, simulation
SMA, comme par exemple dans lapproche Voyelles [1]. Toutefois linteraction reste un concept utilis lors de la phase danalyse, sans pour autant conduire une implmentation informatique au cur de la simulation. Ainsi, les interactions entre agents, mme lorsquelles sont prises en compte lors de la modlisation, nissent par tre codes dans un comportement dagent centr sur lagent. Nous soutenons donc quil est ncessaire, dans de nombreuses situations de simulation, de dnir les interactions dune faon indpendante des agents, de formaliser trs nement la faon de mettre en relation ces interactions et les agents qui peuvent les effectuer ou les subir, et de les coder explicitement dans le simulateur. Cest ce que nous appelons lapproche centre interaction par opposition lapproche classique dans les simulations distribues, qui est centre agent. lheure actuelle, aucun simulateur multi-agent napplique une telle distinction de bout en bout de la tche de simulation, cest--dire de la modlisation au codage. Nous avons formalis et expriment le concept dinteraction travers le projet IODA1 [3]. Nous prsentons dabord le modle formel qui permet, au sein de ce projet, de donner une dnition oprationnelle de linteraction. Nous dcrivons ensuite la mthode danalyse de IODA, qui dcrit comment les interactions doivent tre affectes aux agents, ce qui se traduit immdiatement par une implmenta1 Pour : Interaction-Oriented Design of Agent simulations
1 Introduction
Le formalisme que nous proposons ici sinscrit dans le contexte plus vaste de la simulation par agents o des entits autonomes (les agents) sont dotes dun comportement individuel. Dans ce cadre, de nombreux modles danalyse et dimplmentation ont t conus an de reprsenter les comportements des agents. La notion dinteraction a galement t intgre de nombreuses mthodologies de conception de
0 Ce travail est conanc par le contrat de plan Etat-Rgion et les fonds europen FEDER
333
____________________________________________________________________________ Donner corps aux interactions (l'interaction enfin concrtise)
tion univoque. Nous montrons cette occasion le fonctionnement du moteur de simulation, ralis actuellement dans la plate-forme IODA-light. Cet outil montre que nos concepts nen restent pas au stade de la seule mthodologie mais permettent de donner une ralit logicielle aux interactions.
2 Lapproche centre interaction

Les Systmes Multi-Agents sont construits sur un schma dembotement de comptences qui semble aller de soi : lenvironnement modlise le monde physique ; il contient des agents qui reprsentent les entits de ce monde ; eux-mmes contiennent des architectures de slection daction qui gouvernent le choix de comportements, et ceux-ci reposent sur des primitives de perception, de cognition et daction propres lagent. Or, si linteraction reste cantonne la phase danalyse, cest en grande partie parce quil est difcile de rier cette notion au moyen de comportements encapsuls dans les agents. Nous prenons donc le contre-pied de cette hirarchisation : dans le modle que nous proposons, nous cherchons donc donner un poids oprationnel gal tant aux entits du systme quaux activits auxquelles elles prennent part. 2.1 Le modle formel de linteraction dans IODA Notre modle dinteraction sappuie sur des primitives de base qui xent le niveau de granularit le plus petit qui puisse tre reprsent dans une simulation donne. Nous distinguons des primitives de perception (stimuli, communication, croyance, ...) et des primitives daction (dplacement, modication interne, destruction, cration, ...).
334
Les interactions sont dnies comme des ensembles de primitives qui impliquent simultanment plusieurs agents et qui constituent un bloc smantique dans une simulation donne [2]. Par exemple manger ou ouvrir ne sont pas de simples actions atomiques, mais correspondent des ensembles structurs dactions mettant en jeu deux agents diffrents et qui ne peuvent tre effectues qu certaines conditions, peu dpendantes des spcicits des agents concerns. D FINITION 1 (I NTERACTION ) Une interaction est une squence dactions primitives, sappliquant plusieurs agents, dclenches par des perceptions spciques et soumises certaines conditions dexcution. Ces perceptions et ces actions primitives peuvent tre ralises selon des modalits variables par les agents, mais leur enchanement logique est dcrit de faon gnrale par leur structuration sous la forme dune interaction (cf. g. 1). D FINITION 2 (S OURCES / CIBLES ) Les agents qui prennent part une interaction ne jouent gnralement pas le mme rle. On distingue dont entre des agents sources qui peuvent effectuer linteraction, et des agents cibles qui peuvent la subir. Pour avoir lieu, une interaction doit mettre en relation des agents sources et des agents cibles. N.B. : Dans les interactions symtriques, on peut videmment intervertir sources et cibles. Une interaction, en tant quexpression abstraite dun comportement, doit formuler les conditions portant sur la ralisation de la squence dactions primitives. Nous avons distingu deux composantes dans les tests exprimant les pr-requis ncessaires une interaction : le dclencheur, qui exprime une motivation pour les agents effectuer linteraction et la condition proprement dite, qui exprime les pr-requis

Dclencheur Conditions Faim(X) Possde(X,Y)
2.2 Structure des agents dans IODA Dans IODA, les agents se rduisent des spcications simples qui permettent dintgrer nimporte quel agent notre modle de simulation centr interactions. D FINITION 3 Un agent est une entit autonome dont les caractristiques minimales sont les suivantes : il est dot dun tat ; il dispose de primitives de perception et daction ; perception et action ne stendent pas tout lenvironnement : elle se restreignent un halo H propre lagent qui est une fonction retournant un sous ensemble de lenvironnement ; en particulier lagent ne peroit pas tous les autres agents mais seulement ses voisins, cest--dire ceux prsents dans son halo de perception ; il se voit affecter la liste des interactions quil peut effectuer ou subir, chacune avec un niveau de priorit et une garde de distance. D FINITION 4 Le voisinage V dun agent x est lensemble des agents perus par x, i.e. prsents dans son halo de perception : V (x) = {y |y H(x)} 2.3 Cardinalit des interactions Un cas trivial dinteraction fait appel une source et une cible, par exemple manger ou ouvrir. Toutefois, la complexit des problmes simuler ncessite de prendre en compte dautres situations que nous allons examiner pour montrer quon peut les reformuler sous une forme normale qui ne requiert quune source. D FINITION 5 On appelle cardinalit dune interaction le couple compos du nombre de sources
335
Actions
X.energie++ detruire(Y)
(a)
(b)
F IG . 1 (a) Reprsentation gnrale dune interaction. Linteraction est constitue dun ensemble de perceptions (dclencheur dune part, conditions dexcution dautre part) qui, lorsquelles sont runies, permettent la ralisation dune squence dactions. (b) Exemple : linteraction manger(X,Y) se dcrit de faon gnrale partir dune motivation interne (la faim) qui sert de dclencheur, de conditions dexcution (possder lobjet manger) et de la squence dactions rsultant de linteraction : augmentation de lnergie de lagent source X (celui qui effectue manger) et destruction de lagent cible Y (celui qui subit manger).
matriels ou logiques pour pouvoir effectuer la squence daction (cf g.1).
Ainsi formule, cette notion dinteraction apparat compltement dissocie des agents qui les utiliseront. Une mme interaction peut alors tre rutilise dans diffrentes simulations et applique des agents sources ou cibles diffrents : ainsi, linteraction ouvrir a videmment la mme smantique, et rpond la mme fonctionnalit, quil sagisse dune simulation dvacuation de btiment en cas durgence ou dune chasse au trsor dans un jeu vido. Concevoir une simulation consiste donc dabord tablir les primitives de base qui pourront tre utilises, ensuite les agrger dans des interactions, et enn affecter celles-ci aux agents, et ce aussi bien lors de lanalyse du problme quau moment de limplmentation de la simulation. Nous dcrivons au 3.1 comment ces interactions peuvent tre affectes aux agents pour les doter dun comportement et au 4 comment le moteur de la simulation choisit les interactions raliser au sein du systme.
et du nombre de cibles ncessaires pour la ralisation de linteraction.

Une source, une cible (cardinalit 1/1)
En premire approche, une interaction peut tre effectue par une source sur une cible. La source est un agent qui peut effectuer linteraction, et la cible un agent qui peut la subir, ces deux informations tant tablies lors de lanalyse puis traduites dans une matrice dinteraction (cf. 3.1).
Plusieurs sources, plusieurs cibles (n/p) Dans IODA linteraction simultane entre plusieurs sources et plusieurs cibles est ramene systmatiquement sous la forme 1/(n 1 + p), ou plusieurs interactions 1/n. Cette solution, bien que critiquable, donne satisfaction dans tous les cas que nous avons traits. Cela reste nanmoins un problme dur.
Une source, aucune cible (1/0) Par extension on peut concevoir des interactions sans cibles dnies. Celles-ci correspondent deux situations : Linteraction rexive (un agent qui agit sur lui-mme), linteraction avec lenvironnement (un agent agit sur ltat du monde sans que dautres agents soient impliqus). Une source, plusieurs cibles (1/n) IODA permet galement de spcier des interactions sappliquant plusieurs cibles simultanment (toujours partir dune source unique) pour reprsenter des activits ncessitant une coordination entre agents, soit de mme classe, soit de classes diffrentes. Cela sexprime en indiquant dans la matrice dinteraction les cardinalits appropries (cf. 3.1). Plusieurs sources, une cible (n/1)
D FINITION 6 (F ORME NORMALE ) Une interaction est crite sous forme normale lorsquelle fait intervenir exactement une source. Toute interaction peut scrire sous forme normale : les interactions de cardinalit 1/0, 1/1 ou 1/n sont dj sous forme normale ; une interaction I de cardinalit n/1 peut sexprimer la voix passive ( tre I ) pour se ramener une cardinalit 1/n ; dans une interaction de cardinalit n/p, on peut choisir comme source unique lun des n agents sources et relguer les autres parmi les cibles, soit se ramener une cardinalit 1/(n-1+p). Dans le reste de cet article, nous considrerons que toutes les interactions sont crites sous forme normale.
3 La mthode danalyse IODA

Le cas symtrique impliquant plusieurs sources et une cible nest pas utilis dans IODA, dans la mesure o il peut se ramener systmatiquement au prcdent en exprimant linteraction la voix passive. Par exemple, pour faire transporter un meuble par plusieurs dmnageurs, on nutilisera pas linteraction transporter qui requerrait laction simultane de plusieurs sources (les dmnageurs) sur une mme cible (le meuble), mais plutt linteraction tre transport qui, elle, ne fait appel qu une source (le meuble) interagissant simultanment avec plusieurs cibles.
336
Attaquer un problme de simulation suppose didentier la fois les entits qui, selon le modle du domaine cibl, sont supposes interagir les unes avec les autres pour produire le phnomne tudi, et ces interactions elles-mmes. Dans un modle de simulation centr agents, lidentication se focalise sur les entits, que lon dote ensuite de comportements destins produire les interactions voulues. Les fonctions abstraites associes aux interactions sont ainsi perdues et englues dans la spcicit des agents. Nous suggrons au contraire de mener de front lana-
lyse des agents et des interactions, de faon garder une vue abstraite des fonctionnalits assures par les agents. La mthodologie IODA propose ainsi trois tapes pour la conception dune simulation centre interactions : 1. Identier dabord les interactions (fonctionnalits abstraites, processus lmentaires). Cela conduit dresser une matrice entre sources et cibles potentielles (cf. tab. 1) dans laquelle on fait apparatre ensuite les interactions gnriques. 2. crire les dclencheurs, conditions et actions de ces interactions. 3. Identier les caractristiques des agents concerns (attributs), ainsi que les primitives de perception et daction (par exemple faim, dtruire...), daprs les dclencheurs, conditions et actions constituant les interactions auxquelles ces agents devront participer. 4. Spcier, pour toute affectation dune interaction des agents source et cible(s), la priorit relative de cette interaction et sa garde de distance. Cela conduit rafner la matrice prcdente. 5. Dterminer enn la dynamique du systme, cest--dire la faon dont, au l des interactions et pendant la simulation, volue cette matrice (et par consquent, les possibilits dinteraction des agents). Voir [3] pour plus de dtails. 3.1 La matrice daffectation des interactions aux agents Une fois dnies les interactions susceptibles dtre ralises au cours dune simulation, il est en gnral facile de dterminer quels agents seront cibles ou sources. Il reste nanmoins deux points prciser :
La condition de distance entre la source et la cible pour que linteraction puisse se produire. En effet, les agents ninteragissent potentiellement quavec des agents sufsamment proches , quil sagisse dune distance spatiale dans lenvironnement ou dune mesure de proximit dans un espace dtats. La priorit que prend une interaction donne lorsquelle est affecte un agent donn, par rapport aux autres interactions quil est susceptible deffectuer. Pour quun comportement rationnel puisse rsulter des interactions entre agents, il faut en effet hirarchiser ces interactions les unes par rapport aux autres, et ce dune faon qui dpend assez troitement des caractristiques fonctionnelles des agents sources de cette interaction. Cest lors de cette phase daffectation des interactions gnriques des agents concrets, et lors de la dnition des priorits et des gardes de distance associes chaque interaction pour un agent donn, que lon peut afner les comportements produits au cours de la simulation. Au reste, rien nexige que cette affectation reste inchange au cours du droulement de la simulation. D FINITION 7 (A SSIGNATION ) On appelle assignation des interactions I1 , I2 . . . In entre une source S et une cible (ou un groupe de cibles) T , un ensemble de 4-uplets de la forme (Ik , ck , pk , dk ) avec : Ik : linteraction pouvant tre effectue par S et subie par T ck : la cardinalit de linteraction (nombre de cibles de type T attendues) pk : la priorit donne linteraction Ik de ce 4-uplet par rapport toutes celles que la source peut effectuer dk : la garde de distance S /T en de de laquelle linteraction est ralisable (facultative si la garde se conforme au halo de perception de la source, ou si ck = 0). Lassignation aS ,T dcrit donc lensemble des interactions que S et T peuvent rali337
ser conjointement. N.B.1 : lorsque ck > 1 et que deux cibles au moins appartiennent des catgories diffrentes, on notera plutt T = (T1 . . . Tn ). N.B.2 : la garde de distance dk peut tre arbitrairement grande, mais elle est en pratique borne par le halo H de lagent.
S/T
(CreateSoldier ; 0 ;1 ; ) (CreatePeasant ; 0 ;0 ; )
...
tion la matrice M = (ai,j ) de = toutes les assignations (ai,j {(I1 , c1 , p1 , d1 ), . . . (In , cn , pn , dn )}) entre sources et cibles dans la simulation. Ces sources et cibles peuvent tre aussi bien des agents individuels que des catgories abstraites (classes, groupes, quipes, etc). Par consquent, dans toute simulation qui comporte des interactions sans cibles (i.e. de cardinalit 1/0), il existe dans la matrice dinteraction une colonne (ai, ).
La forme gnrale de cette matrice est donne sur un exemple dans le tableau 1. 3.2 Critres dligibilit dune interaction D FINITION 9 ( LIGIBILIT ) Pour un agent x, une interaction I est dite ligible si x peut tre source de I et sil existe dans le voisinage V de x des agents pouvant tre cibles de I , en respectant les gardes de distances. N.B. Lligibilit porte sur des critres syntaxiques (possibilit dtre source ou cible daprs la matrice dinteraction), et non smantiques : une interaction ligible nest ralisable en pratique que si les dclencheurs et les conditions sont vris. Le moteur de simulation repose principalement sur lvaluation des critres dligibilit des interactions susceptibles dtre effectues par chaque agent du systme. On peut formuler le critre dligibilit pour 3 cas, selon la cardinalit de linteraction considre (on dsigne ci-dessous la matrice dinteraction par M ) : pour une interaction de cardinalit 1/0 (pas de cible) : la possibilit deffectuer linteraction I ne dpend que de lagent source x
Critre dligibilit (1/0) : ligible(x, I, ) aS M tel que x S et (I, 0, p, d) aS
(GiveTask ; 1 ;2 ;)
(GiveTask ; 1 ;3 ;)
...
L
M
(BecomeChief ; 0 ;2 ; ) (Move ; 0 ;0 ; ) (BecomeChief ; 0 ;4 ; ) (Move ; 0 ;0 ; ) (Move ; 0 ;0 ; )
(GivePath ; 1 ;0 ;5)
...
...
(Protect ; 1 ;1 ;2)
...
(Destroy ; 1 ;1 ;2)
(Fight ; 1 ;2 ;5)
(Fight ; 1 ;3 ;5)
...
(PutGold ; 1 ;1 ;0)
...
TAB . 1 Extrait de la matrice des interactions ralisables dans la simulation Age of Empires teste sur notre plate-forme. On trouve en ligne les sources et en colonne les cibles. Agents : F, forum (cre des paysans et des soldats) ; M, mines (fournissent des ressources) ; P, paysans (exploitent les mines et dposent lor au forum) ; S, soldats (dfendent paysans et forum contre les soldats ennemis) ; E, ennemis (soldats dinvasion) ; L, limites (bornes entre lesquelles patrouillent les soldats). Chaque case aij de la matrice contient une assignation, i.e. une liste donnant les interactions qui peuvent tre effectues par la source i sur la cible j , avec une cardinalit (nombre de cibles), un niveau de priorit (relatif lensemble des interactions que i peut effectuer) et une garde de distance qui peut tre vide. D FINITION 8 On appelle
338
matrice
dinterac-
pour une interaction de cardinalit 1/1 (une seule cible) : la possibilit deffectuer I dpend de la source x et du choix dune cible potentielle y dans le voisinage V (x) appartenant une cible spcie dans la matrice dinteraction
Critre dligibilit (1/1) : y V (x), ligible(x, I, y ) aS ,T M tel que x S , y T , (I, 1, p, d) aS ,T et dist(x, y ) d
en faisant lhypothse quon peut dcomposer assez souvent une interaction exprime en cardinalit 1/n par une succession dinteractions de cardinalit 1/1 voire par lutilisation de macro-agents.
Le moteur de slection dinteraction.
pour une interaction de cardinalit 1/n (plusieurs cibles) : outre la source x, il faut considrer les parties de V (x) de cardinal n (i.e. les arrangements de n cibles yi possibles, chacune devant a priori appartenir une catgorie Ti spcie dans la matrice dinteraction)
Critre dligibilit (1/n) : (yi )i[1,n] P n (V (x)), ligible(x, I, (yi )) aS ,(T1 ...Tn ) M tel que x S , i [1, n] yi Ti , (I, n, p, d) aS ,(T1 ...Tn ) et dist(x, yi ) d
Lors du droulement de la simulation, le rle du moteur de slection dinteraction consiste, pour chaque agent source, choisir de faon quitable une interaction ralisable parmi toutes celles galement ralisables et de mme priorit, et lexcuter.
Il reste dnir concrtement, dans le moteur, lalgorithme de choix des interactions parmi toutes celles qui peuvent tre effectues un moment donn dans tout le systme multi-agents. Nous en proposons une ralisation au 4.
D FINITION 10 Une interaction I de cardinalit n est ralisable par x sur les cibles T = {y1 . . . yn } (not (x, I, T )) si elle est ligible pour ces cibles et que son dclencheur et sa condition sont tous deux vris pour la source et les cibles. (x, I, T ) ligible(x, I, T ) dclencheur(x, I, T ) condition(x, I, T ) N.B. : dans le contexte de IODA-light, on a n 1 dont T se rduit soit lensemble vide (cardinalit 1/0), soit une cible y (cardinalit 1/1). D FINITION 11 On appelle potentiel dinteraction de niveau p de lagent x, not Pp (x), lensemble des couples forms par les interactions de priorit p ralisables par x et les cibles sur lesquelles elles peuvent tre effectues : Pp (x) = {(I, T = {y1 . . . yn }) | n = cardx (I ) p = priox (I ) (x, I, T )} o cardx (I ) et priox (I ) dsignent respectivement la cardinalit et la priorit de I dans lassignation correspondante pour la source x. N.B. : dans le contexte de IODA-light, on a n 1. On peut alors dcrire lalgorithme qui permet au moteur de slection dinteraction de veiller ce que chaque agent puisse effectuer ou subir au plus une interaction par
339
4 De la mthodologie limplmentation
La plateforme que nous avons baptis IODA-light vise donner une implmentation exacte (sans heuristique) de la mthodologie IODA, ce qui en fait une des seules qui permette de passer de faon univoque de lanalyse au code. Elle nous permet de prototyper des modles centrs interactions et den tudier les proprits. Elle est disponible sur
http://www.lifl.fr/SMAC/projects/ioda
Restriction de cardinalit.
En raison des considrations de complexit mentionnes ci-dessus pour les interactions de cardinalit 1/n, elle est destine ne traiter que des interactions de cardinalit 1/0 ou 1/1,
pas de temps. chaque pas de temps : 1. Mettre jour ltat de lenvironnement. 2. Rendre tous les agents activables (i.e. leur permettre deffectuer ou de subir une interaction). 3. Pour chaque agent activable x : (a) Percevoir les caractristiques de lenvironnement dans le halo H(x) ; (b) Percevoir les agents voisins V (x), puis retirer de V (x) les agents qui ne sont plus activables (i.e. qui ont dj particip une interaction) ; (c) Mettre jour ltat interne de lagent x ; (d) Dterminer les interactions ligibles ; (e) Initialiser le niveau de priorit p au niveau maximal pour x ; (f) Calculer Pp (x) ; si Pp (x) = , dcrmenter p et recommencer ; (g) Si on arrive P0 (x) = , alors lagent ne peut tre source daucune interaction et son pas de temps sachve (mais x reste activable) (h) Sinon (i.e. ds quon a un niveau de priorit p pour lequel Pp (x) = ), choisir au hasard un couple (I , T ) Pp (x) ; (i) Effectuer les actions de I avec x comme source et T comme cible puis dsactiver x et les agents de T . Cet algorithme garantit le choix quitable des interactions du niveau de priorit le plus lev pour chaque agent ; en outre, la dsactivation (tape i) vite quun agent ne prenne part plusieurs fois une interaction au cours du mme pas de temps.
340
5 Conclusion
La complexit de plus en plus grande des simulations agents situs et la monte lchelle de ces applications ncessite davoir un guide mthodologique allant de la phase danalyse du problme au code informatique. Lors de prcdents articles nous avons propos une approche centre Interactions, nomme IODA, qui a lavantage de concrtiser les interactions entre les agents offant ainsi une facilit de conception et une rutilisatibilit du code fortement amliore par rapport une approche classique. Aprs avoir rsum cette approche, cet article prsente dune part la diffrence entre IODA et lapproche traditionnelle sur un exemple concret et dautre part les problmes difciles rsoudre au sens des Interactions et des classes de complexit algorithmiques associes. Dans un second temps, le paquetage Ioda-Light, qui fournit les classes ncessaires lapplication de cette mthode est dcrit. Ce paquetage, initialement propos des ns pdagogiques, est une restriction de IODA aux interactions 1 :1 . Le passage de IODA et ses tableaux au squelette du code issu de IODA-ligth est quasi automatique, au point quune de nos perspectives court terme est de fournir un outil de dveloppement graphique pour raliser ce type de simulation.
Rfrences
[1] Y. Demazeau. From Interactions to Collective Behaviour in Agent-Based Systems. In Proceedings of the 1st European Conference on Cognitive Science, Saint-Malo, 1995. [2] P. Mathieu, S. Picault, and J.-C. Routier. Simulation de comportements pour agents rationnels situs. In Actes de la confrence Modles Formels pour lInteraction (MFI03), pages 277 282, Lille, 2003. [3] Philippe Mathieu and Sbastien Picault. Towards and interaction-based design of behaviors. In Marie-Pierre Gleizes, editor, Proceedings of the Third European Workshop on Multi-Agent Systems (EUMAS05), 2005.
Interprtation de commandes en langage naturel pour les agents conversationnels base dontologie
L. Mazuel laurent.mazuel@lip6.fr N. Sabouret nicolas.sabouret@lip6.fr
Laboratoire dInformatique de Paris 6 (LIP6) 104 av du Prsident Kennedy 75016 Paris FRANCE Rsum : Dans cet article, nous nous intressons linterprtation des commandes en langue naturelle dun utilisateur un agent articiel. Nous proposons une architecture pour le traitement de ces commandes adaptable diffrents types dapplications. Les algorithmes de traitement dpendent uniquement du code de lagent et de lontologie de domaine de cet agent. Nous prsentons ensuite une valuation comparative de trois approches : lapproche descendante, reposant sur les contraintes syntaxique du langage de description de lapplication, lapproche ascendante, reposant sur lutilisation de connaissances sur lensemble des actions possibles de lagent et nalement une proposition dapproche combine. Mots-cls : Communication humain-agent, introspection, ontologie de domaine, approche ascendante et descendante, evaluation comparative Abstract: This paper focuses on a generic architecture provided with a natural language (NL) algorithm for command interpretation that can be adapted to different agents domains for human-agent communication. Our NL architecture only depends on the agents code and its domain ontology. We consider two approaches for NL command interpretation : the top-down approach and the bottom-up approach. We propose to combine both approaches in a bottom-up based algorithm that makes use of agents constraints. We propose a comparative evaluation of these three algorithms. Keywords: Human-Agent communication, introspection, domain ontology, top-down and bottom-up approach, comparative evaluation
ment et depuis longtemps la rsolution de problmes par des agents cognitifs autonomes [4]. A ce titre, elle tudie les protocoles et modles dinteraction formels entre agents. Ainsi, il nexistait initialement que peu de travaux sur la communication humain-agent qui reste une problmatique trs ouverte. Dautre part, la communaut Agents Conversationnels Anims sintresse particulirement linteraction en langue naturel entre un utilisateur humain et un agent articiel. Elle obtient de trs bon rsultats dans le domaine de linteraction multi-modale[2] et des expressions dmotions [9]. Cependant, au niveau comprhension des langues, ces approches sappuient essentiellement sur des algorithmes de pattern-matching ad-hoc sans relle analyse smantique [1]. Dautre part, la communaut des systmes de dialogues utilise les ontologies pour sapprocher dune architecture plus gnrique [7]. Lide importante sous-jacente lutilisation dontologies est de pouvoir gnraliser les algorithmes de traitement smantique an de les faire dpendre uniquement de son formalisme. Ainsi, ces applications ne sont plus dpendantes que de lontologie et du rsolveur de problme spcique de la tache accomplir. Par exemple, certains systmes utilisent ainsi lontologie pour paramtrer un parseur gnrique [8]. Cependant, pour obtenir de bons rsultats, ils imposent un formalisme de description dontologie trs contraint, efcace pour un sous-ensemble dapplication, mais loin des modles ouvert clas341
1 Introduction
1.1 Prsentation du problme La communaut des Systmes MultiAgent (SMA) sintressent particulire-
Interprtation ___________________________________________________________________________ de commandes en langage naturel [...]
siques. De plus, ce type dontologie dcrit le modle de lapplication et non le domaine de travail de lapplication. Nous pensons quil est possible dextraire la smantique des actions du code de lapplication directement. Lontologie ne serait plus alors une deuxime description de lapplication, mais une description des liens smantiques entre les diffrents concepts prsents dans le domaine de lapplication (ce qui constitue le rle initial dune ontologie). 1.2 Plan de larticle Nous allons essayer de montrer quil est possible de dnir un systme dinterprtation de commandes en langue naturel (LN) bas uniquement sur une ontologie de domaine et des agents capables dintrospection. Nous proposons pour cela trois strategies, les approches descendante, ascendante et combin. Dans la seconde section, nous donnerons une description gnrale de notre modle dagent. La section 3 prsente la chane de base de TAL et le gestionnaire de dialogue qui sont les parties de larchitecture commune aux trois algorithmes. Dans la section 4, nous introduisons les trois algorithmes gnriques diffrents pour linterprtation de commandes. La section 5 prsente une valuation prliminaire de ces algorithmes. La section 6 conclue larticle.
ses donnes ou ses actions. Lagent rcrit larbre chaque tape de lexcution suivant un certain nombre de mots-cls du langage prsent dans les noeuds. Ce modle permet aux agents daccder lexcution la description de leurs actions an de raisonner dessus pour de la planication, pour rpondre des questions dtats formelles [11], pour modliser son comportement, etc. Dans le modle VDL, chaque agent est nanti dune ontologie OWL. Cette ontologie doit contenir au minimum tout les concepts utiliss par lagent (i.e. les concepts VDL)2 . Il existe donc une fonction injective de lensemble des concepts VDL de lagent vers lensemble des concepts dnis dans lontologie. 2.2 Modle dactions En VDL, les ractions3 sont actives par des vnements, i.e. noeuds XML envoys lagent en guise de commande. Ils sont la reprsentation formelle (i.e. en VDL) des commandes. Les ractions dcrivent comment ces messages (envoys par un utilisateur ou mme un autre agent) doivent tre traits. Lobjectif du systme dcrit ici est de construire des vnements VDL partir dune commande utilisateur en LN. En VDL, comme dans la plupart des modles de reprsentation des actions, nous reprsentons une action par un tuple r = nom, P, E o nom est le nom de laction, P lensemble des prconditions de laction et E son ensemble deffets. Nous pouvons dnir quatre types de prconditions pour une raction r de R, lensemble des ractions possible : Pe (r) est lensemble des prconditions dvnement. Elles sont utilises pour
2 Ces concepts sont prsent dans le code XML de lagent soit comme tiquette (i.e. tag), comme attributs ou contenu texte. 3 Cet article traitant dinteraction utilisateur, nous limiterons nos actions aux ractions (par opposition au comportement proactif dun agent).
2 Notre modle dagent

2.1 Le modle VDL Nos agents sont programms en utilisant le langage VDL (View Design Language)1 . Le modle VDL est bas sur la rcriture darbre XML : la description de lagent est un arbre dont les noeuds reprsentent
1 http://www-poleia.lip6.fr/~sabouret/ demos
342
aiguiller une certaine forme dvnement vers une certaine classe de ractions, ou pour rejeter les vnements globalement mal forms. Ps (r) est lensemble des prconditions de structure. Elles sont utilises pour vrier la syntaxe prcise dun message et assurer que la raction a toutes les informations ncessaires pour sexcuter sans erreurs. Les prconditions de Ps (r) ne dpendent donc pas de ltat courant de lagent, mais uniquement de la structure dtaille de lvnement. Pc (r) est lensemble des prconditions de contexte. Ces prconditions ne dpendent que du contexte courant de lagent. Pcs (r) est lensemble des prconditions contextuelles-structurelles, i.e. prconditions dpendantes de lvnement et du contexte courant de lagent. Nous noterons Pe = rR Pe (r). Pour tout e Pe , nous noterons Re (evt) = {r R|evt Pe (r)} lensemble des ractions dont lexcution donnera lieu des effets par lvnement evt.
F IG . 1 Architecture gnrale bien structures (e.g. drop object low ou "take blue). Nous utilisons dans cet article une reprsentation du type sac de mots (aprs avoir enlev les mots blancs reprs par leur tiquette)5 . Notre objectif en analyse smantique est dutiliser les ontologies pour lappariement des concepts utilisateurs avec ceux de lagent VDL. Dans cet article, nous nutilisons que la synonymie (owl :sameAs) de lontologie pour faire cet appariement. Cette analyse repose sur lhypothse de connectivit smantique [12] enrichie par lutilisation de la relation owl :sameAs : chaque concept qui apparat dans une commande correcte est soit directement associ un concept VDL, soit en relation owl :sameAs dans lontologie avec un concept VDL. Nous notons C lensemble de tous les concepts VDL lis (soit directement, soit via la relation owl :sameAs) un terme apparaissant dans la commande utilisateur. Cest partir de cet ensemble que nous construirons les vnements VDL au moyen des algorithmes dcrits dans la section 4. La dernire partie de notre chane est un gnrateur danglais qui transforme un noeud VDL en une phrase anglaise. Le rsultat grammaticalement incorrect, mais sufsant pour que les utilisateurs comprennent les propositions du systme dans
5 Lobjet de cet article ntant pas linterprtation syntaxique et smantique des commandes, nous nous contenterons dune version trs simplie, an de nous focaliser sur ltude comparative. Nous nvaluerons pas dans la section 5 les rsultats uniquement lis cette simplication.
3 Architecture globale
Cette section prsente les modules de LN communs aux trois algorithmes dinterprtation. 3.1 Outils de base de TAL Dans notre projet (gure 1), le module lexical de base est celui du projet Open Source OpenNLP4 . Ce module contient un tiqueteur, un lemmatiseur (simple lien vers le lemmatiseur WordNet contenu dans JWNL). Comme nous lavions constat dans lvaluation de [10], lutilisation dun analyseur syntaxique nest pas efcace pour les commandes en langue naturelle. En effet, les utilisateurs emploient plus souvent des mots clefs que des phrases
4 http://opennlp.sourceforge.net/
343
notre valuation. 3.2 Le gestionnaire de dialogue Le gestionnaire de dialogue (GD) est responsable des dialogues avec lutilisateur pour lacceptation dune commande, mais aussi pour la gestion des commandes incompltes ou imprcises. Le paramtre dentre de notre GD est lensemble dvnements cr par lun des trois algorithmes que nous dtaillerons dans la section 4 (approche descendante, ascendante, combinaison des deux). La premire tape de notre GD est de dcouper cet ensemble, que nous noterons G , en deux sous-ensembles disjoints : Lensemble E des vnements possibles dans le contexte courant de lagent. Lensemble F des vnements impossibles. Ils ne correspondent pas forcement une mauvaise modlisation par lun des trois algorithmes, lutilisateur pouvant parfaitement poser une commande impossible raliser par lagent (impossible de manire gnrale ou de manire contextuelle). E et F ne contiennent pas forcement tous les vnements possibles ou impossibles, ils reprsentent seulement un partitionnement des propositions faites par lalgorithme dinterprtation en cours. Le GD calcule ensuite le score dappariement entre chacun des vnements de E et F et la commande utilisateur (la fonction de score est dnie plus en dtails dans [6]). A laide de ce score, nous retirons de E et de F les sous-ensembles dvnements score non-maximaux. En dautres mots, E et F ne contiennent plus que les meilleurs vnements comparativement la commande utilisateur parmi ceux gnrs par linterprtation. Pour lexploitation de ces deux ensembles, nous dnissons deux seuils de comprhension : pmin est la limite sparant les commandes incomprises des commandes
344
comprises sans certitude et pmax est le score sparant les commandes comprises sans certitude des commandes parfaitement comprises. Ces seuils correspondent, dans le principe, aux seuils tell me et do it de Patty Maes dans [5]. Le retour lutilisateur donn par le GD est dpendant de la position relative des deux scores pE et pF entre eux et par rapport aux deux seuils pmin et pmax . Nous diffrencions sept cas possibles [6]. Par exemple, si pE pmax la commande est considre comme correctement comprise par le systme quelque soit la valeur de pF . Dautre part, une commande sera considr comme comprise mais impossible si pE pmin et pmax pF , etc.
4 Algorithmes dinterprtation
Cette section prsente les algorithmes construisant lensemble dvnements G partir de la commande et du code de lagent. 4.1 Lapproche descendante Lapproche descendante (i.e. top-down) consiste construire une commande formelle (i.e. vnement en VDL) partir de la commande en LN en considrant uniquement les contraintes structurelles imposes par le modle formel du langage (e.g. [12, 13]). Elle est couramment utilise en dialogue, en situation o il est difcile de prvoir lavance ltendue des commandes ou de dterminer ce quil est possible deffectuer linstant courant. Le principal dfaut de cette approche est li la difcult de dnir des rgles gnriques de transformation dans le systme. Ainsi, les systmes actuels dnissent un grand nombre de rgles spciques de lapplication, an de rduire au maximum la cration dvnements impossibles. Dans notre approche, nous essayons de nous affranchir des rgles dinterpretation
lies lapplication. Cest pourquoi nous nutilisons que les prconditions de subsomption (Pe ) et ltat courant de lagent pour construire lvnement VDL partir des concepts compris de lutilisateur (C ). Les prconditions de subsumption permettent de dnir le squelette des vnements possibles pour un concept donn. Une analyse plus profonde de ltat interne de lagent permet denrichir le squelette avec les concepts possibles. Plutt que dutiliser des rgles strictes de grammaire, nous proposons de dnir une mthode de construction dvnements base sur la syntaxe VDL et dappliquer des heuristiques pour contraindre la construction selon la smantique oprationnelle VDL. Soit E = {e Pe |tag (e) C } et e E , soit Ce = C \{tag (e)}. Pour chaque e E , notre algorithme considre lensemble des feuilles Le de e et cherche lintrieur du code les noeuds t Le qui contiennent au moins un concept c Ce dans leurs sous-lments. e E , nous notons e lensemble de ces noeuds et = eE e . Puis, nous appliquons un algorithme de fusion qui permet de lier les diffrentes parties instancies dun mme squelette de (correspondant diffrents concepts de la commande) en un seul vnement. Soit lensemble des parties de lensemble . G=
N maxcard
noeuds dont la profondeur depth(cj ) est minimale. Lheuristique est base sur linterprtation future des vnements (selon la smantique oprationnelle VDL). Elle na aucun impact sur les vnements rsultats : lalgorithme construira lensemble complet des meilleurs vnements. 4.2 Lapproche ascendante Lapproche ascendante (i.e. bottom-up) classique utilise une liste prtablie de comptences et essaye de relier la commande en LN une de ces comptences (e.g. [8]). Cette approche permet au dveloppeur dcrire des algorithmes gnriques, au sens dpendant uniquement du formalisme de la liste de comptences. Cependant, ces listes sont dnies de manire statique, le systme na aucune conscience de ce quil est possible ou non de faire dans ltat courant. En pratique, ces listes doivent dcrire toutes les situations de dialogues possibles (en tenant compte des erreurs possibles de lutilisateur) ainsi que la traduction en requte formelle. Pour viter ce problme, nous proposons dadopter une approche ascendante constructive base sur lanalyse des prconditions. Notre approche utilise les informations contextuelles (obtenues de lagent lexcution) pour dterminer quels vnements peuvent tre accepts par lagent dans ltat courant. Ainsi, notre systme construit la liste des vnements possibles, dun point de vue agent, sans chercher utiliser la commande de lutilisateur. Lapproche ascendante utilise les prconditions dvnement (Pe ) pour fournir les squelettes initiaux (comme lapproche descendante). Puisque notre objectif est de construire les vnements possibles (correspondant la liste de comptences dans les approches classiques), nous retirons de la liste des squelettes Pe tout ceux qui sont lis une action impossible dans ltat
345
fusion(N )
Remarquons bien que lapproche descendante ne garantit pas que les vnements soient possibles ou non : elle construit simplement lensemble dvnements qui sapparie le mieux la commande. Une consquence de cette remarque est que E = Emax et F = Fmax . Cependant, du fait que peut tre trs grand et que le calcul de fusion est NPDifcile, nous rduisons par lutilisation dune heuristique de profondeur minimale : pour un couple donn (e, c ) E Ce , nous ne gardons dans e que les
courant (cest--dire pour lesquels une prcondition de contexte rend lexcution de laction impossible). Nous obtenons alors lensemble Pe+c =

4.3 Lalgorithme combin Lapproche ascendante constructive possde nanmoins une limitation : le systme nest pas capable de comprendre les commandes impossibles (au contraire de lapproche descendante). Contre ce problme, les approches base de liste de comptences proposent dutiliser des souscomptences associes an de traiter les diffrentes situations (action possible, impossible, paramtre incomplet, etc.). De manire similaire, nous voudrions que notre algorithme nal possde cette capacit sans perdre laspect constructif. Pour cela, nous avons combin lalgorithme ascendant avec lide de lalgorithme descendant de gestion des commandes impossibles. Soit Gbu lensemble des vnements possible calcul par lapproche ascendante, notre objectif est de crer un ensemble G tel que Gbu G , la partie supplmentaire reprsentant les vnements actuellement impossible (i.e. vnements qui ne peuvent pas tre accept par lagent ltat courant, mais qui le serait dans un tat diffrent). Pour cela, nous utilisons le principe de relaxation de contrainte sur les prconditions de contexte (incluant les prconditions contextuelles structurelles). Nous ne pouvons pas relcher les prconditions de structures, sous peine dobtenir des vnements mal structur : G = { (e, r), e Pe , r Re (e) |p Ps (r), (p, (e, r)) = }
e Pe |p
rRe (e)
Pc (r), (p, e) =
avec (p, e) la fonction boolenne vriant si lvnement e valide la precondition p.Pe+c est lensemble des squelettes qui seront forcement accepts par lagent dans ltat courant. Cest partir de cet ensemble que nous allons construire lensemble dvnements G . Lide de lapproche ascendante constructive est dutiliser les prconditions structurelles (Ps et Pcs ) comme un ensemble de contraintes sur les vnements pour complter les squelettes. Pour tout e Pe+c , nous noterons (e, r) lvnement construit partir du squelette e et de la raction r Re (e) (en nanalysant donc que Ps et Pcs ) par lutilisation de notre algorithme de gnration des cas de test. Lalgorithme complet pour la mthode est trop long pour tre prsent ici. Il repose fortement sur la smantique oprationnelle du modle VDL. Il est bas sur une interprtation rcursive des termes VDL associ un certain nombre de rgle pour chaque mot-cl du langage. Lensemble G est ainsi calcul : G = { (e, r), e Pe+c , r Re (e) |p Ps (r) Pcs (r), (p, (e, r)) = } Remarquons que G est lensemble des vnements possibles : tous les vnements de G sont possibles pour lagent et tous les vnements possibles de lagent sont dans G . Comme consquence, nous aurons pour le GD que E =G et F = .
346
5 valuation prliminaire
5.1 Protocole Notre exprience a t faite avec un agent simple appel Jojo6 inspir du monde
6 Vous pouvez essayer Jojo sur la page demo : http:// www-poleia.lip6.fr/~sabouret/demos.
F IG . 2 tat initial et nal du protocole de cube de Winograd [14]. Cet agent possde deux actions : prendre un objet et poser un objet sur une grille. Un objet est caractris par sa forme, sa couleur et sa taille. Une position est un couple de {upper, center, lower} {right, middle, left}. Douze personnes ont fait lexprience, quatre pour chaque algorithme. Aucune de ces personnes navaient utilises le systme auparavant. Ils navaient aucune information sur les capacits en TAL du systme. Lobjectif dune personne tait datteindre un tat particulier de lenvironnement de lagent (gure 2), sans limitation de temps. Aprs lexprience, un questionnaire permettait aux sujets de lexprience de noter leurs impressions, commentaires libres et de donner une note sur certains critres. 5.2 Rsultats principaux La gure 3 montre la moyenne des temps mis pour atteindre lobjectif et la moyenne des notes donne par les utilisateurs pour chaque algorithme. Il apparat clairement que les utilisateurs prfrent les approches du type ascendante (classique ou combine). En effet, le retour lutilisateur et les propositions faites par lagent sont les points les plus importants daprs lvaluation des questionnaires. Ils rduisent denviron 65% le temps requis pour laccomplissement de la tache. Une analyse plus profonde des traces des interactions lors de lexprience conrme la ncessit pour lutilisateur de savoir :
F IG . 3 Moyennes des temps et des notes 1) ce quattend lagent, ce quil ne peut pas faire. Cest ce qui explique les meilleurs rsultats de lapproche ascendante sur lapproche descendante. Par exemple, lorsque lutilisateur dit drop on the lower line, lapproche ascendante propose la liste des cases vide en bas de la grille (sauf lorsquil nen reste quune). 2) pourquoi il ne peut pas le faire. Cest ce qui permet, dans lapproche combine, de corriger ltat de lagent par rapport au souhait de lutilisateur. Par exemple : la commande Take the red gure, si la main est dj pleine, est gre par une rponse du type i cant because the hand is not empty. En rponse du retour contextualis sur ltat de lagent, les utilisateurs choisissent quasi systmatiquement la proposition du systme.
6 Conclusion & perspectives

Dans cet article, nous avons propos un systme dinterprtation de commande en LN uniquement paramtr que par le code de lagent et lontologie du domaine. Bien que nous utilisions un langage agent spcique, notre approche en est indpendante et peut tre aisment adapte dautres langages de description dactions capable dintrospection.
347
La force de lapproche descendante est de pouvoir expliquer pourquoi une commande donne ne peut tre comprise, tandis que celle de lapproche ascendante est daider lutilisateur en lui proposant les diffrentes actions possibles proche lorsque la commande est mal comprise ou partielle. Notre approche combine propose les avantages des deux, allie notre gestionnaire de dialogue sans rgle spcique dpendante de lapplication. Dans la version qui est prsente ici, notre systme ne fonctionne que sur une analyse smantique minimale sur lontologie (synonymie). Par consquent, il ne peut comprendre que les commandes formules avec des concepts prsents dans le code de lagent. Notre objectif terme est dutiliser un calcul de similarit smantique entre les concepts [3], an de donner un score lapproximation entre les concepts de lagent et ceux de lontologie. Ceci devrait permettre au systme de comprendre des commandes plus complexe et moins lies au code brut de lagent.
[6]
[7]
[8]
[9]
[10]
Rfrences
[1] S. Abrilian, S. Buisine, C. Rendu, and J.-C. Martin. Specifying Cooperation between Modalities in Lifelike Animated Agents. In Working notes of the International Workshop on Lifelike Animated Agents : Tools, Functions, and Applications, pages 38, 2002. [2] T. W. Bickmore. Unspoken rules of spoken interaction. Commun. ACM, 47(4) :3844, 2004. [3] A. Budanitsky and G. Hirst. Evaluating wordnet-based measures of semantic distance. Computational Linguistics, 32(1) :1347, March 2006. [4] J. Ferber. Les systmes multi-agents : Vers une intelligence collective. InterEditions, 1995. [5] P. Maes. Agents that reduce workload and information overload. Commu348
[11]
[12]
[13]
[14]
nications of the ACM, 37(7) :3040, 1994. L. Mazuel and N. Sabouret. Generic command interpretation algorithms for conversational agents. In Proc. Intelligent Agent Technology (IAT06), pages 146153. IEEE Computer Society, 2006. D. Milward and M. Beveridge. Ontology-based dialogue systems. In Proc. 3rd Workshop on Knowledge and reasoning in practical dialogue systems (IJCAI03), pages 918, August 2003. E.C. Paraiso, J.P. A. Barths, and C. A. Tacla. A speech architecture for personal assistants in a knowledge management context. In Proc. European Conference on AI (ECAI), pages 971972, 2004. C. Pelachaud. Modelling gaze behaviour for conversational agents. In Proc. Intelligent Virtual Agent (IVA2003), pages 93100, 2003. N. Sabouret and L. Mazuel. Commande en langage naturel dagents VDL. In Proc. 1st Workshop sur les Agents Conversationnels Anims (WACA), pages 5362, 2005. N. Sabouret and J.P. Sansonnet. Automated Answers to Questions about a Running Process. In Proc. CommonSense 2001, pages 217227, 2001. D. Sadek, Ph. Bretier, and E. Panaget. Artimis : Natural dialogue meets rational agency. In IJCAI (2), pages 10301035, 1997. S. Shapiro. Sneps : a logic for natural language understanding and commonsense reasoning. Natural language processing and knowledge representation : language for knowledge and knowledge for language, pages 175195, 2000. T. Winograd. Understanding Natural Language. New York Academic Press, 1972.
Reprsentations syntaxique et smantique dun acte

B. Menoni menoni@ensae.fr J.-Ch. Vergnaud vergnaud@univ-paris1.fr
Panthon-Sorbonne-conomie, Universit Paris 1 & CREST-LFA Maison des Sciences conomiques 106 - 112 boulevard de LHpital 75647 Paris cedex 13
Panthon-Sorbonne-conomie, CNRS & Universit Paris 1 Maison des Sciences conomiques 106 - 112 boulevard de LHpital 75647 Paris cedex 13 and precise the conditions under which a DM is logically omniscient and behaves as if her beliefs where dened exclusively on possible worlds. Keywords: decision under uncertainty, logical omniscience, epistemic logic
Rsum : Dans la plupart des modles proposs en thorie de la dcision individuelle, les agents sont dous domniscience logique. Nous proposons ici un cadre formel pour distinguer ce qui relve dune part du savoir, rsultat des capacits computationnelles ventuellement limites dun agent et ce qui relve dautre part des degrs de croyance que lagent se forme sur ce quil juge incertain. Pour cela nous explicitons le langage syntaxique qui dcrit les actes sur lesquels portent les prfrences de lagent. Nous proposons un thorme gnral de reprsentation des prfrences la Schmeidler [5] fond axiomatiquement. Nous donnons une condition sous laquelle existe une reprsentation smantique recourrant des mondes ventuellement "impossibles". Nous caractrisons ensuite les comportements par rapport lincertain et nous explicitons les conditions sous lesquelles un agent est logiquement omniscient et se comporte comme si ces croyances ne portaient que sur des mondes possibles. Mots-cls : dcision dans lincertain, omniscience logique, logique pistmique Abstract: In individual decision theory, the models generally assume that the decision maker (DM) is logically omniscient. In this paper, we build a model that allows to distinguish between knowledge, that is the product of the DMs computational abilities, and the various degrees of belief the DM holds over what she thinks as being uncertain. In order to achieve our objective, we explicitly introduce a syntactic language that describes the acts the preferences of the DM are dened on. We offer a general representation theorem of preferences a la Schmeidler [5]. Then, we provide a condition under which there exists a semantic representation that may require "impossible" worlds. Finally, we specify the DMs behavior towards uncertainty
1 Introduction
Si certains paradoxes en thorie de la dcision (paradoxes de Allais, dEllsberg...) ont trouv des solutions par le recours des modles gnralisant le modle de lutilit espre, pour dautres paradoxes tel celui de Linda, aucun modle na t encore propos. Rappelons cet exemple de violation de la rgle de conjonction (conjunction fallacy) mis en vidence exprimentalement par Tversky et Kahnemann [6]. Aprs avoir appris quelques lments biographiques portant sur Linda, un personnage ctif, les sujets doivent rpondre la question suivante : check which of the two alternatives (is) more probable Linda is a bank teller (T ). Linda is a bank teller and active in the feminist movement (T F ) . Parmi les 142 sujets auxquels cet exercice a t pos, 85 % ont rpondu que la proposition T F est plus probable que la proposition T . En terme smantique, les sujets accordent donc un degr de croyance plus lev lvnement
349
Reprsentations ___________________________________________________________________________ syntaxique et smantique d'un acte
T F qu lvnement T . Dans un modle de logique modale classique, lvnement T F est un sous-vnement de lvnement T . A notre connaissance, il nexiste pas de modle de dcision permettant lexpression de telles croyances : mme le modle trs gnral de Schmeidler ne le permet pas puisque les croyances obtenues dans le thorme de reprsentation sont des capacits (fonction monotone) sur les vnements. Dans le mme article, Tversky et Kahnemann [6] relatent une tude lors de laquelle ils ont demand deux groupes dtudiants de lUniversity of British Columbia, en avril 1982, dvaluer la probabilit pour lun de lvnement (F ) a massive ood somewhere in North America in 1983, in which more than 1000 people drown , pour lautre celle de lvnement (E F ) an earthquake in California sometime in 1983, causing a ood in which more than 1000 people drown . Il ressort de leur tude que la probabilit estime de lvnement (E F ) est signicativement suprieure celle de lvnement (F ). L encore, il nest pas possible de transcrire de telles croyances dans un modle existant de dcision individuelle. Dans ces deux exemples, les sujets semblent souffrir de problme de cohrence logique. En thorie des jeux, Geanakoplos [2] a pour sa part popularis lide de rationalit cognitive limite en reprenant une histoire de Sherlock Holmes. Alors que Sherlock Holmes et son adjoint Watson enqutent sur la disparition dun cheval1 , le dtective fait tat dun curieux incident "Is there any point to which you would wish to draw my attention ?" "To the curious incident of the dog in the night-time." "The dog did nothing in the night-time." "That was the curious incident," remarked Sherlock Holmes. Sherlock Holmes et Watson cherchent savoir si un inconnu sest introduit de nuit
1 Cette enqute est relate dans Silver Blaze, nouvelle crite par Sir Arthur Conan Doyle et parue en 1893.
dans lcurie (notons I cette proposition). La prsence dun chien, plus particulirement le fait que ce dernier na pas aboy (dsignons par A cette proposition), aide le dtective decider si I est vraie ou non. Holmes en dduit I par le raisonnement suivant. Premirement, il sait que si un inconnu entre dans ltable alors le chien aboit (soit la proposition I A) ; il en dduit par la rgle du modus tollens que I A A I ; il en dduit nalement par la rgle du modus ponens que I . Watson quant lui na pas russi mener ce raisonnement terme. Si nous licitions les croyances de Watson, nous observerions quil croit avec certitude A ainsi que I A mais quil est incertain au sujet de I . En terme smantique, on peut ici, contrairement aux exemples de violation de la rgle de conjonction, transcrire formellement les croyances de Watson par une capacit sur les vnements dun modle de logique modale classique. Nanmoins, on peut douter que ceci ait du sens. On sait en effet que si on sen tenait ce que Watson crot avec certitude, alors un modle de Kripke ne permettrait pas de reprsenter les croyances de Watson et quil est ncessaire dutiliser un modle smantique plus gnral ne reposant pas sur lhypothse domniscience logique. Pour modliser des agents dont les capacits cognitives sont ventuellement limites, nous proposons tout dabord de dnir prcisment les actes, cest dire les objets de choix sur lesquels porte les prfrences. En thorie de la dcision la Savage, les actes sont des fonctions dun espace dtats de la nature dans un ensemble de consquences. Mme si la terminologie voque lide dune smantique, il ny a pas de formalisme explicite dnissant cet espace dtats et le reliant des lments syntaxiques.2 Le cadre formel que nous proposons et qui semble naturel est
2 Par contre, les axiomatiques des prfrences peuvent ensuite conduire des croyances rvles (probabilits subjectives, capacits convexes, capacits...) vriant certaines proprits correspondant de lomniscience logique.
350
de dnir les actes en recourant une syntaxe. Nous retranscrivons alors dans ce cadre laxiomatique de Schmeidler [5] et obtenons un thorme gnral de reprsentation des prfrences. Nous montrons ensuite lintrt de cette approche qui permet de distinguer ce qui relve des croyances certaines de lagent de ces degrs de croyance sur les contingences incertaines.
2 Le modle
Dans lobjectif de dcrire prcisment un acte la Savage, il est naturel de dcrire les contingences possibles en termes syntaxiques. 2.1 Les briques du modle Soit 0 un ensemble ni de propositions atomiques. dsigne la clture de 0 sous les connecteurs de de ngation, de disjonction, , de conjonction, et dimplication matrielle . Nous considrons galement que lensemble des propositions contient la tautologie et la contradiction . Si deux propositions et de , sont logiquement quivalentes au sens du calcul propositionnel classique, nous noterons . Soit I N, I ni. La famille de propositions (i )iI est appele support si et seulement si (i) (i, j ) I 2 , i = j, i j ; (ii) iI i . Un support est une liste nie de propositions deux deux logiquement contradictoires et dont la disjonction est logiquement quivalente la tautologie. S est lensemble des supports. Soit C un ensemble non vide et convexe de consquences. Un acte est dni par rapport un support et indique quelle consquence sera obtenue si une proposition du
support est vraie. Formellement, on notera un acte X = (xi , i )iI o (i )iI est un support et (xi )iI un ensemble de consquences dans C . X dsigne lensemble de tous les actes. On suppose que X est un espace de mlange. On notera (X ) le support de X et pour i dans (X ) on notera X (i ) la consquence obtenue si i est vraie. Enn, pour toute consquence c C on notera (X )(c) lensemble { (X ) | X () = c}, cest dire lensemble des propositions du support pour lesquelles on obtient c. Soit S S un support. Nous notons X S , lensemble des actes dont le support est S . Dnition 1 (Acte S constants). Pour tout support S S , c C , cS est lacte tel que pour tout S , cS () = c. 2.2 Reprsentation des prfrences La dnition que nous avons propos des actes est justie si lon considre que le problme de dcision auquel sera confront lagent est dni par un tiers, par exemple un exprimentateur. Dans ce cas, la description des actes doit tre cohrente. Au contraire, si ctait lagent lui mme qui devait dcrire explicitement les actes auxquels il fait face, il nest pas vident que la description quil en proposerait respecterait les contraintes introduites. Nous considrons une relation de prfrence sur les actes : dsigne une relation binaire sur X . Pour tout support S S , S dsigne la restriction de X S . Nous retranscrivons dans ce cadre laxiomatique de Schmeidler qui nous permet dobtenir un thorme de reprsentation pour chaque restriction S . Axiome 1 (Pr-ordre continu). Pour tout support S S , S est un pr-ordre continu (au sens de Jensen).
351
Dnition 2. S S , (c, c ) C 2 , c
S C
c cS
c .
De plus, pour tout support S , uS est unique une transforme linaire croissante prs et S est unique. Les rsultats obtenus par Tversky et Kahneman [6] rappels en introduction de ce papier sont compatibles avec lingalit suivante {T F, (T F )} (T F ) > {T, T } (T ). (1) 2.3 Reprsentation indpendante du support et quivalence du thorme 1 avec une reprsentation smantique Tout dabord nous spcions deux conditions sous lesquelles les fonctions dutilit et de croyance dans le thorme de reprsentation deviennent indpendantes du support. Pour cela nous considrons des prfrences sur des actes de support diffrent, ce que nous navions pas considr jusque l. Axiome 6 (Rduction). Pour tout couple de supports (S, S ) S 2 , pour toute consquence c C , cS cS . Sous cet axiome, nous notons C la relation binaire commune tous les supports ordonnant C . Axiome 7 (Saillance des gains). Soit un couple de supports (S, S ) S 2 tels que S S = . Sans perte de gnralit, nous supposons que S = (1 , . . . , k , k+1 , . . . , n ) et S = (1 , . . . , k , k+1 , . . . , m ). Alors (c, 1 ; . . . ; c, k ; c, k+1 ; . . . ; c, n ) c, 1 ; . . . ; c, k ; c, k+1 ; . . . ; c, m .
Dnition 3. Soient S S un support 2 et (X, Y ) X S un couple dactes dont le support commun est S S . Ces deux actes sont dits comonotones si et seulement pour tout couple (, ) S 2 , X ()
S C
X ( ) Y ()
S C
Y ( ).
Axiome 2 (Indpendance comonotone). Soit S S un support. Pour tout triplet 3 dactes (X, Y, Z ) X S deux deux comonotones, pour tout rel ]0; 1[, X
S
Y X +(1)Z
Y +(1)Z.
Axiome 3 (C est born). S S , S (cS , cS ) C 2 | c C , cS S C c C cS .
Axiome 4 (Non dgnrescence). Pour tout support S S , cS S C cS .
Axiome 5 (Dominance). Pour tout support S S , pour tout couple dactes 2 (X, Y ) X S S, X ()
S C
Y () X
Y.
Proposition 1 (Schmeidler [5]). Les axiomes 1 5 sont satisfaits si et seulement si pour tout support S il existe une application uS : C R et S telles que : S est une capacit sur 2S ; S peut-tre reprsente par U S (X ) = uS x(n) +
n1
S (1) , . . . , (i)
i=1 S
u x(i) uS x(i+1) .
avec S = {i , 1 i n}, X = (xi , i )1in et le rordonnement S S x(1) S C x(2) C . . . C x(n) .

352
Sous ces deux axiomes supplmentaires, le thorme de reprsentation devient
Proposition 2. Les axiomes 1 7 sont satisfaits si et seulement si il existe une application u : C R et : S S 2S R telles que : restreint 2S est une capacit ; peut-tre reprsente par U (X ) = u x(n) +
n1
Dnition 4. Soit X un acte dont le support (X ) = (i )iI . Le reprsentant smantique de lacte X , note fX , est lapplication valeurs dans C et dnie sur par fX ( ) max min X (j ). J I| jJ j J j v
(1) , . . . , (i)
i=1
u x(i) u x(i+1) .
avec S = {i , 1 i n}, X = (xi , i )1in et le rordonnement x(1) C x(2) C . . . C x(n) . De plus, u est unique une transforme linaire croissante prs et est unique. Nous pouvons sous ces deux axiomes supplmentaires proposer une reprsentation smantique des prfrences. Nous nommons tat du monde toute application : {0; 1} telle que ( ) = 1 et () = 0. Nous notons ( v , f ) la partition de telle que v = 1 (1) et f = 1 (0). Un monde est dit faiblement non contradictoire si pour toute proposition , () = 1 () = 0, fortement non contradictoire si pour toutes propositions (, ) 2 , = { () = 1 ( ) = 0}, complet si pour toute proposition , () = 0 () = 1, possible sil est la fois fortement non contradictoire et complet. dsigne lensemble des tats du monde et P le sous ensemble des mondes possibles. Enn, pour toute proposition , nous notons { | v }.
Nous sommes dsormais en mesure dtablir un thorme de reprsentation des prfrences exprim dans une smantique proche, tout le moins dun point de vue formel, des modles de dcision classiques. Proposition 3. Si les axiomes 1 7 sont satisfaits alors il existe une capacit : 2 [0; 1] telle que la reprsentation U de la proposition 2 peut se rcrire comme U (X ) =
u fX d.
Dans cette reprsentation smantique, le problme de Linda se transcrit dans les termes suivants : ( T F ) > ( T ). (2) Les sujets accordent un poids plus important lvenement ( T F ) qu lvnement ( T ) tant une capacit, nous en dduisons quil est ncessaire que T F T . Ceci nest pas possible dans le sous ensemble des mondes possibles. Cela signie quil est ncessaire que les sujets considrent comme possible des mondes / T , cest T F tel que dire des mondes logiquement impossibles.
3 Application
3.1 Comportement par rapport lincertain On peut dans le cadre propos caractriser les comportements dans lincertain en
353
retranscrivant les dnitions proposes par Schmeidler [5]. Dnition 5. Un agent est averse lincertain si pour tous actes X et X dnis sur le mme support, X X X + (1 )X X pour tout [0, 1] est neutre lincertain si pour tous actes X et X dnis sur le mme support, X X X + (1 )X X pour tout [0, 1] aime lincertain si pour tous actes X et X dnis sur le mme support, X X pour tout X X + (1 )X [0, 1] Proposition 4. Sous les conditions de la proposition 1, un agent est averse lincertain ssi pour tout support S , S est une capacit convexe sur 2S , est neutre lincertain ssi pour tout support S , S est une mesure additive sur 2S , aime lincertain ssi pour tout support S , S est une capacit concave sur 2S , Sous les axiomes supplmentaires de la proposition 3, si un agent est averse lincertain alors il existe une capacit convexe : 2 [0; 1] qui reprsente ses croyances sur les mondes, 2S , est neutre lincertain alors il existe une mesure additive : 2 [0; 1] qui reprsente ses croyances sur les mondes, aime lincertain alors il existe une capacit concave : 2 [0; 1] qui reprsente ses croyances sur les mondes. Watson est un agent qui bien quayant des capacits dductives dfaillantes peut nanmoins avoir des croyances probabilistes. Exemple 1 (Watson). Supposons que les prfrences de Watson soient reprsentables par un modle smantique o ses croyances sont telles quil considre quiprobables deux mondes. Le monde 1 est
354
v un monde possible avec 1 qui contient A I ainsi que toutes les propositions qui sen dduisent logiquement alors que 2 est un monde impossible avec v {A, I, I A, A I } 2 . En ce qui concerne le support S = (A I, A I, A I, A I ), est une mesure additive sur 2S avec (A I ) = (A I ) = 1 et (A I ) = (A 2 I ) = 0. Par ailleurs, nous vrions que (A) = 0, (A) = 1, (I ) = (I ) = 1 , (I A) = 1 et [(I A)] = 0. 2
3.2 Caractrisation de la rationalit cognitive Quelles sont les caractristiques dun agent qui ne souffre pas de limitation cognitive, cest dire dont les croyances certaines sont logiquement cohrentes ? Intuitivement, on se doute quil sagit dun agent qui reconnat les quivalences logiques. Pour traduire ceci axiomatiquement, nous dnissons tout dabord une notion dacte logiquement quivalent. Dnition 6. Soient X et X deux actes. On dira que X et X sont logiquement quivalents si pour tout c C (X )(c) (X )(c) Axiome 8 (Omniscience logique). Soient X et X deux actes. Si X et X sont logiquement quivalents alors X X On peut remarquer que cet axiome implique les axiomes 6 et 7. Proposition 5. Sous les conditions de la proposition 1, un agent vrie laxiome 8 ssi pour tout support S = (i )iI , pour tout J I , (j J j ) = (j )j J ; pour toute reprsentation smantique des croyances de lagent, pour tout proposition , ( ) = P .
Exemple 2 (Watson (suite)). Si nous reprenons lexmple prcdent, nous constatons que ( I ) = ({2 }) = 1 =0= 2 P I .
[5] Schmeidler, D. (1989), Subjective Probability and Expected Utility without Additivity, Econometrica 57(3), 57187. [6] Tversky, A., Kahneman, D. (1983), Extensional Versus Intuitive Reasoning : The Conjunction Fallacy in Probability Judgment, Psychological Review 90(4), 293315
4 Conclusion
Le cadre formel propos nous permet de reprsenter les prfrences dans lincertain dagents ayant une rationalit cognitive limite. Ceci nous permet de distinguer deux niveaux pistmiques diffrents chez lagent : celui de son savoir, cest-dire ses croyances certaines, et celui de ses degrs de croyance. Avoir une rationalit cognitive parfaite, cest avoir des croyances qui traduisent de lomniscience logique. Traditionnellement en thorie de la dcision, on considre quun agent est rationnel sil est baysien. Nous avons suggr quun agent pouvait tre baysien tout en ayant une rationalit cognitive limite. Ceci revient considrer que la rationalit baysienne est une rationalit dun autre ordre. De fait, les arguments normatifs avancs pour le baysianisme est que seul un agent baysien est rationnel dans un processus de dcision squentiel avec acquisition dinformation. Un objectif futur de nos travaux est de montrer que des axiomes de cohrence dynamique nimpose pas lagent davoir une rationalit cognitive parfaite.
Rfrences
[1] Brian F. Chellas, (1980), Modal logic : an introduction. Cambridge University Press. [2] Geanakoplos, J. (1989), Game Theory Without Partitions, and Applications to Speculation and Consensus, Cowles Foundation Discussion Papers No. 914, Cowles Foundation, Yale University . [3] Hintikka, J. (1975), Impossible Possible Worlds Vindicated, Journal of Philosophical Logic 4(4), 47584. [4] Savage, L. (1972), The Foundations of Statistics, Dover Publications INC., New York.
355
The hedgehog and the fox An argumentation-based decision support system

Maxime Morge morge@di.unipi.it
Paolo Mancarella paolo@di.unipi.it
Dipartimento di Informatica University of Pisa Largo B. Pontecorvo, 3 I-56127 Pisa, Italy Rsum : Nous prsentons dans cet article un Systme dAide la Dcision (SDA). cette intention, nous proposons un cadre dargumentation pour le raisonnement pratique. Celui-ci sappuie sur un langage logique qui sert de stucture de donnes concrte an de reprsenter les connaisances, les buts et les dcisions possibles. Diffrentes priorits y sont associes an de de reprsenter la abilit des connaisances, les prfrences de lutilisateur, et lutilit espre des alternatives. Ces structures de donnes constitue lpine dorsale des arguments. De part la nature abductive du raisonnement pratique, les arguments sont construits partir des conclusions. De plus, nous les dnissons comme des structures arborescentes. De cette manire, notre SDA suggre lutilisateur les meilleures solutions et propose une explication interactive et comprhensible de ce choix. Mots-cls : Intelligence articielle, Raisonnement pratique, Argumentation
1 Introduction
Decision making is the cognitive process leading to the selection of a course of action among alternatives based on estimates of the values of those alternatives. Indeed, when a human identies her needs and species them with high-level and abstract terms, there should be a way to select an existing solution. Decision Support Systems (DSS) are computer-based systems that support decision making activities including expert systems and Multi-Criteria Decision Analysis (MCDA). In this paper, we propose a DSS which suggests some solutions and provides an interactive and intelligible explanation of the choices. In this paper, we present our Decision Support System (DSS). This computer system is built upon an Argumentation Framework (AF) for decision making. For this purpose, we consider practical reasoning as the vehicle of decision making, which is a knowledge-based, goal-oriented, and action-related reasoning. A logic language is used as a concrete data structure for holding the statements like knowledge, goals, and actions. Different priorities are attached to these items corresponding to the reliability of the knowledge, the preferences between goals, and the expected utilities of alternatives. These concrete data structures consist of information providing the backbone of arguments. Due to the abductive nature of practical reasoning, arguments are built by reasoning backwards. Moreover, arguments are dened as tree-like structures. In this way, our DSS
357
Abstract: We present here a Decision Support System (DSS). For this purpose, we propose an Argumentation Framework for practical reasoning. A logic language is used as a concrete data structure for holding the statements like knowledge, goals, and actions. Different priorities are attached to these items corresponding to the reliability of the knowledge, the preferences between goals, and the expected utilities of alternatives. These concrete data structures consist of information providing the backbone of arguments. Due to the abductive nature of practical reasoning, we build arguments by reasoning backwards. Moreover, arguments are dened as tree-like structures. In this way, our DSS suggests some solutions and provides an interactive and intelligible explanation of the choices. Keywords: Articial Intelligence, Practical reasoning, Argumentation
The ___________________________________________________________________________ hedgehog and the fox: an argumentation-based decision support system
suggests some solutions, as other classical approaches, but also provides an interactive and intelligible explanation of this choice. Section 2 presents the principle and the architecture of our DSS. Section 3 introduces the walk-through example. In order to present our Argumentation Framework (AF) for decision-making, we will browse the following fundamental notions. First, we dene the object language (cf Section 4). Second, we will focus on the internal structure of arguments (cf Section 5). We present in Section 6 the interactions amongst them. These relations allow us to give a declarative model-theoretic semantics to this framework and we adopt a dialectical proof procedure to implement it (cf Section 7). Section 8 draws some conclusions and directions for future work.
the agent relies upon an argumentative engine. The system only communicates with the users, i.e. the hedgehog and the fox, and the latter takes the nal decision. On one side, the hedgehog informs the assistant agent in order to structure the decision making problem, to consider the different needs, to identify the alternatives, and to gather the required knowledge. On the other side, the fox can ask for a possible solution (question). The argumentative engine suggests some solutions (assert). The reasons supporting these admissible solutions can be interactively explored (challenge/argue).
3 Walk-through example
We consider here the decision making problem for selecting a suitable business location. The assistant agent is responsible for suggesting some suitable locations, based on the explicit usersneeds and on their knowledge. The main goal, that consists in selecting the location, is addressed by a decision, i.e. a choice between some alternatives (e.g. Pisa or London). The main goal (g0 ) is split into sub-goals and sub-goals of these sub-goals, which are criteria for evaluating different alternatives. The location must offer a good regulation (g1 ) and a great accessibility (g2 ). These are abstract goals, revealing the users needs. The knowledge about the location is expressed with predicates such as : Sea(x) (the location is accessible by sea transports), or Road(x) (the location is accessible by road transports). Figure 1 provides a simple graphical representation of the decision problem called inuence diagram [2]. The elements of the decision problem, i.e. values (represented by rectangles with rounded corners), decisions (represented by squares) and knowledge (represented by ovals), are connected by arcs where predecessors are inde-
2 Principle and architecture

Basically, decision makers are categorized as either hedgehogs, which know one big thing, or foxes, which know many little things [1]. While most of the DSS are addressed to hedgehogs, we want to provide one for both. An hedgehog is an expert of a particular domain, who has intuitions and strong convictions. A fox is not an expert but she knows many different thinks in different domains. She decides by interacting with other and she is able to change her mind. Most of the DSS are addressed to hedgehogs. These computer systems provide a way to express qualitative and/or quantitative judgements and synthesizes them to suggest an action. However the analytic skills needed for good judgments are those of foxes. We want to provide a DSS for the effective management of teams including both hedgehogs and foxes. The current architecture of our DSS based upon an assistant agent. The mind of
358
pendent and affect successors. We consider here a multiattribute decision problem captured by a hierarchy of values where the abstract values (represented by rectangles with rounded corner and double line) aggregate the independent values in the lower levels. While the inuence diagram displays the structure of the decision, the object language reveals the hidden details of the decision making.
Recommended location (g0 )
Regulation (g1 )
Accessibility (g2 )
Taxes (g3 ) Permit (g4 )
Assistance (g5 )
Sewage (g6 )
Transport (g7 )
Decision
exclusive solutions for the decision (e.g. pisa or london) ; a set of beliefs, i.e. some predicate symbols which represent epistemic statements (denoted by words such as Sea, or Road). Since we want to consider conicting goals, mutual exclusive alternatives, and contradictory beliefs in this object language, we need some form of negation. For this purpose, we consider strong negation, also called explicit or classical negation. Since we restrict ourselves to logic programs, we cannot express in a compact way the mutual exclusion between alternatives. For this purpose, we dene the incompatibility relation (denoted by I ) as a binary relation over atomic formulas which is symmetric. Obviously, L I L for each atom L, and D(a1 ) I D(a2 ), a1 and a2 being different alternatives. Denition 1 (Theory) A theory T is an extended logic program, i.e a nite set of rules of the form R : L0 L1 , . . . , Ln with n 0, each Li being a strong literal. The literal L0 , called the head of the rule, is denoted by head(R). The nite set {L1 , . . . , Ln }, called the body of the rule, is denoted by body(R). The body of a rule can be empty. In this case, the rule, called a fact, is an unconditional statement. R, called the name of the rule, is an atomic formula. In the theory, we distinguish : goal rules of the form R : g0 g1 , . . . , gn with n > 0. Each gi is a goal. According to this rule, the head goal is reached if the goals in the body are reached ; epistemic rules of the form R : B0 B1 , . . . , Bn with n 0. Each Bi is a belief literal ; decision rules of the form R : g D(a), B1 , . . . , Bn with n 0. The head of this rule is a goal and the body include a decision literal (D(a))
359
Sea ?
Road ?
F IG . 1 Inuence diagram to structure the decision
4 The object language

Since we want to provide a computational argumentation model of practical reasoning and we want to instantiate it for our simple case study, we need to specify a particular logic. The object language expresses rules and facts in logic-programming style. In order to address a decision making problem, We distinguish : a set of goals, i.e. some propositional symbols which represent the features that the decision must exhibit (denoted by g0 , g1 , g2 , . . . ) ; a decision, i.e. a predicate symbol which represents the action which must be performed (denoted by D) ; a set of alternatives, i.e. some constants symbols which represent the mutually
and a possible empty set of belief literals. According to this rule, the goal can be eventually reached by the decision D(a), provided that conditions B1 , . . . , Bn are satised. Considering statements in the theory is not sufcient to take a decision, since all relevant pieces of information should be taken into account, such as the reliability of knowledge, the preferences between goals, or the expected utilities of the different alternatives. We consider that the priority P is a (partial or total) preorder on T . R1 P R2 can be read R1 has priority P R2 can be read R1 does over R2 . R1 \ not have priority over R2 , either since R1 and R2 are ex quo (denoted R1 R2 ), i.e. R1 P R2 and R2 P R1 , or since R1 and R2 are not comparable, i.e. (R1 P R2 ) and (R2 P R1 ). In this work, we consider that all rules are potentially defeasible and that the priorities are extra-logical and a domain-specic features. The priority of concurrent rules depends of the nature of rules. Rules are concurrent if their heads are the same or incompatible. We dene three priority relations : the priority over goal rules comes from their levels of preference. Let us consider two goal rules R1 and R2 with the same head g0 . R1 has priority over R2 if the achievement of the goals in the body of R1 are more important than the achievement of the goals in the body of R2 as far as reaching g0 is concerned ; the priority over epistemic rules comes from their levels of certainty. Let us consider, for instance, two concurrent facts F1 and F2 . F1 has priority over F2 if the rst is more likely to hold than the second one ; the priority over decision rules comes from the expected utilities of decisions. Let us consider two rules R1 and R2 with the same head. R1 has priority over R2 if the expected utility of the rst conditional decision is greater than the second one.
360
TAB . 1 The goal theory

R012 : g0 g1 , g2 R1345 : g1 g3 , g4 , g5 R267 : g2 g6 , g7 R145 : g1 g4 , g5 R01 : g0 g1 R13 : g1 g3 R26 : g2 g6 R02 : g0 g2 R14 : g1 g4 R27 : g2 g7 R15 : g1 g5
TAB . 2 The epistemic theory

F1 : Road(pisa) F2 : Sea(pisa) F3 : Road(pisa)
In order to illustrate the notions introduced previously, let us go back to our example. The goal rules, the epistemic rules, and the decision rules are represented in Table 1, Table 2, and Table 3, respectively. A rule above another one has priority over it. To simplify the graphical representation of the theories, they are stratied in nonoverlapping subsets, i.e. different levels. The ex quo rules are grouped in the same level. Non-concurrent rules are arbitrarily assigned to a level. According to the goal theory in Table 1, the achievement of both g4 and g5 is required to reach g1 , but this constraint can be relaxed and the achievement of g4 is more important than the achievement of g5 to reach g1 . According to the epistemic theory in Table 2, the assistant agent does not know if London is accessible by sea/road transports. Due to conicting sources of information, the agent has conicting beliefs about the road accessibility of Pisa. Since these sources of information are more or less reliable, F1 P F3 .
TAB . 3 The decision theory

R32 : g3 D(pisa) R41 : g4 D(london) R51 : g5 D(london) R71 (x) : g7 D(x), Sea(x) R31 : g3 D(london) R42 : g4 D(pisa) R52 : g5 D(pisa) R61 : g6 D(london) R62 : g6 D(pisa) R72 (x) : g7 D(x), Road(x)
If L is a ground literal such that there is no rule R in T which can be instantiated in such a way that L = head(R), then the argument, which is built upon this ground literal is dened as follows : conc(A) = L, top(A) = , premise(A) = , supp(A) = {L}, sent(A) = {L}. or 2. a trivial argument built upon an unconditional ground statement. If F is a fact in T , then the argument A, which is built upon the ground instance F g of F , is dened as follows : conc(A) = head(F g ), top(A) = F g , premise(A) = {head(F g )}, supp(A) = , sent(A) = {head(F g )}. or 3. a tree argument built upon an instantiated rule such that all the literals in the body are the conclusion of subarguments. If R is a rule in T , we dene the argument A built upon a ground instance Rg of R as follows. Let body(Rg ) = {L1 , . . . , Ln } and sbarg(A) = {A1 , . . . , An } be a collection of arguments such that, for each Li body(Rg ), conc(Ai ) = Li (each Ai is called a subargument of A). Then : conc(A) = head(Rg ), top(A) = Rg , premise(A) = body(Rg ), supp(A) = A sbarg(A) supp(A ), sent(A) = A sbarg(A) sent(A ) body(Rg ). The set of arguments built upon T is denoted A(T ). As in [5], we consider atomic arguments (2) and composite arguments (3). Moreover, we distinguish supposal arguments (1)
361
According to the decision theory in Table 3, Pisa has a greater expected utility than London to reach g3 . The expected utilities of these alternatives with respect to g7 depends on the knowledge : a location accessible by sea is preferred than a location accessible by road (R71 P R72 ). We will build now arguments in order to compare the alternatives.
5 Arguments
In this Section, we dene and construct arguments by reasoning backwards due to the abductive nature of the practical reasoning. Since we adopt a tree-like structure of arguments, our framework not only suggests some solutions but also provides an intelligible explanation of them. In order to consider the recursive nature of arguments, we adopt and extend the tree-like structure for arguments proposed in [5]. Denition 2 (Argument) An argument has a conclusion, top rules, premises, suppositions, and sentences. These elements are abbreviated by the corresponding prexes. An argument A is : 1. a supposal argument built upon an unconditional ground statement.
and built arguments (2/3). Due to the abductive nature of practical reasoning, we dene and construct arguments by reasoning backwards. Therefore, arguments do not include irrelevant information such as sentences not used to prove the conclusion. Contrary to the other denitions of arguments (pair of premises - conclusion, sequence of rules), our denition considers that the different premises can be challenged and can be supported by composite arguments. In this way, arguments are intelligible explanations. Triples of conclusions - premises - suppositions are simple representations of arguments. Let us consider the previous decision making example. Some of the arguments concluding g7 are the following : B1 = B2 = g7 , (D(pisa), Road(pisa)), ((D(pisa)) ; g7 , (D(pisa), Sea(pisa)), ((D(pisa)) ;
priority relation between the top rules of built arguments. We examine in turn these different sources of interaction. Since sentences are conicting, arguments interact with one another. For this purpose, we dene the attack relation. An argument attacks another argument if the conclusion of the rst one is incompatible with one sentence of the second one. Denition 3 (Attack relation) Let A and B be two arguments. A attacks B (denoted by attacks (A, B )) iff conc(A) I sent(B ). This attack relation, often called undermining attack, is indirect, i.e. directed to a subconclusion. The attack relation is useful to build an argument which is an homogeneous explanation. Due to the nature of argument, arguments are more or less hypothetical.
Denition 4 (Supposition size) Let A be an arguments. The size of suppositions for A, denoted suppsize(A), is dened such that : 1 A = g7 , (D(london), Sea(london)), 1. if A is a supposal argument, then (D(london), Sea(london)) ; suppsize(A) = 1 ; 2. if A is a trivial argument, then suppsize(A) = 0 A2 = g7 , (D(london), Road(london)), 3. if A is a tree argument and (D(london), Road(london)) . sbarg(A) = {A1 , . . . , An } is 1 The tree argument B contains two the collection of subarguments subarguments : one supposal argument of A, then suppsize(A) = ( D(pisa), , (D(pisa))) ) and one trivial A sbarg(A) suppsize(A ). argument ( Sea(pisa), (Sea(pisa)), ). Due to their structure and their nature, Since arguments have different natures arguments interact with one another. (supposal or built) and the top rules of built arguments are more or less strong, they in6 Interactions amongst argu- teract with one another. For this purpose, we dene the strength relation. ments The interactions between arguments may come from their nature, from the incompatibility of their sentences, and from the
362
Denition 5 (Strength relation) Let A1 be a supposal argument, and A2 , A3 be two built arguments.
1. A2 is stronger than A1 (denoted A2 P A A1 ) ; 2. If (top(A2 ) P top(A3 )) (top(A3 ) P top(A2 )), then A 2 P A A3 ; P top(A3 )) 3. If (top(A2 )\ (suppsize(A2 ) suppsize(A3 )) , then A2 P A A3 ; Since P is a preorder on T , P A is a preorder on A(T ). The strength relation is useful to choose (when it is possible) between homogeneous concurrent explanations, i.e. non conicting arguments with the same conclusions. The two previous relations can be combined to choose (if possible) between non-homogeneous concurrent explanations, i.e. conicting arguments with the same conclusion or with conicting conclusions. Denition 6 (Defeats) Let A and B be two arguments. A defeats B (written defeats (A, B )) iff : 1. attacks (A, B ) ; 2. (B P A A). Similarly, we say that a set S of arguments defeats an argument A if A is defeated by one argument in S . By denition, two equally relevant arguments both defeat each other. Let us consider our previous example. The arguments in favor of London (A1 and A2 ) and the arguments in favor of Pisa (B 1 and B 2 ) attack each other. Since the top rule of A1 and B 1 (i.e. R71 ) has priority over the top rule of A2 and B 2 (i.e. R72 ), and suppsize(B 1 ) = suppsize(B 2 ) = 1 and suppsize(A1 ) = suppsize(A1 ) = 2, B 1 (resp. A1 ) defeats A2 (resp. B 2 ) and
B 1 is stronger than A1 . If we only consider these four arguments, the assistant suggest Pisa and justify it with the availability of sea transports. In this section, we have dened the interactions between arguments in order to give them a status. Determining whether a solution is ultimately suggested requires a complete analysis of all arguments and subarguments.
7 Semantics and procedures

We can consider our AF abstracting away from the logical structures of arguments and equip it with various semantics, which can be computed by dialectical proof procedures. Given an AF, [3] denes the following notions of acceptable sets of arguments : Denition 7 (Semantics) An AF is a pair A, defeats where A is a set of arguments and defeats A A is the defeat relationship1 for AF. For A A an argument and S A a set of arguments, we say that : A is acceptable with respect to S S ) iff B (denoted A SA A, defeats (B, A) C S such that defeats (C, B ) ; S is conict-free iff A, B S defeats (A, B ) ; admissible iff S is conict-free and S ; A S, A SA The admissible semantics sanctions a set of arguments as acceptable if it can successfully dispute every arguments against it, without disputing itself. However, there might be several conicting admissible sets. Since a DSS involves an ultimate choice of the user between various admissible set of alternatives, we adopt this semantics. The decision D(a1 ) is suggested iff D(a1 ) is a supposition of one argument
1 Actually, in [3] the defeat relation is called attack.
363
in an admissible set. Let us focus on the goal g6 in the previous example, i.e. on the following theory T = {R62 , R61 }. Since {A3 = g6 , (D(london)), (D(london)) } and {B 3 = g6 , (D(pisa)), (D(pisa)) } are both admissible, Pisa and London must be suggested as different alternatives to reach g6 . Since our practical application requires to specify the internal structure of arguments, we adopt the procedure proposed in [4] to compute admissible arguments. If the procedure succeeds, we know that the argument is contained in a preferred set. We have implemented our AF, called MARGO2 (Multiattribute ARGumentation framework for Opinion explanation). For this purpose, we have translated our AF in an assumption-based AF (ABF for short). CaSAPI3 computes the admissible semantics in the ABF by implementing the procedure proposed in [4]. Moreover, we have developed a CaSAPI meta-interpreter to relax constraints on the goals achievements and to make suppositions in order to compute the admissible semantics in our concrete AF. In this section, we have shown how arguments in the framework can be categorized in order to suggest some solutions.
the reliability of the knowledge, the preferences between goals, and the expected utilities of alternatives. These concrete data structures consist of information providing the backbone of arguments. Due to the abductive nature of practical reasoning, arguments are built by reasoning backwards. To be intelligible, arguments are dened as tree-like structures. Due to their nature, the incompatibility of their sentences, and the priority relation between the top rules of built arguments, the arguments interact with one another. Since a DSS involves an ultimate choice of the user between various admissible set of alternatives, we have adopted an admissible semantics. Future investigations must explore how this proposal scales to drive argumentation-based negotiations.
9 Acknowledgements
This work is supported by the Sixth Framework IST programme of the EC, under the 035200 ARGUGRID project. We would like to thank the anonymous reviewers for their detailed comments on this paper.
Rfrences
[1] Sir Isaiah Berlin. The Hedgehog and the Fox. Simon & Schuster, 1953. [2] Robert Taylor Clemen. Making Hard Decisions. Duxbury. Press, 1996. [3] Phan Minh Dung. On the acceptability of arguments and its fundamental role in nonmonotonic reasoning, logic programming and n-person games. Artif. Intell., 77(2) :321357, 1995. [4] Phan Minh Dung, Paolo Mancarella, and Francesca Toni. A dialectic procedure for sceptical, assumption-based argumentation. In Proc. of COMMA. IOS Press, 2006. [5] Gerard Vreeswijk. Abstract argumentation systems. Art. Intel., 90(12) :225279, 1997.
8 Conclusions
In this paper we have presented a DSS which suggests some solutions and provides an interactive and intelligible explanation of these choices. For this purpose, we have proposed and implemented a concrete AF for some applications of practical reasoning. A logic language is used as a concrete data structure for holding the statements like knowledge, goals, and actions. Different priorities are attached to these items corresponding to
2 https ://margo.sourceforge.net/ 3 http ://www.doc.ic.ac.uk/dg00/casapi.html
364
Interactions Collaboratives en Situations Co-localise et Distante

Alexandre Pauchet Franois Coldefy Liv Lefebvre Stphane Louis Dit Picard Arnaud Bouguet Laurence Perron Jol Guerin Daniel Corvaisier Michel Collobert France Tlcom R&D, 2 Av. Pierre Marzin, 22307 Lannion
[alexandre.pauchet, francois.coldefy]@orange-ftgroup.com
Rsum : Les Mixed Presence Groupware (MPG) dsignent la connexion de plusieurs interfaces partages en vue dune collaboration distante. Nous essayons de rpondre la question suivante : pouvons-nous collaborer efcacement en mdiatisant les interactions par MPG ? An de rduire le foss existant entre interactions distante et co-localise, la plateforme D IGI TABLE a t conue. Une tude des interactions collaboratives durant une tche dassemblage de mosaques sur D IGI TABLE est prsente ici. Bien que D IGI TABLE napporte pas le mme sentiment de prsence en situations distante et colocalise, la collaboration distance ne semble plus entrave par la mdiatisation des interactions. Mots-cls : Interactions mdiatises, collaboration, interfaces partages Abstract: Mixed Presence Groupwares (MPG) are the connection of two or more remote shared interfaces, for distant collaboration. We strive to answer to the question : does the mediation of interaction with MPG enable efcient collaboration ? We propose DigiTable, an experimental platform we hope lessen the gap between co-present and distant interaction. We present an experiment using DigiTable for a collaborative task of mosaic completion. Although DigiTable does not provide the same presence feeling in distant and or co-localized situation, it seems that mediation of interaction does not hinder collaboration anymore. Keywords: Mediation of interaction, collaboration, shared interfaces
sonnelles nest pas adapt la communication verbale directe. Avec les interfaces partages, les donnes sont accessibles tous simultanment et le phnomne de tour si articiel avec les systmes personnels disparat. Lobjectif est de concevoir des interfaces partages qui permettent une collaboration distante de qualit : linteraction distante mdiatise doit se rapprocher de linteraction co-localise. Nous nous intressons aux interactions collaboratives entre groupes distants et aux Mixed Presence Groupware (MPG) [4] (groupe constitu de personnes colocalises et distantes), via la connexion dinterfaces partages distantes. La collaboration distante doit prserver la uidit des interactions et la conscience situationelle qui existe en co-prsence. Suivant les recommandations de Tang et al. [13], nous nous concentrons en particulier sur la visualisation des gestes dun utilisateur distant. Les gestes distants permettent de transmettre des informations indispensables la communication, comme lidentit des actions (qui fait quoi), lintentionnalit (qui a lintention de faire quoi) et la dsignation. Une nouvelle plate-forme collaborative baptise D IGI TABLE est propose ici. Elle combine une table tactile permettant plusieurs utilisateurs dagir simultanment, un systme de communication vido permettant la visualisation taille relle de linterlocuteur distant et le contact visuel, un systme de son spatialis pour transmettre les interactions orales et un module de vision par ordinateur an de reproduire le geste distant. La question souleve dans cet article est la suivante : ce type doutil permet-il de collaborer distance aussi efcacement quen
365
1 Introduction
Lutilisation de systmes de communications mdiatiss permet de limiter le nombre de dplacements professionnels. Cependant, certaines tches sont difciles raliser distance avec la mme aisance quen co-prsence. Il est donc ncessaire de dvelopper des outils gnriques supportant une interaction collaborative de qualit. Le paradigme "une personne, un ordinateur" des interfaces per-
Interactions ___________________________________________________________________________ collaboratives en situations co-localise et distante
co-prsence ? Les situations distante et colocalise sont compares en termes defcacit au cours dune tche collaborative et du sentiment de prsence. Cet article est organis comme suit : la section 2 prsente un tat de lart sur linteraction mdiatise par interfaces partages et la collaboration distante. La section 3 prcise nos objectifs. La section 4 dcrit la plate-forme D IGI TABLE, tandis que la 5 dtaille lexprimentation ralise. Les rsultats de cette exprimentation sont rsums section 6. Enn, la section 7 est consacre aux conclusions et aux travaux futurs.
2 Travaux existants
Le dveloppement dinterfaces partages sappuient sur lmergence de nouvelles surfaces de visualisation (murs-crans, tables-crans, etc.), et sur le dveloppement de systmes entres multiples et indpendantes. En 1993, Pederson et al. [9] proposa Tivoli, tableau blanc lectronique supportant jusqu 3 utilisateurs interagissant simultanment par stylos lectroniques. Stewart et al. [12] dnirent le concept des Single Display Groupware (SDG) : groupe de personnes travaillant sur un mme cran. Une exprimentation a montr que les coliers qui tait propose une application de dessin partag sur PC prfraient nettement limplmentation multi-souris la version monosouris. Beaucoup plus rcemment, Microsoft Research India sest galement empar du problme des interactions multisouris, toujours pour lenseignement, mais dans des pays en voie de dveloppement dont les salles de classes ne disposent que de trs peu dquipements informatiques (un PC pour 10 utilisateur) [8]. Ils ont ainsi propos une application permettant lutilisation simultane de 5 souris. Du point de vue des interactions en groupe, Gutwin analyse la conscience de lespace de travail dans les groupes de travail distants [4]. Tang et al. [13] tendent le concept du SDG au MPG, en connectant
366
ensembles plusieurs SDG situs sur des sites diffrents. Les auteurs se concentrent sur les disparits du sentiment de prsence, induisant une collaboration diffrente entre collaborateurs co-localiss et distants. Ils proposent de personnier les actions distantes laide de tlpointeurs ou dune visualisation du geste distant. Les tables tactiles semblent particulirement adaptes la conception dinterfaces partages car elles permettent le travail simultan de plusieurs collaborateurs, une prise de dcision quitablement rpartie et un accs linformation identique pour tous les participants [10]. Lutilisation de tables tactiles comme dispositif dentres/sorties est un domaine interdisciplinaire mergeant intgrant ralit augmente, visualisation de donnes, interface utilisateur et interaction multi-modale et multi-utilisateurs (voir [1]). Dietz et al. [2] prsentent la Diamond Touch de Merl, une table tactile pour laquelle chaque interaction tactile est identie un utilisateur. Elle permet jusqu 8 utilisateurs dagir simultanment sur la table. Cependant, les actions bi-manuelles et les contacts multiples pour un mme utilisateur sont limits par le matriel qui ne distingue pas les diffrents contacts mais retourne uniquement la bote englobant tous ces contacts. Plusieurs systmes multi-contacts ([5], [6], etc.) existent dsormais mais la Diamond Touch est actuellement la seule table tactile multi-contacts commercialise.
3 Motivations
Cette tude sintresse aux interactions collaboratives entre groupes distants et vise concevoir une plate-forme prservant au mieux les caractristiques du face-face co-localis. Notre approche sappuie sur les travaux de Gutwin [4] sur lanalyse de la conscience de lespace de travail, la conscience situationelle (situational awareness), la communication consquentielle (consequential communication) et larrire plan conversationnel (conversational grounding).
La conscience situationnelle est la reconnaissance des modications de lenvironnement par la perception de lenvironnement et de lactivit des autres utilisateurs. Elle sappuie sur la communication consquentielle, les artefacts de manipulation, et la communication intentionnelle. La communication consquentielle est linformation qui merge de lactivit dune personne. Elle est non intentionnelle et se transmet par la canal visuel (position, mouvements des mains, etc). Les artefacts sont la seconde source dinformation sur les actions courantes (e.g. le son caractristique dune action). Enn, la communication intentionelle, travers la conversation et les gestes, complte les informations communicationnelles. La conscience situationelle permet la mise jour des modles mentaux de lenvironnement et la reprsentation les objets de la tche et des activits. Elle facilite la planication de ce qui doit tre dit ou fait ainsi que la coordination du discours et des actions. Les informations visuelles participent grandement la communication, en permettant aux personnes de sassurer que les messages sont compris correctement, notamment grce aux informations fournies par les expressions verbales (e.g. un marmonnement) ou non verbales (e.g. un hochement de tte). Elles facilitent la constitution dun arrire plan commun et la comprhension mutuelle des interlocuteurs. Il y a trs peu de travaux concernant lapport des informations visuelles sur la ralisation dune tche collaborative. Nous cherchons concevoir une plateforme collaborative qui prserve la conscience situationelle entre groupes distants, an de favoriser une interaction de qualit. La plate-forme D IGI TABLE que nous proposons sarticule autour dune Diamond Touch de Merl [2] comme interface partage. Lutilisation dune table tactile est motive par le fait que linteraction autour dune table est quitablement rpartie entre participants [10]. A cette table tactile sajoutent un systme
de communication vido permettant la visualisation linterlocuteur et un module de vision an de reproduire le geste distant. Ces deux informations visuelles participent, nous lesprons, transmettre des informations visuelles pertinentes favorisant conscience mutuelle et sentiment de prsence. Elles permettent aux utilisateurs didentier prcisment qui fait quoi, et participent ainsi la comprhension et lanticipation des actions des participants distants. La plupart des rgles sociales sont conserves, et les conits involontaires propos de la disponibilit des objets sont vits. Enn, la communication intentionnelle est possible car les participants peuvent pointer vers un objet pour le dsigner ou expliquer une action.
4 La plate-forme D IGI TABLE

D IGI TABLE est une plate-forme combinant une table-cran tactile multiutilisateurs (la Diamond Touch [2]), un systme de communication vido permettant le contact visuel et la visualisation chelle relle de lutilisateur distant, un module de vision par ordinateur pour la visualisation du geste distant et un systme de son spatialis (voir F IG . 1).
F IG . 1 D IGI TABLE intgre une Diamond Touch, un systme de communication vido, un systme de son spatialis et un module de vision par ordinateur. La Diamond Touch de Merl [2] est une
367
dalle tactile passive sur laquelle limage de lapplication informatique est projete par le haut laide dun vido-projecteur (vido-projecteur 1 de la F IG . 1). Le systme de communication vido utilise une camra espion cache dans un panneau de bois servant dcran. Cette camra pointe vers lutilisateur travers un trou de 3mm de diamtre. Un second vido-projecteur (vido-projecteur 2 de la F IG . 1) projette sur lcran la vido capture par la camra cache de faon symtrique sur le site distant. Le contact visuel est garanti en positionnant la camra hauteur des yeux dune personne assise. Le module de vision utilise une camra pointant vers la table. Un processus de segmentation dtecte tout objet plac sur la table en comparant limage capture par la camra et limage projete sur la table du bureau. Il produit un masque des objets dtects extrait de limage de la camra. Ce masque est envoy travers le rseau vers le site distant. A distance, limage est ajoute limage du bureau avant dtre projete sur la table. Ce module de vision est similaire celui utilis dans VideoArms [13], mais probablement plus robuste. La F IG . 2 montre les gestes de 2 utilisateurs et leur reprsentation sur le site distant. Limage en bas gauche montre limage en provenance du site 2 (image en haut droite). Limage en bas droite montre la reprsentation des gestes du site 1 (image en haut gauche).
F IG . 2 Visualisation du geste distant : en haut, vue des tables distantes et en bas, vue des images projetes sur les bureaux. Lapplication concerne lassemblage collaboratif de mosaques. collaboration. Nous nous intressons aussi limpact de lorientation des objets sur la coordination selon la conguration collaborative (cte--cte ou face--face). Les mosaques sont composes de pices carres. Lassemblage de puzzles textuels sur table a dj t tudi par Kruger et al. [7], qui ont observ 3 rles dans lorientation des pices : la comprhension (ex : lecture), la coordination (un espace priv implicite est cr en orientant une pice vers soi) et la communication (lorientation dune pice vers un autre utilisateur en vue dattirer son attention). Nous souhaitons tendre leurs travaux lassemblage de mosaques digitales en situations colocalise et distante mdiatise. En situation co-localise, les utilisateurs sont assis cte--cte au bord dune Diamond Touch, car cest la conguration la plus naturelle pour une tche dassemblage de puzzles. En situation distante, les utilisateurs sont virtuellement face--face, de chaque ct de la table, et utilisent la plateforme D IGI TABLE. Nous pensons que cet arrangement est le plus agrable pour la communication distante car il est compatible avec le systme de communication vido mis en place. De plus, nous suivons en cela les recommandations de Tang [14] pour qui la collaboration face--face appa-
5 tude utilisateur
Une application dassemblage de mosaques a t conue comme tche exprimentale. Les rsolutions collaboratives de mosaques, effectues par 2 utilisateurs en situations distante et co-localise, sont compares. Les objectifs sont de comprendre les effets de la mdiatisation en termes dexprience utilisateur et de critres pertinents comme lefcacit raliser la tche, la progression de lactivit, les accs et lutilisation des ressources et la
368
rat plus adapte pour les interactions verbales et non-verbales. Enn, cette situation correspond une conguration littralement situe [4], i.e. une situation reprsentant littralement (non symbolique) des informations visuelles distantes sur lespace de travail, lendroit o elles se situent. Elle est cohrente avec la manire dont les gens interagissent habituellement, impliquant un mcanisme perceptuel de feedthrough1 , dinformation consquentielle et la communication gestuelle [4]. Lexprimentation ralise est lassemblage en binme de 6 mosaques, 3 en situation co-localise et 3 en situation distante. Les mosaques sont composes de 5x5 pices carres. Pour chaque situation, 3 types diffrents de mosaques sont assembles (abstraite, gurative et textuelle). Une mosaque textuelle reprsente un texte (ici un pome) : lorientation "correcte" de chaque pice est facilement reconnue laide des mots et de la ponctuation. Une mosaque gurative reprsente une scne ou un portrait : lorientation correcte de chaque pice est plus ambigu et peut ncessiter lassemblage de plusieurs pices avant dtre connue. Une mosaque abstraite reprsente une peinture abstraite ou une fractale : la seule contrainte pour les pices est quelles aient toutes la mme orientation la n de lassemblage. Pour rsoudre les mosaques, une application Java a t conue pour fonctionner localement et distance sur des Diamond Touch. Deux actions sont possibles : le dplacement et la rotation. Une pice peut tre dplace le long dune grille invisible en touchant approximativement le centre de la pice concerne et en la faisant glisser sur la table. Une pice peut aussi tre tourne par pas de 90, de faon ce que ses cts restent toujours parallles aux cts de la table. Pour cela, lutilisateur doit slectionner lun des 4 coins de la pice
1 Comme Dix et al. le remarquent [3], quand des objets sont manipuls, cette manipulation transmet des informations de feedback la personne ralisant laction et des informations de feedthrough aux personnes qui observent laction en question.
et lui faire faire un mouvement de rotation. Une indication visuelle est fournie aux utilisateurs pour les informer de laction quils sont en train deffectuer sur la pice (une croix che pour un dplacement et un cercle ch pour une rotation). Durant lassemblage des mosaques, les binmes ont t lms, et leurs actions enregistres (pices touches, types daction - rotation ou dplacement, localisation et orientation de ces pices). 12 binmes de sujets (24 sujets) ont particip cette tude. Un binme tait compos de 2 femmes, 6 binmes de 2 hommes et 5 binmes taient mixtes. Tous les participants taient de catgorie socio-professionnelle leve (Bac+5) et avaient une vision normale ou corrige la normale. Durant lexprimentation, lordre de rsolution des mosaques tait contrebalanc suivant la situation (co-localise ou distante) et le type de mosaque (abstraite, gurative ou textuelle). Les binmes de sujets ont dabord complt individuellement une mosaque dentranement avant lassemblage collaboratif des 6 mosaques.
6 Rsultats
6.1 Mesures objectives
Effet du type de mosaques
Les temps dassemblage des 3 types de mosaques ont t compars laide dune Anova de Friedman et une diffrence signicative a pu tre observe (F(2)=30.3, p<0.001). Les comparaisons post-hoc ont rvl une diffrence signicative dans les temps dassemblage entre chaque paire de mosaques. Les mosaques guratives ont t assembles plus rapidement (M=362s, E.T.=182s) que les mosaques textuelles (M=435s, E.T.=394s). Les mosaques abstraites prenaient le plus de temps (M=565s, E.T.=394s). La mme hirarchie a t observe pour les deux situations, respectivement : (F(2)=7.64, p<0.02) en co-localis et (F(2)=24.33, p<0.001) distance. Les 3 types de mosaques ont aussi t
369
compars du point de vue des actions avec une Anova de Friedman, et une diffrence signicative a pu tre observe (F(2)=33.1, p<0.001). Les comparaisons post-hoc ont permis de faire apparatre une diffrence signicative entre chaque paire de mosaques. Les mosaques textuelles ont t assembles avec moins de rotations (M=29, E.T.=5) que les mosaques guratives (M=59, E.T.=31). Les mosaques abstraites demandaient le plus de rotations pour tre assembles (M=86, E.T.=52). La mme observation a t faite pour les deux situations (co-localise et distante) sparment. Ces diffrences retent la difcult pour trouver la "bonne" orientation des pices des mosaques abstraites par rapport aux autres types de mosaques.
Effet de la situation
zone principale se distingue sur limage gauche F IG . 3). Les interactions se rpartissent tout au long de la rsolution.
F IG . 3 Localisations dominantes des pices durant lassemblage des mosaques. Lorientation dominante des pices de mosaques textuelles est diffrente en situations cte--cte et face--face : dans le premier cas lorientation des pices nest pas conictuelle, tandis que dans le second cas les sujets ngocient pour choisir une orientation qui les satisfasse. Sans aucune surprise, en situation cte--cte, les pices sont majoritairement orientes pour pouvoir tre lues par les deux sujets. En situation face--face, deux stratgies sont utilises de faon quivalente par les sujets : orienter les pices vers un des deux sujets ou bien perpendiculairement. 6.2 Ressenti utilisateur Il a t demand aux sujets de commenter leur vcu de lexprimentation en se concentrant sur lapplication elle-mme et sur les diffrences qui pouvaient exister entre les situations distante et co-localise.
Lapplication dassemblage de mosaques
Pour chaque type de mosaques et pour toutes les mosaques prises ensemble, un test de Wilcoxon (les donnes observes ne suivaient pas de loi paramtrique) a t effectu, qui na rvl aucune diffrence signicative entre les temps dassemblage des mosaques en co-prsence (M=397s, E.T.=221s) et en situation distante (M=441s, E.T.=237s). Pour les mosaques textuelles, aucune diffrence signicative na t observe sur les temps de rsolution, les nombres de rotations et de dplacements entre situations distante et co-localise.
Interactions collaboratives
En situation cte--cte/co-localise, les sujets utilisent une plus grande surface sur la table quen situation face--face/distante (voir F IG . 3) et les stratgies utilises sont diffrentes. En situation cte-cte/co-localise, les sujets commencent par se rpartir la tche et les pices, puis travaillent plutt seuls, avant de runir le fruit de leur travail : 2 zones distinctes se dtachent sur limage de droite. Ils interagissent surtout au dbut et la n de la rsolution. En situation face--face/distante, les sujets travaillent plus souvent ensemble sur la mme zone de la table (une seule
370
A la premire question ("Que pensezvous de lapplication Mosaque ?"), les remarques les plus courantes ont t : Il est parfois difcile de tourner les pices (19 sujets). Il manque le dplacement simultan de plusieurs pices (14 sujets). Il manque la rotation simultane de plusieurs pices (9 sujets). Ces remarques conrment que les binmes de sujets stant rparti les tches et ayant
travaill sparment aurait aim trouver des outils leur permettant de runir plus facilement deux sous-parties de mosaques.
Congurations
A la seconde question ("Pouvez-vous comparer la rsolution de mosaques en situations co-localise et distante ?"), les remarques les plus courantes ont t : Le systme de vido-communication semble inutile, alors que la sonorisation parait indispensable (14 sujets). Le plus gros problme a t la lecture en situation face--face (distante) des mosaques textuelles (13 sujets). La reprsentation du geste distant est intressante car elle amliore la communication et transmet des informations sur les intentions (7 sujets). Les mmes sujets remarquent aussi quil ntait pas toujours vident de distinguer les mains de linterlocuteur (7 sujets). 6 sujets ont trouv lassemblage des mosaques plus plaisant en situation colocalise, 3 en situation distante et 2 sujets ont trouv les 2 situations identiques. Les autres sujets nont pas compar les deux situations en ces termes. En raison de la tche choisie, les sujets navaient pas besoin de parler pour se coordonner. Ils ont donc trouv inutile le systme de vido-communication. Seulement 6 sujets sur 24 prfrent la collaboration en situation co-localise, les autres sont indiffrents dans le pire des cas. Grce la visualisation du geste distant, la collaboration en situations co-localise et distante sont deux expriences diffrentes mais tout aussi valables. Les problmes lis lorientation des pices textuelles en situation face--face sont plus critiques, mais ils ne sont pas dus la mdiatisation des interactions. 6.3 Discussion A partir des rsultats issus de mesures objectives, aucune diffrence signicative na pu tre mise jour entre les situations distante et co-localise, aussi bien
en considrant les temps de rsolution, les types de mosaques et les actions sur les pices. La collaboration entre deux groupes distants sur une tche dassemblage de mosaques semble tre aussi efcace que la collaboration co-localise. Cependant, les congurations distantes et co-localises diffrent en terme de couplage. Le couplage (coupling) [11] qualie le degr de collaboration entre personnes. Cela peut aller du couplage faible quand deux personnes travaillent sans avoir besoin de se transmettre dinformation, jusquau couplage fort quand ils doivent collaborer. Ces diffrences observes dans lexprimentation peuvent tre dues la conguration spatiale (cte-cte vs. face--face) ou la mdiatisation de linteraction (co-localis vs. distant). En situation cte--cte, les sujets ont tendance se gner dans la manipulation et laccs aux pices. Cela favorise une premire phase durant laquelle les sujets essaient dassembler chacun une partie indpendante de la mosaque (couplage faible). Un tel couplage est limit par le fait que lapplication ne facilite pas la runion de deux sous-parties dune mme mosaque : il nest pas possible de dplacer et de tourner en une seule fois un groupe de pices. Du point de vue du ressenti utilisateur, le sentiment de prsence est radicalement diffrent entre situations distante et colocalise. Cela peut tre d au fait que D I GI TABLE respecte bien la plupart des recommandations de Gutwin propos de la conscience de lespace de travail (des outils sont fournis pour transmettre la communication intentionnelle et consquentielle), mais peu defforts ont t faits concernant les artefacts et le feedthrough. La visualisation du geste distant manque aussi de substance, d"incarnation". La prsence du partenaire distant est souvent ressentie de manire abstraite, trop immatrielle. Elle pourrait tre amliore en ajoutant une sonorisation lie la manipulation des pices comme feedthrough an dincarner un peu plus les actions.
371
7 Conclusion et travaux futurs

Dans le cadre de la conception dune plateforme collaborative, D IGI TABLE combine une table tactile, un systme de vido communication, un systme de son spatialis et un module de vision an de reprsenter le geste distant. Une premire valuation de D IGI TABLE a t faite sur une tche collaborative dassemblage de mosaques. Bien que D IGI TABLE ne fournisse pas le mme sentiment de prsence en situations distante et co-localise, la mdiatisation des interactions semble ne plus tre un frein lefcacit de la collaboration. Collaborations co-localise et distante sont deux expriences part entire avec leurs qualits et dfauts propres, certains exprimant spontanment leurs prfrences pour lune ou lautre des congurations. De plus amples exprimentations sont nanmoins ncessaires pour conclure sur linuence de chaque paramtre sur les stratgies de collaboration et sur linteraction. D IGI TABLE ncessite quelques perfectionnements techniques pour augmenter le sentiment de prsence : amliorer la qualit de la vido et du son, augmenter lopacit de la reprsentation des mains et prendre en compte de feedthrough comme les bruits de frottement. En ce qui concerne lapplication dassemblage de mosaques, les problmes concernant la rotation des pices peuvent tre solutionns en augmentant la surface ddie la dtection de loutil de rotation. Enn, cette application doit pouvoir supporter la cration de conteneurs permettant de dplacer ou tourner un ensemble de pices simultanment, an de pouvoir fusionner deux sous-parties de mosaques assembles sparment. Ce dernier point devrait amener davantage de couplage faible durant la tche collaborative. Une nouvelle srie dexprimentation est actuellement en cours, maintenant que toutes ces amliorations techniques ont t intgres. Le rle de la communication vido et limportance de la visualisation
372
des mains sur le site distant doivent aussi tre valus par des critres objectifs, ainsi que leur inuence mutuelle. Limpact de la conguration collaborative (face--face vs. cte--cte) selon la situation (distante vs. co-localie) doit tre tudi.
Rfrences
[1] Tabletop 2006, Adelaide, Australia. IEEE Computer Society, 2006. [2] P. H. Dietz and D. Leigh. Diamondtouch : A multi-user touch technology. In UIST, 2001. [3] A. Dix, J. Finlay, G. Abowd, and R. Beale. Human-Computer Interaction. 1993. [4] C. Gutwin and S. Greenberg. A descriptive framework of workspace awareness for realtime groupware. Computer Supported Cooperative Work, Special Issue on Awareness in CSCW, 11, 2002. [5] J. Han. Low-cost multi-touch sensing through frustrated total internal reection. In UIST, 2005. [6] G. Hollemans, T. Bergman, V. Buil, K. van Gelder, M. Groten, J. Hoonhout, T. Lashina, E. van Loenen, and S. van de Wijdeven. Entertaible : multi-user multi-object concurent input. In UIST, 2006. [7] R. Kruger, S. Carpendale, S. Scott, and S. Greenberg. How people use orientation on tables : comprehension, coordination and communication. In GROUP, 2003. [8] U. S. Pawar, J. Pal, and K. Toyoma. Multiple mice for computers in education in developing countries. In ICTD, 2006. [9] E. R. Pederson, K. McCall, T. P. Moran, and F. G. Halasz. Tivoli : an electronic whiteboard for informal workgroup meeting. In interCHI, 1993. [10] Y. Rogers and S. E. Lindley. Collaborating around vertical and horizontal large interactive displays : which way is best ? Interacting with Computers, 6, 2004. [11] T. Salvador, J. Scholtz, and J. Larson. The denver model for groupware design. SIGCHI Bulletin archive, 28, 1996. [12] J. Stewart, B. B. Bederson, and A. Druin. Single display groupware : a model for copresent collaboration. In CHI, 1999. [13] A. Tang, C. Neustaedter, and S. Greenberg. Videoarms : embodiments in mixed presence groupware. In BCS-HCI, 2006. [14] J. C. Tang. Findings from observational studies of collaborative work. Int. Journal of Man-Machine Studies, 34(2), 1991.
Un dialogue de persuasion pour laccs et lobtention dinformations

L. Perrussel S. Doutre J.-M. Thvenin P. McBurney
IRIT - Universit Toulouse 1 2 rue du doyen Gabriel Marty 31042 Toulouse Cedex 9 France {laurent.perrussel,sylvie.doutre,jean-marc.thevenin}@univ-tlse1.fr
Dpt. of Computer Science - University of Liverpool Liverpool L693BX United Kingdom p.j.mcburney@csc.liv.ac.uk
Rsum : Obtenir une information peut savrer essentiel pour des agents autonomes dans laccomplissement de leurs buts. Les agents sont pour cela amens dialoguer avec dautres agents pour demander et obtenir cette information. Or son accs peut tre contrl et ncessiter une permission, que seuls certains agents sont autoriss donner ou non. Dans le cas o un agent na pas lautorisation daccder une information, il doit pouvoir essayer de convaincre lagent contrleur de laccs de changer de position et de lui donner cette autorisation. Pour reprsenter une telle situation, nous proposons un protocole de dialogue de recherche dinformation faisant appel de la persuasion base sur largumentation pour obtenir une permission. Ce protocole est bas sur un systme dargumentation o chaque agent possde une notion dacceptabilit spcique. Mots-cls : Dialogue, argumentation, permission
1 Introduction
Cet article montre comment deux agents, un client et un serveur, peuvent dialoguer de telle sorte que le client essaie dobtenir laccs une information possde par le serveur, alors que le serveur essaie de convaincre le client quil ne peut pas lui donner cet accs. Un dialogue dans ce contexte peut tre vu comme tant bas sur lchange darguments et de contrearguments dans le but de dterminer si une permission daccs peut tre octroye ou non. Les arguments avancs par un agent reprsentent son propre point de vue, autrement dit ce sont des arguments quil juge acceptables. Des systmes dargumentation permettant de prendre en compte des points de vue multiples ont dj t proposs ([1, 2] par exemple), et les dialogues bass sur largumentation pour la recherche dinformation et la persuasion ont dj fait lobjet de nombreuses tudes ([11, 9, 12, 13] par exemple). Par contre, trs peu de travaux se sont intresss au problme de recherche dinformation dans le cas o laccs celle-ci requiert une permission ([3, 5]). De plus, parmi ces travaux, aucun ne dcrit un lien explicite entre permissions et arguments pour ou contre ces permissions. Ce lien est pourtant essentiel pour justier pourquoi laccs une information est ou nest pas autoris. Dans cet article, nous dcrivons de ma373
Abstract: Obtaining relevant information is essential for agents engaged in autonomous, goal-directed behavior. To this end, agents have to dialog with other agents to request and get this information. However, access to information is usually controlled by other agents. In the situation where an agent is not allowed to access some information, it may try to convince the agent that controls the access to change its mind and give it the permission. To represent such situations, we design a protocol for dialogs between two autonomous agents for seeking and granting authorization to access some information. This protocol uses argumentation-based persuasion. It is based on an argumentation framework where agents handle specic acceptability over arguments. Keywords: Dialogue, argumentation, permission
Un ___________________________________________________________________________ dialogue de persuasion pour l'accs et l'obtention d'informations
nire informelle un protocole de recherche dinformation qui fait appel un protocole de persuasion pour obtenir la permission daccder linformation (voir [10] pour une description formelle). Ce protocole fait apparatre un lien explicite entre permissions et arguments. De plus, les arguments changs par le client et le serveur sont slectionns et valus en fonction de leur propre notion dacceptabilit. Larticle est organis comme suit : la section 2 prsente comment lier permissions et arguments. La section 3 dcrit la syntaxe et les rgles du protocole de dialogue. Nous concluons larticle en section 4.
rait se donner lui-mme (ou dautres agents) des permissions sur des informations sur lesquelles il na aucun contrle. Nous reprsentons cette notion de contrle par une fonction control qui associe agents et informations : control : Ag 2Inf . Formellement, le lien entre permission et contrle est le suivant : pour tous les agents y et x, perm(y, x, ) control(y ). 2.2 Systme dargumentation Le systme dargumentation sur lequel vont se baser nos dialogues doit permettre aux agents de partager un mme ensemble darguments, et une mme vision des interactions entre arguments. Linteraction considre ici est une relation de contrarit. De plus, chaque agent z doit tre capable de dterminer quels sont, de son point du vue, les arguments acceptables (caractriss par une fonction acceptable(z )) ; ce sont ces arguments que z utilisera pour contrer, si ncessaire, les arguments avancs par les autres agents dans un dialogue. Les arguments et la relation de contrarit peuvent tre reprsents de manire classique en utilisant le systme dargumentation de Dung [7]. Dans ce systme, la structure interne et lorigine des arguments, tout comme la relation de contrarit, sont abstraites. Ce niveau dabstraction rend le systme sufsamment gnral pour tre instanci dans diffrents contextes (voir par exemple [4]). Pour reprsenter les diffrents points de vue concernant lacceptabilit des arguments, un manire simple consiste utiliser diffrentes relations de prfrence entre arguments. Le travail de [1] est une extension du systme de Dung qui montre comment combiner plusieurs relations de prfrence en une seule, dans le but de caractriser les arguments acceptables du systme rsultant. Ne cherchant pas unier les diffrents points de vue des agents,
2 Permissions et arguments
Dans cette section, nous prsentons les concepts de droit daccs (ou permissions) et dargumentation, sur lequels se base notre protocole de dialogue. Nous introduisons quelques notations prliminaires. Soit Ag lensemble des identiants (id) dagents. Un id dagent est reprsent par une lettre romaine en minuscule (x, y , ...). Linformation demande est reprsente par une lettre grecque en minuscule (, ...). Inf dnote lensemble de toutes les informations possibles. Un argument est reprsent par une lettre romaine en majuscule (A, B ...). 2.1 Permissions daccs La permission quun agent x a daccder une information est dnote par une fonction perm(y, x, ) : perm(y, x, ) = 1 (resp. 0) signie que lagent y peut donner (resp. ne peut pas donner) accs lagent x au contenu de linformation . La notion de permission est intimement lie celle de contrle. Un agent ne peut dnir une permission sur une information que sil en contrle effectivement laccs. Si tel ntait pas le cas, un agent pour374
cette approche nest pas approprie pour nos dialogues. [2] a prsent une autre extension du systme de Dung o des valeurs (au sens de valeur morale, thique, ...) sont associes aux arguments et o chaque agent dnit sa propre relation de prfrence entre les valeurs (et ainsi entre les arguments) ; chaque agent dtermine ensuite quels sont ses arguments acceptables en fonction de ses prfrences. Lutilisation des valeurs donne indniablement du sens lorigine des prfrences des agents, mais ce besoin de sens nest pas ncessaire dans notre approche. De manire gnrale, la dnition de lacceptabilit pour un agent dpendra des politiques daccs. Par exemple, dans un contexte o linformation est sensible, la notion dacceptabilit sera restrictive (la smantique dacceptabilit basique de [7] irait dans ce sens), alors que des notions dacceptabilit plus souples (par exemple la smantique prfre de [7]) pourront tre considres dans dautres contextes. Dans cet article, nous ne prsentons pas en dtail un systme dargumentation et une notion dacceptabilit qui satisfont les spcications nonces ci-dessus ; nous invitons le lecteur consulter [10] pour une prsentation dtaille. 2.3 Lier arguments et permissions Le lien entre permission et argument est dni comme suit : une permission argumente est un tuple A, y, x, , o A est un argument, y et x sont des ids dagents, est une information et est une valeur de permission ( {0, 1}). A, y, x, , signie que lagent y possde largument A en faveur de ( = 1) ou contre ( = 0) loctroi de la permission lagent x daccder linformation . Une permission dnie par un agent y pour un agent x et une information est consistante avec un ensemble de permissions ar-
gumentes si les deux conditions suivantes sont satisfaites : (i) deux arguments A et B qui se contrarient ne peuvent tre simultanment en faveur (ou contre) loctroi de la permission, et (ii) il existe une permission argumente A, y, x, , telle que A appartient acceptable(y ).
3 Dialogue de persuasion pour loctroi dune permission

Dans cette section, nous dcrivons un systme de dialogue pour lobtention dune information qui ncessite une permission, et qui fera pour cela appel de la persuasion. 3.1 Dnition Nos dialogues impliquent deux participants : un Client (qui demande linformation), et un Serveur (qui contrle laccs linformation). Avant quun dialogue ne dbute, le Client a pour but dobtenir du Serveur toutes les informations dont il a besoin, en utilisant la persuasion si ncessaire. Le Serveur a lui pour but de fournir au Client linformation quil demande en fonction des permissions qui lui sont associes. Le Client et le Serveur peuvent avoir des bases de connaissances disjointes. La base de connaissance du Serveur inclue des permissions argumentes relatives chaque Client pour diverses informations. Lensemble des locutions dun dialogue doit permettre douvrir et de fermer le dialogue, de demander de linformation, de fournir le contenu dune information demande, dindiquer que le contenu dune information ne peut tre fourni, et dargumenter sur les permissions relatives une information demande. Ces locutions peuvent tre bases sur les standards de la FIPA [8].
375
Un dialogue est une structure qui combine des permissions, un systme dargumentation, un ensemble de permissions argumentes, et une squence de locutions. 3.2 Protocole Nous prsentons maintenant de manire informelle un protocole pour nos dialogues de recherche dinformation avec permissions (voir [10] pour une description formelle). Aprs avoir ouvert le dialogue, le Client (id x) demande au Serveur (id y ) une information . Plusieurs cas de gure se prsentent : Si le Serveur contrle effectivement laccs , et si le Client a la permission dy accder, le Serveur doit fournir le contenu de au Client ; le dialogue est ensuite ferm par le Client ou le Serveur. Si le Serveur ne contrle pas laccs , il doit fermer le dialogue. Le cas qui nous intresse le plus ici est celui o le Serveur contrle laccs , mais o le Client na pas la permission daccder ; il existe donc dans la base de connaissance du Serveur une permission argumente A, y, x, , 0 . Le Serveur doit alors indiquer au Client quil refuse de lui fournir le contenu de et explique son refus en avanant largument A. Suite ce dernier cas, une tape de persuasion base sur largumentation commence. Le Client va essayer de convaincre le Serveur de lui donner la permission daccs, alors que le Serveur va essayer de convaincre le Client quil ne peut changer la permission. Dans ce but, Client et Serveur vont prsenter des arguments acceptables selon leur point de vue pour contrecarrer les arguments de leur opposant. Concentrons-nous dans un premier temps sur lattitude du Client lorsquil reoit un
376
argument du Serveur. Le Client x considre tout dabord tous les arguments de acceptable(x) qui attaquent largument reu et les prsente comme contre-arguments au Serveur. Si largument reu appartient acceptable(x), et si pour tout argument envoy par le Serveur, le Client x a prsent tous les contre-arguments possibles, alors le dialogue se termine ; le Client na pas pu convaincre le Serveur de changer la permission, il ne pourra donc pas accder au contenu de linformation . Concentrons-nous prsent sur lattitude du Serveur. Le principe est similaire celui du Client : le Serveur prsente au Client tous les arguments quil possde pour le convaincre quil ne lui donnera pas la permission daccder linformation. Plus prcisment : Le Serveur y considre tous les arguments de acceptable(y ) qui attaquent largument reu et les prsente au Client. Si y ne peut prsenter de tels arguments, il prsente tous les arguments A des permissions argumentes A, y, x, , 0 . Une fois que tous les arguments des permissions argumentes ont t prsents, que tous les arguments prsents par le Client ont t contrs, alors le Serveur doit valuer lensemble des arguments envoys par le Client. De cette valuation, soit le Serveur dcide de changer la permission (et fournit le contenu de linformation au Client), soit il reste sur sa position. Le dialogue se termine ensuite. 3.3 Persuasion et mise--jour des permissions Nous proposons deux manires pour le Serveur y dvaluer lensemble des arguments envoys par le Client : Prudence Si lun des arguments avanc
par le Serveur na pas t contr par le Client, alors le Serveur conserve une raison de ne pas changer la permission. Il reste sur sa position. Conance Si lun des arguments prsent par le Client appartient acceptable(y ), i.e. est acceptable pour le Serveur, et si cet argument napparat dans aucune permission argumente contre la permission, alors le Serveur considre quil a une bonne raison de changer la permission. Dans ce dernier cas, le Serveur change lensemble des permissions argumentes de manire ce que la permission quil vient daccorder soit consistante. Concrtement, tout argument A envoy par le Client qui est acceptable du point de vue du Serveur fait lobjet de lajout dune nouvelle permission argumente A, y, x, , 1 . 3.4 Terminaison Les rgles qui viennent dtre dcrites garantissent que les dialogues de notre systme sont bien forms. A la n de ces dialogues, le contenu de linformation est dvoil au Client : soit parce que le Client possdait la permission daccder au contenu de avant mme le dbut du dialogue, soit sinon parce que par lchange darguments et de contre-arguments relatifs des permissions argumentes, le Serveur a t convaincu de changer la permission du Client pour quil accde au contenu de .
lien explicite entre arguments et permissions pourquoi un agent accepte ou non de donner une information sujette permission. Deuximement, nous avons propos une classe de dialogues spcique, les dialogues pour lobtention dune information qui ncessite une permission ; ces dialogues permettent de caractriser deux modes de changement de permission (prudence et conance). Ce protocole peut tre utilis avec diffrents systmes dargumentation. Une formalisation de ce protocole, utilisant un systme dargumentation bas sur des prfrences multiples, est prsente dans [10]. Un tel protocole pourrait tre implment suivant la mthode propose dans [6]. Pour la suite, nous envisageons de rafner le protocole pour prendre en compte une notion de conance : si un client est capable de convaincre un serveur de lui donner la permission daccder une information, alors ce rsultat peut jouer le rle dun argument en faveur du client pour accder dautres informations ; le dialogue de persuasion peut tre vu comme une preuve de conance.
Remerciements
Peter McBurney est reconnaissant pour le soutien du projet europen Argumentation Service Platform with Integrated Components (ASPIC) (IST-FP6-002307). Laurent Perrussel est reconnaissant pour le soutien du projet ANR Social trust analysis and formalization (ForTrust).
Rfrences
[1] L. Amgoud, S. Parsons, and L. Perrussel. An Argumentation Framework based on contextual Preferences . In Proc. of FAPR00, London, pages 5967, January 2000. [2] T. J. M. Bench-Capon. Persuasion in practical argument using value-based
377
4 Conclusion
Nous avons prsent un systme de dialogue pour lobtention dune information ncessitant une permission daccs. Notre contribution est double. Premirement, nous avons reprsent travers un
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
argumentation frameworks. J. Log. Comput., 13(3) :429448, 2003. G. Boella, J. Hulstijn, and L. van der Torre. Argument games for interactive access control. In Proc. of WI 2005, pages 751754. IEEE CS, 2005. A. Bondarenko, P. M. Dung, R. A. Kowalski, and F. Toni. An abstract, argumentation-theoretic approach to default reasoning. Artif. Intell., 93 :63101, 1997. P. Dijkstra, F.J. Bex, H. Prakken, and C.N.J. De Vey Mestdagh. Towards a multi-agent system for regulated information exchange in crime investigations. Articial Intelligence and Law, 13 :133151, 2005. S. Doutre, P. McBurney, and M. Wooldridge. Law-governed linda as a semantics for agent dialogue protocols. In AAMAS, pages 12571258, 2005. P.M. Dung. On the Acceptability of Arguments and its Fundamental Role in Nonmonotonic Reasoning, Logic Programming, and N-Person games. Articial Intelligence, 77(32) :321 357, 1995. FIPA. FIPA, Agent communication language, FIPA 97 Specication, Foundation for Intelligent Physical Agents edition, 1997. S. Parsons, M. Wooldridge, and L. Amgoud. Properties and complexity of some formal interagent dialogues. J. Log. Comput., 13(3) :347376, 2003. L. Perrussel, S. Doutre, J.-M. Thvenin, and P. McBurney. A Persuasion Dialog for Gaining Access to Information. In ArgMAS 2007, 2007. H. Prakken. Coherence and exibility in dialogue games for argumentation. J. Log. Comput., 15(6) :1009 1040, 2005.
[12] I. Rahwan, S. Ramchurn, N. Jennings, P. McBurney, S. Parsons, and L. Sonenberg. Argumentation-based negotiation. The Knowledge Engineering Review, 18 :343375, 2003. [13] D. Walton and E. Krabbe. Commitments in Dialogue : Basic Concepts of Interpersonal Reasoning. SUNY Press, 1995.
378
Autour du problme du consensus

Clment PIRA Clement.Pira@lip6.fr Amal El Fallah Seghrouchni Amal.ElFallah@lip6.fr
Laboratoire dInformatique de Paris 6 Universit Pierre et Marie Curie 104, avenue du Prsident Kennedy 75016 Paris FRANCE Rsum : Dans ce papier, le problme datteinte de consensus est tudi relativement trois domaines : la dcision collective, la thorie des jeux et lalgorithmique rpartie. Le premier domaine tudie les conditions gnrales dexistence dun consensus (i.e. existence de fonctions dagrgation). Les deux autres tentent den comprendre la dynamique. Il en ressort deux problmatiques de limplmentation : 1) pour lalgorithmique rpartie, il sagit de sassurer de la diffusion sufsante de la connaissance au sein dun systme pouvant par exemple tolrer les fautes (rpartition) ; 2) pour la thorie des jeux, il sagit de trouver une correspondance entre quilibre stratgique et optimum social (comptition). De notre point de vue, le consensus multiagent runit ces deux problmes, do le besoin de dvelopper un cadre commun aux deux domaines. Mots-cls : Agent, consensus, rpartition Abstract: In this paper, the consensus problem is studied through three elds : collective decision, game theory and distributed algorithmic. We identify two implementation problems : 1) in distributed algorithmic, we have to deal with communications and processes faults (distribution) ; 2) in game theory, we want to nd an equilibrium which might be different from the optimal solution (competition). A model for multiagent system is presented as a compromise between models from game theory and distributed algorithmic. Keywords: Agent, consensus, distribution
la croise entre les modles de thorie des jeux (permettant de capturer la notion de rationalit et de comptition) et les modles dalgorithmique rpartie (insistant plus sur les proprits de cohrence et de terminaison, travers ltude des mcanismes tels que la communication ou la synchronisation). Nous tentons ainsi den prsenter les points communs et les diffrences profondes. Dans le domaine multiagent, les modles de thorie des jeux sont bien connus (les dcisions au sein dun SMA sont en effet labores par des agents possdant des intrts individuels quil faut respecter lors du passage la rationalit collective). Cependant, ils permettent surtout de donner une description de haut niveau du comportement dun systme. A plus bas niveau interviennent des problmes tudis par linformatique rpartie et gnralement moins connus.
Problme de limplmentation. Lapproche classique de la dcision collective fait intervenir la notion de fonction dagrgation F : X A X et cherche par exemple ramener cette fonctionnelle une intgrale de Choquet (ou un polynme latticiel) pondre par un jeu coalitionnel (un jeu simple). Ce jeu reprsente le poids donn aux coalitions dagents. On dmontre ainsi des thormes la Riesz tablissant des bijections entre des classes de jeux coalitionnels (structures dcisionnelles) et des types de fonctions dagrgations [4, 1] :
1 Introduction
Lobjectif de ce papier1 est de proposer un modle permettant dtudier le problme du consensus dans les systmes multiagents. Selon nous, les modles oprationnels de SMA se trouvent
Objectif.
1 Ce travail est nanc par la DGA
x (C ) x d
A
379
Autour ___________________________________________________________________________ du problme du consensus
A un niveau plus abstrait, il sagit dtudier la possibilit dagrger des donnes en fonction de la topologie de lespace sousjacent [2]. Cependant, une fonction dagrgation nest pas une implmentation. Nous distinguons en particulier deux problmatiques dimplmentation associes la concurrence : La distribution : Pour raliser une procdure de dcision dans un systme rparti, on est confront aux problmes de la transmission imparfaite de linformation ou encore aux dfaillances du systme. La difcult supplmentaire concerne ici la distribution asynchrone. La comptition : En thorie des jeux, implmenter cest raliser un choix collectif pour lequel on connait une solution optimale par un ensemble dagents individualistes (mecanism design). Dans ce cas, cest la notion dquilibre qui prvaut. Et elle ne correspond par la notion doptimum, do des situations paradoxales de type dilemme du prisonnier. La difcult, cest la comptition.
latteinte dun accord : tous les agents corrects dcident la mme valeur ; la terminaison du processus : tous les agents corrects nissent pas dcider. Le dfaut de cette approche, lorsquon lapplique aux systmes multiagents, est la faible rationalit impose cette tche de consensus. Gnralement on impose une condition dunanimit (si tous les processus sont daccord initialement, alors leur valeur doit tre choisie collectivement), bien plus faible que celles classiquement imposes une fonction dagrgation en thorie de la dcision. La thorie de la dcision et linformatique rpartie sont toutes deux confrontes des rsultats dimpossibilit. Notre but est ainsi de comprendre les compromis faire entre cohrence, terminaison et rationalit, pour garantir lexistence de protocoles implmentant certaines tches de dcision.
2 Modle propos
Le modle propos repose sur diffrents composants. Certains dentre eux, comme la reprsentation des stratgies, sinspirent doutils classiques en thorie des jeux, alors que dautres sinspirent des concepts issus de lalgorithmique rpartie comme lexcution asynchrone ou encore la communication. Soit un ensemble de congurations (reprsentant les tats du systme dans sa globalit2 ) et A un ensemble dactions pouvant sy produire permettant ainsi de passer dune conguration une autre. Soit nalement 0 une conguration initiale et : A P () une fonction de transition non dterministe entre congurations. La raction du systme dans sa globalit est ainsi dcrite par , 0 , gnralement un automate , A,
Raction du systme.
2 Aucun nagent naura accs lintgralit de cet tat.
La distribution et la comptition ont conduit deux types de solutions rpondant deux grandes problmatiques : celle de la cohrence globale du systme et celle de la rationalit collective. Dans les deux cas, il faut dvelopper un modle de la dynamique du systme. Cependant un modle de thorie des jeux insistera plus sur la reprsentation de la rationalit individuelle des agents tout en limitant la modlisation de lenvironnement ou du systme de communication tandis quun modle dinformatique rpartie prendra le point de vue inverse.
Problme du consensus. Linformatique rpartie tudie galement des tches de dcision ; en particulier des tches de consensus T : X A P (X ). Cependant il importe ici avant tout de garantir :
380
un arbre enracin en 0 (arbre de dcision ou arbre de synchronisation en fonction du domaine). Si a A est une action sappliquant une conguration conduisant une conguration , on notera :
a
Ordonnancement
gnralis.
Actions simultanes ou alternes. Le modle dactions collectives le plus simple est celui des actions simultanes. Dans ce cas on dnit A = A A (une action globale est un vecteur dactions individuelles). Le but pour un agent est de dnir une stratgie dterministe s : A (ou stochastique s : (A )). Ensuite, dans une conguration donne, chaque agent droule sa stratgie et propose ainsi une action. Le vecteur dactions est ensuite appliqu au systme qui ragit et produit une nouvelle conguration .
(s ( ), ,sn ( ))
En thorie des jeux, on parle de jeux synchrones et asynchrones pour dsigner les modles dactions simultanes et alternes. Nous nadopterons pas cette dnition dans la mesure o lon souhaite faire le lien avec les modles dalgorithmique rpartie. En effet, dans ce domaine, lasynchronisme fait rfrence labsence de temps global, dhorloges ou de deadlines ; et dans ce sens les modles de thorie des jeux sont toujours synchrones.
Un autre modle est celui des actions alternes (et donc srialises). Dans ce cas on dnit A = A A (une action globale est un couple compos dun agent et de laction quil propose). Il faut alors dcider qui peut prendre une dcision et quand. Un modle simple est dassocier un dcideur par conguration, au moyen dune fonction ag : A, ce qui revient partitionner en ( )A . Chaque agent doit alors proposer une stratgie s : A . Dans une conguration , lagent qui a la main droule sa stratgie. Laction ainsi produite sapplique au systme qui ragit pour donner une nouvelle conguration.
(ag( ),sag() ( ))
Pour dnir une notion de jeu rellement asynchrone, on commence par gnraliser la notion daction. Entre les deux extrmes donns par les modles dactions simultanes et alternes, on peut dnir un modle pour lequel, dans une conguration donne, un sous-ensemble des agents est autoris agir. Ils produisent donc une action partielle valeur dans A = A[A] = A (A + ) (3 ). Dautre part, plutt que de xer les agents ayant le droit dagir au niveau de chaque conguration, on dnit sparment un ordonnancement comme une suite de sous-ensembles dagents ayant le droit dagir. On note = P (A)N lensemble des ordonnancements (schedules). Soit g un but (une conguration dsire par les agents) et soit S P (A) un sous-ensemble dagents. Si tout chemin depuis la conguration initiale 0 jusqu ce but g contient un sous-chemin dune longueur xe faisant intervenir simultanment tous les agents de S , cela exprime le fait que les agents de S doivent dune certaine manire se synchroniser au moins une fois lors de lexcution sils souhaitent atteindre ce but g ; et donc que le problme na pas de solution en asynchrone. En particulier, dans un systme asynchrone, toute suite dactions doit pouvoir tre srialise. La synchronisation est
3 X + dsigne lensemble X augment dun lment supplmentaire .
381
une composante essentielle de la coordination. Cest mme une condition minimale pour quun groupe dagents puisse agir comme un seul. Gnralement, elle est suppose acquise en thorie des jeux qui se focalise sur une coordination de plus haut niveau (coordination des intrts des agents). Cependant, dun point de vue pragmatique, ce type de coordination est impossible sans un accord pralable sur le temps (quand peut-on agir ? quand prend n la dcision ? etc.).
Notre modle est similaire aux modles dautomate entre/sortie [8] dans le sens o il permet de modliser une communication impliquant un metteur et un rcepteur au moyen dactions dmission sur un canal. Cependant ces canaux nous servent ensuite rednir nement la notion dtat puis de conguration du systme. Finalement, le modle dexcution dun agent se rapproche plus de la notion de stratgie comportementale dveloppe en thorie des jeux.
Dautre part, il savre galement ncessaire de dcrire plus nement le systme. Classiquement en thorie des jeux, la raction du systme est dcrite comme un tout (une foncpar une relation de transition tion ) ; et les agents sont dcrits principalement par leur stratgie comportementale s et par leur vision du systme (fonction de projection dcrite plus loin). Ils nont pas dtats internes partir desquels la conguration globale peut tre calcule. Dans un modle de systme rparti, le point de vue est radicalement oppos : lvolution dun agent est dcrite localement par un automate et celle du systme par le produit de ces automates. Lorsquun agent peut communiquer avec un groupe dagents de manire atomique, il peut tre assur du fait que les tats de croyances de ces agents sont cohrents les uns par rapport aux autres. Inversement, dans le cas contraire o les communications se font entre deux agents, un agent malicieux peut proter de cette proprit du systme pour induire des tats de croyances incohrents chez les autres agents (par exemple faire croire deux choses incompatibles deux agents diffrents) : cest le principe des agents byzantins. Ici, la question nest donc plus, pour un ensemble dagents, de produire simultanment une action, mais de subir une mme action comme un seul agent.
382
un ensemble de composants4 et Soit A C un ensemble de canaux entre ces composants. On note respectivement C (, ) lensemble des canaux dorigine et dextrmit , C (, ) ceux dextrmit quelconque ou encore C (, ) ceux dextrmit autre que (absence de boucle). De manire symtrique, on dnit C (, ) et C (, ).
e
d
b c
X
a g h i
Z
F IG . 1 Trois composants {X, Y, Z } relis par neuf canaux {a, b, c, d, e, f, g, h, i} A chaque canal c C est associ un type Tc reprsentant le type de donnes pouvant lemprunter. On le complte en Tc + pour reprsenter lventualit dun canal vide. Si C est un ensemble de canaux, on lui associe naturellement le type produit T[C ] = cC (Tc + ). Le type T[C ] est assimil lensemble des actions globales A. Ceci nous permet galement de prciser la forme des actions que peut produire ou subir un agent . On note ainsi A, (resp. A, ) le type dentre (resp. de sortie) de
4A A , par exemple A = ensemble dagents A + environnement .
lagent : A, = T[C (,)] =

cC (,)
(Tc + )
Finalement, on dnit X = A, , lensemble des valeurs des canaux bouclant sur un composant . Cet ensemble peut tre identi lensemble des tats internes du composants5 . Une conguration est quant elle constitue des tats locaux de chaque agent ainsi que de ltat du systme de communication (mmoire ou systme de messages) : =
A
Finalement, on donne ci-dessous (gure 2) la formalisation dune excution asynchrone dun ensemble dagents dcrits par leurs stratgies comportementales et leurs fonctions de transitions internes, le tout paramtr par un ordonnancement.
procedure execute( : , Q : A (X A, ), Q : A (A, X )) var x : A ; begin forall [r N] do begin forall [ r ] do x[C (, )] (x[C (, )]) forall [ A\ r ] do x[C (, )] (, , ) forall [ A] do x[C (, )] (x[C (, )]) end end // r = n tour
X = X
A
Le comportement dun agent est alors dcrit par deux fonctions (stratgie comportementale et fonction de transition interne) laissant apparatre une symtrie entre une partie proactive et une partie ractive : : X X A, : A, X X La partie proactive dcrit la part du comportement de lagent quil dclenche lorsquil est autoris agir par lordonnanceur. Soit S P (A) est un ensemble dagents auxquels lordonnanceur a attribu un pas de calcul. On dnit le comportement proactif dun agent A durant ce laps de temps par : x (x) si S (x, (, , )) sinon
F IG . 2 Excution paramtre par un ordonnancement Cette construction permet disoler la contribution de lordonnanceur dans la dcision collective. Chaque agent propose une stratgie et celui-ci propose un ordonnancement dans lensemble = P (A + )N . On peut alors tudier le problme de la dcision en fonction de contraintes faites sur cet ensemble : restriction des ordonnancements plus ou moins synchrones, ajout dune mesure de probabilit indiquant la vraisemblance dapparition des ordonnancements, etc. De nombreux rsultats en informatique rpartie repose sur le fait que chaque agent na quune vision partielle du monde et que certaines congurations sont donc indistinguables de son point de vue. On dnit ainsi X comme le type de donnes que peroit lagent de lensemble des congurations . On le dote galement dune fonction de projection : X . On le restreint nalement utiliser une stratgie s uniforme, cest--dire qutant donn deux congurations quil ne peut distinguer, lagent
Observation partielle.
La partie ractive dcrit la part du comportement de lagent activ en raction son contexte dexcution (par exemple lenvironnement). Si tous les canaux dentre dun agent A sont vides, lagent ne doit pas ragir do la contrainte : ((, , ), x) = x
fait de produire sur un canal ce que lon rcuprera au tour suivant constitue le principe dune mmoire.
5 Le
383
doit prendre la mme dcision dans les deux cas : (x) = (y ) s (x) = s (y ) On peut de manire quivalente doter chaque agent dune relation dquivalence : B indiquant que deux congurations sont indistinguables de son point de vue. Celle-ci peut tre dnie partir de par x y (x) = (y ). Dans la mesure o une stratgie uniforme donne un mme rsultat pour deux congurations x y , cela revient considrer une stratgie comportementale locale dnie sur lensemble quotient X = / : s : X A En algorithmique rpartie, la perception de lenvironnement par un agent nest plus une simple projection fournie par le modle, mais est plutt calcule dynamiquement.
Topologie pistmique. La reprsentation de la vision partielle dun agent par une relation dquivalence peut tre gnralise [6]. Soit un ensemble de conguration (un prdicat). Le systme peut tre actuellement dans lune des congurations de sans pour autant quun agent le sache (il ne dispose pas de toute linformation). On dnit () comme lensemble des congurations dans lesquelles sait quil se trouve dans une conguration de . Cet oprateur de connaissance doit assez naturellement vrier un certain nombre daxiomes :
A2 P (), () (axiome de vrit : lagent ne peut connatre que des vrits6 ) ; A3 P (), () ( ()) (axiome dintrospection positive) ; Cela revient dnir comme un oprateur dintrieur (ouverture topologique) sur lespace : contractant [A2], idempotent [A2+A3], et stable (par intersection nie) [A0+A1]. Lensemble image T = img( ) = { () | P ()} dnie une topologie sur . En fait, tant donn un ensemble de congurations , loprateur associe lintrieur de pour la topologie T (le plus grand ouvert de T inclus dans ). Ainsi, un agent ne connat pas exactement la conguration actuelle du systme mais il sait quil est dans son adhrence. Cela gnralise lapproche par les relations dindistinguabilit o ladhrence dune conguration est donne par sa classe dquivalence pour la relation (correspondant au concept dinformation set). En ajoutant laxiome [A4], ci-dessous, on exprime le fait que tout ouvert est galement un ferm ce qui fait de T une topologie totalement discontinue. On peut alors montrer quune telle topologie dcoule ncessairement dune relation dquivalence et quinversement une topologie associe une relation dquivalence vrie cet axiome. A4 P (), () ( ()) (axiome dintrospection ngative). La notion gnralisant de manire naturelle le concept de stratgie uniforme est celle de stratgie continue s : , T A , P (A ) . Ainsi dans le cas dune topologie discrte P (A ) sur lensemble des actions de , pour toute action que lagent entreprend dans une conguration , il
6 Cest en particulier ce qui distingue une connaissance dune croyance.
A0 () = (hypothse de monde clos : lagent sait toujours quil se trouve dans une conguration de ) ; A1 (, ) P ()2 , ( ) = () ( ) (axiome de distribution) ;
384
existe un ouvert O de congurations autour de tel que lagent doive y prendre la mme dcision.
Excution et protocole. Une excution de longueur k (un chemin de longueur k) sur est une suite de congurations , A, (0 , k ) en alternance avec des vnements (e1 , , ek ) telle que pour tout ei i : i 1, k , on ait i1
k 1 1 k 1 2 k1 0
le systme [7]) et lasynchronisme [3]. Nous avons en particulier cherch comprendre ce quimpliquent les hypothses faites sur le systme dans chacun de ces cas en termes topologiques. Par manque de place, nous ne prsenterons ici que les rsultats concernant le troisime point, savoir les rsultats sur les systmes asynchrones. Dans ce cadre, le rsultat suivant est classique : F ISCHER , LYNCH & PATERSON , 1983 : Dans un systme totalement asynchrone, compos de processus dterministes, le problme du consensus est insoluble partir du moment o un seul processus est incorrect [3]. Si n dsigne le nombre dagents, on dit que deux congurations sont adjacentes si (n 1) agents ne peuvent les distinguer : =
|S |n1 S
On note k lensemble de ces chemins de longueur k et = kN k lensemble de toutes les excutions nies. Lensemble 0 est identi ce qui permet de plonger ce dernier dans . La construction faite prcdemment sur lensemble des congurations peut alors facilement tre gnralise lensemble des excutions . En particulier, une notion de topologie peut tre dnie sur lensemble des excutions et lorsque lenvironnement est dterministe (mmoire partage), lalgorithme donn en gure 2 permet de ramener ltude de cet espace dexcution ltude de lespace des ordonnancements . Lide est alors de reprsenter un protocole de dcision comme une fonction continue : X (ou : X ) valeur dans lensemble X des dcisions [9] :
}> >>> }} >> } >> }} } > } T /X A X
3 Systme de processus asynchrone

Trois problmatiques sont relativement classiques en informatique rpartie, savoir les pannes de lenvironnement [5], les processus byzantins (agents jouant contre
Lide de la preuve de ce thorme est alors simple : on commence par montrer que lensemble des congurations initiales X A est connect pour la relation . Puis, on montre que pour toute conguration , lensemble de ses successeurs immdiats est galement connect pour la relation . On en dduit de proche en proche une connexit au niveau des excutions E = xX A (x, ). Le thorme FLP se ramne ainsi une proprit de connexit sur lensemble des excutions. On peut en effet partitionner lensemble des excutions E en F0 (resp. F1 ) : celles pour lesquelles certains agents dcident 0 (resp. 1). Imposer la non trivialit et la terminaison du protocole revient dire que lensemble des excutions intersecte simultanment F0 et F1 et quil est inclus dans leur union. Daprs la connexit de E , on en dduit que F0 F1 = et donc quil existe des excutions pour lesquelles
385
certains agents dcident 0 et dautres 1. Do limpossibilit dobtenir systmatiquement un consensus.
4 Conclusion
Pour conclure, nous synthtisons quelques rexions inspires par notre tude et qui constituent, notre avis, des pistes de recherche approfondir.
Mlange des problmes. Tout dabord, il est difcile de prendre en compte lensemble des problmes : environnement incorrect, agents byzantins et ordonnanceur. En fait, les problmes dasynchronisme devraient thoriquement empcher la coordination des byzantins autant que des agents corrects. On suppose ainsi que lordonnanceur, lenvironnement et les byzantins agissent de concert contre les agents corrects. De leur ct, les agents corrects forment eux-mmes une coalition pour jouer contre le systme et perdent du mme coup leurs propres intrts. On se ramne donc un jeu deux coalitions et somme nulle permettant de faire une tude dans le pire des cas : lensemble des agents corrects unis contre le reste du systme. Connaissance v.s. rationalit. Une dcision est simultanment guide par la connaissance quont les agents de la situation et par leurs prfrences. Cependant en thorie des jeux, la synchronisation est acquise et la communication peu frquente. Le modle des connaissances est basique et la notion de prfrence relativement ne. En informatique rpartie, le modle des connaissances est plus subtile, il prend en compte la difcult pose par la synchronisation, mais la notion de prfrence est grossire (les buts acceptables sont les congurations cohrentes, sinon ils sont inacceptables). De plus, tous les agents corrects sont daccord sur le but (situation non-comptitive). SMA et informatique rpartie.
Connexit de plus haut niveau. On se rend ainsi compte que le problme pos par le consensus est nalement assez simple puisquil se ramne une simple notion de connexit. Des problmes plus gnraux tels que laccord dans un k-ensemble [9] (au plus k valeurs distinctes peuvent tre choisies par les agents) nont pas de solutions aussi videntes. Cest dans ces cas l que les rsultats de topologie montrent tout leur intrt. On ne fait alors plus appel une notion de connexit (0-connexit il est toujours possible de relier deux points par un chemin continu), mais des notions de connexit dordre suprieur (k -connexit il est toujours possible dtendre continument une k-sphre en une (k + 1)-boule).
Poids dun agent.
Au dbut de larticle, nous rappelions la notion de poids dcisionnel dun agent. Cependant le poids de lagent dans la dcision dpend de son poids dans le calcul, cest dire du temps qui lui est accord par lordonnanceur. On a ainsi affaire deux notions de pondration. En dcision classique, le poids dun agent dans la dcision est donn par un jeu coalitionnel (ou une fdration). La prise en compte de la dynamique superpose un autre poids relatif au temps de calcul imparti un agent par lordonnanceur.
On ne peut donc pas a priori garantir daccorder un poids dcisionnel prcis un agent car lordonnanceur peut moduler ce poids en terme de temps de calcul : un agent, aussi inuent soit-il, qui ne dispose daucun temps de calcul est ncessairement de poids nul dans la dcision.
386
Linformatique rpartie se donne souvent pour but de dessiner les contours de ce qui est ralisable. Elle tudie ainsi des conditions extrmes. Le domaine des systmes multia-
gents se veut plus pragmatique en se plaant dans des contextes plus consensuels. Il faut donc faire des compromis parfois difciles entre des critres naturels tels que la sret ou la vivacit et dautres critres dpendant de lapplication (rationalit encapsule au niveau des agents). Ce compromis cohrence/vivacit/rationalit reste tablir : linformatique rpartie se concentre sur les deux premiers points tandis que les SMA (et la thorie des jeux) dveloppent la notion de rationalit locale aux agents, mais insistent moins sur la cohrence/vivacit.
[8] N.A. Lynch. Distributed Algorithms. Morgan-Kaufmann, 1996. [9] M. Saks and F. Zaharoglou. Waitfree k-set agreement is impossible : the topology of public knowledge. In STOC93, pages 101110. ACM Press, 1993.
Rfrences
[1] J.-P. Barthlemy and M.F. Janowitz. A formal theory of consensus. In Siam. J. Discr. Math., volume 4, pages 305 322, 1991. [2] C. Chichilnisky and G. Heal. Necessary and sufcient conditions for a resolution of the social choice paradox. Journal of Economic Theory, 31 :68 87, 1983. [3] M.J. Fischer, N.A. Lynch, and M.S. Paterson. Impossibility of distributed consensus with one faulty process. Journal of the ACM, 32(2) :374382, 1985. [4] J. Goubault-Larrecq. Une introduction aux capacits, aux jeux et aux prvisions. Technical report, INRIA Futurs projet SECSI, mars 2006. [5] J.Y. Halpern and Y. Moses. Knowledge and common knowledge in a distributed environment. Journal of the ACM, 37(3) :549587, 1990. [6] F. Koessler. Common knowledge and interactive behaviors : A survey. European Journal of Economic and Social Systems, 14(3) :271308, 2000. [7] L. Lamport, R. Shostak, and M. Pease. The byzantine generals problem. ACM Transactions on Programming Languages and Systems, 4(3) :382401, 1982.
387
Un modle pour caractriser des participants autonomes dans un processus de mdiation1 *

Jorge-Arnulfo Quian-Ruiz2
quiane@univ-nantes.fr
Philippe Lamarre
lamarre@univ-nantes.fr
Patrick Valduriez
Patrick.Valduriez@inria.fr
INRIA and LINA Universit de Nantes 2 rue de la houssinire, 44322 Nantes Cedex 3, France Rsum : Nous considrons les systmes dinformation distribus dans lesquels les participants sont non seulement libres de quitter le systme, mais peuvent aussi manifester diffrents intrts. La plupart des travaux dans ce contexte sont centrs sur la performance (rpartition de charge, temps de rponse. . . ) sans tenir compte des intrts des participants. Pourtant, le non respect de leurs intrts particuliers peut conduire les participants quitter le systme. Nous proposons une nouveau modle qui aide caractriser la satisfaction des participants sur le long terme ainsi que leur adquation. Mots-cls : Autonomie des participants, satisfaction, comportement long terme Abstract: We consider distributed information systems where participants are autonomous and have also special interests. Most of the works in this context are centered on the performences but do not take participants particular interest into account. However, not respeter the particular interests of the participants can lead them to leave the system. We propose a new model that helps to characterize the participants satisfaction in the long-run as well as their adequation. Keywords: Participants autonomy, satisfaction, long-run behavior
rfrence la possibilit de quitter le systme suite une dcision individuelle locale et ce, sans aucune contrainte. Chaque requte doit tre alloue des fournisseurs peuvant la traiter. De nombreux travaux dans ce domaine ont concentr leurs efforts sur la rpartition de charge (QLB) [1, 3, 7]. Cependant, les participants peuvent manifester certaines attentes en dehors des seules performances. Par exemple, un fournisseur reprsentant une rme pharmaceutique peut souhaiter, une priode donne, faire la promotion dune lotion anti-moustique. Il manifestera alors un intrt plus marqu pour les requtes relatives ce type de produits et aura tendance les privilgier par rapport aux autres requtes de son domaine. Intuitivement, dans ces conditions, un environnement est satisfaisant pour les participants sil leur permet de rpondre leurs attentes. Pour cela, le systme dallocation des requtes doit tenir compte de leurs intentions. Ces intentions peuvent tre le rsultat de la combinaison de plusieurs informations comme les prfrences, la charge, les stratgies. Les prfrences dun client peuvent leur permettre de faire le choix entre diffrents fournisseurs (par exemple en utilisant la rputation). Celles dun fournisseur peuvent tre fondes sur leurs centres dintrt. Nous considrons ici que les preferences sont plutt statiques (i.e. peu sujettes volution), alors que les les intentions sont plus dynamiques. Dans lidal, le systme devrait satisfaire tous les participants chaque allocation.
389
1 Introduction
Nous nous intressons aux systmes dinformation distribus o des participants fournisseurs et clients) htrognes et autonomes interagissent. Lautonomie fait ici
Travail en partie nanc par ARA Massive Data" of the French ministry of research (projects MDP2P and Respire) and the European Strep Grid4All project. Cet auteur est support par le Conseil National de Science et Technologie du Mexique (CONACyT).
Un ___________________________________________________________________________ modle pour caractriser des participants autonomes dans un processus de mdiation
Cependant, cela nest pas toujours possible. Par exemple, pour une requte donne, lorsquaucun fournisseur ne souhaite traiter la traiter, il y aura ncessairement des insatisfaits. Ils seront soit du cot client, si la requte est rejete par le systme, soit du cot fournisseur, si le traitement de la requte leur est impos. Une vue long terme de la satisfaction est donc plus raliste. A notre connaissance, il nexiste pas de travaux qui permettent de caractriser la capacit dun systme satisfaire les intentions des participants sur le long terme. Les systmes conomiques considrent lutilit, qui est lie la notion de satisfaction mais sans lui correspondre exactement. Nous proposons donc un nouveau modle permettant de dterminer si un systme satisfait les participants sur le long terme et sil est juste avec eux. La suite de cet article est structure de la manire suivante. La section 2 prsente un scnario motivant la dmarche. La section 3 prsente quelques concepts prliminaires. Le modle permettant dvaluer un systme du point de vue de la satisfaction est prsent la section 4. Dans la section 5, nous dnissons les proprits permettant dvaluer la qualit des mthodes dallocation. Finalement, les liens avec dautres travaux sont prsents la section 6 avant la section 7 qui conclue.
TAB . 1 Fournisseur ayant les capacits de traiter la requte dEmma.

Fournisseurs Charge Intention Cons. Int.
Mark Robert Johnson William Mary
15% 43% 78% 85% 100%
Oui Non Oui Non Oui
Non Oui Non Oui Oui
Considrons un scnario simple. Emma (Dr. en mdecine) vient de dcouvrir un gne responsable dune maladie de la peau. Elle interroge le systme pour trouver des liens ventuels avec dautres maladies. Pour une vue plus gnrale, elle souhaite avoir des rponses de plusieurs collgues, disons 2 pour simplier lexemple. Dans un premier temps, le systme doit identier les fournisseurs capables de traiter la requte. Un algorithme de matchmaking [10] permet de rsoudre ce premier problme. Supposons que pour cet exemple, il y en ait 5. La seconde tape consiste obtenir les intentions de ces fournisseurs par rapport cette requte (supposes binaires dans cet exemple). Le tableau 1 regroupe les diffrentes donnes de cet exemple. Mary est la plus charge (elle na plus de ressource disponible). Robert et William ne dsirent pas traiter cette requte pour des raisons qui leurs sont propres. Dun autre cot, pour des raisons de conance envers leurs rsultats, Emma ne souhaite pas que Mark ou Johnson traitent sa requte. Quoi quil en soit, la demande dEmma, le systme doit choisir deux fournisseurs pour leur allouer la requte. Mark et Robert sont les moins chargs. Cest donc eux que les mthode bases sur la rpartition de charge alloueraient la requte. Cela aurait pour consquence de mcontenter Robert et Emma. Rptes, de telles dci-
2 Motivation
Pour illustrer le problme des systmes dinformation distribus avec des participants autonomes, considrons par exemple un systme incluant des centaines de scientiques (biologistes, docteurs en mdecine, gnticiens. . . ) travaillant sur le gnme humain. Ils sont rpartis sur la plante et ils partagent leurs informations. Chaque site, qui reprsente un scientique, dclare ses capacits au systme et gre localement ses prfrences et intentions.
390
sions pourraient conduire ces participants quitter le systme. Ici la seule rponse correcte du point de vue des intentions est Mary. Malheureusement, cette allocation nest pas satisfaisante du point de vue de la rpartition de charge. De plus, Emma a demand ce que la requte soit envoye deux scientiques. Cest donc un cas qui gnrera du mcontentement dun cot ou de lautre. Plusieurs questions restent donc ouvertes : Que doit faire le systme dans ce cas ? Doit-il privilgier les intentions du client (ici Emma) ? les intentions des fournisseurs ? Doit-il prendre en compte la charge des fournisseurs ? Dans cet article, nous ne rpondons pas ces questions, mais nous proposons un modle qui permet danalyser le comportement dun systme de ce type. Les notions prsentes peuvent aussi servir une mthode de mdiation dans ses prises de dcisions.
(resp. traiter) une requte q . Ces intentions sont des valeurs relles dans [1..1]. Au contraire dune valeur ngative, une intention positive dnote le dsir dallouer (resp. de traiter) la requte
4 La modlisation
Notre attention sest porte sur deux caractriques des participants qui permettent de comprendre comment ils peuvent percevoir le systme dans lequel ils interagissent. La premire de ces caractristiques est ladquation. En fait, deux adquations doivent tre considres. a) adquation du systme par rapport un participant e.g. un systme dans lequel un fournisseur ne peut trouver aucune requte correspondant ses attentes nest pas adquat pour ce fournisseur ; b) adquation dun participant au systme e.g. un client qui met des requtes qui nintressent aucun fournisseur nest pas adquat par rapport au systme. A travers ces notions il est possible dvaluer si un participant a une chance datteindre ses objectifs dans un systme. moins davoir une connaissance globale du systme, un participant ne peut dterminer lui mme ce que les autres pensent de lui. Aussi, nous considrons ladquation dun participant au systme comme une caractristique globale (cf. Section 4.3). La seconde caractristique est la satisfaction. Comme pour ladquation, deux sortes de satisfaction peuvent tre consdres : a) la satisfaction dun participant vis--vis du systme e.g. un client qui reoit des rsultats de fournisseurs quil ne souhaitait pas solliciter nest pas satisfait ; et b) la satisfaction dun participant par rapport au systme de mdiation e.g. un fournisseur devant traiter des requtes quils ne dsirait pas met en cause le systme de mdiation lorsquil constate quil existe des requtes lui convenant mieux, mais ne lui tant pas alloues. Ces deux
391
3 Prliminaires
Nous considrons un systme dans lequel interagissent des clients, des fournisseurs et des mdiateurs. Les ensembles de ces participants, non ncessairement disjoints, sont nots respectivement C , P , et M . Les requtes sont exprimes sous forme dun triplet q = < c, d, n > o q.c C est lidentiant du client ayant mis la requte ; q.d, la description de la tche demande ; et q.n N , le nombre de fournisseurs demands. Pq dnote lensemble des fournisseurs ayant les capacits de traiter une requte q Les clients envoient leurs requtes un mdiateur m M qui, si cest possible, alloue toute requte q q.n fournisseurs choisis parmi ceux ayant les capacits de le faire1 . Un client c (resp. un fournisseur p) peut exprimer ses inten tions CI q c [p] (resp. P Ip (q )) pour allouer
1 Convention : un mdiateur suit les directives des clients dans la mesure o les fournisseurs sont assez nombreux pour cela.
notions de satisfaction peuvent avoir un impact important sur le systme dans la mesure o elles peuvent fonder une dcision de dpart dun participant. Nous supposons que les participants ont une mmoire limite et quils ne mmorisent donc que leurs k dernires interactions avec le systme2 . Nous allons donc dnir les diffrentes notions prsentes ci-dessus par rapport la mmoire des participants. Deux remarques suppmentaires. Il est vident que ces notions voluent au cours du temps, mais pour viter dalourdir les notations, le temps napparatra pas. Enn, ces notions peuvent tre dnies soit partir des prfrences des participants, soit partir de leurs intentions. Si les dnitions formelles sont similaires, les valeurs obtenues prsentent quelques diffrences. Pour des raisons de place, nous ne pouvons en prsenter ici quune seule version. Dans la mesure o les prfrences sont souvent considres comme des donnes prives, ce sont les intentions afches auprs des mdiateurs qui serviront de base nos dnitions. 4.1 Caractrisation locale dun client Un client est caractris partir des informations quil peut obtenir du systme. Intuitivement, les caractristiques prsentes ci-aprs sont utiles pour rpondre des questions de la forme Dans quelle mesure mes intentions correspondent celles des fournisseurs pouvant traiter mes requtes ? adquation dun client par rapport au sytme Dans quelle mesure les fournisseurs ayant trait mes dernires requtes me satisfont ? Satisfaction dun client La mthode dallocation des requtes me satisfait-elle ? Satisfaction dun client par rapport lallocation . Ces notions seront bases sur la mmoire dun client qui sera note IQk c.
2 Notons que k peut tre diffrent dun participant lautre. Cependant, dans un souci de simplication, nous supposerons ici que ce paramtre est identique pour tous les participants.
Ladquation du systme pour un client caractrise la vision du systme qua le client. Dans le scnario prsent section 2, le systme est relativement adquat pour Emma car bon nombre des fournisseurs lui conviennent. Plus formellement, ladquation du systme par rapport au client c et pour une requte q , note sca (c, q ), est dnie comme tant la moyenne des intentions de c par rapport lensemble des fournisseurs pouvant traiter q (Pq ). La valeur de cette notion est volontairement amene dans lintervalle [0..1].
Adquation. 1 ||Pq ||
sca (c, q ) =
CI q c [p] + 1
pPq
2 (1)
Ladquation du systme par rapport un client c, est alors dnie comme la moyenne des adquations pour les k dernires requtes.
Dnition 1 Adquation du systme par rapport un client. 1 sca (c) = sca (c, q ) ||IQk c || k
q IQc
Plus la valeur est proche de 1, plus le client considre le systme comme adquat.
Satisfaction. La satisfaction dun client c concernant le traitement dune de ses requtes q , note s (c, q ) est lie aux fournisseurs auxquels sa requte a t alloue (Pq ). La moyenne semble une technique intuitive. Cependant, elle ne permet pas de prendre en compte le souhait dun client davoir plusieurs rsultats de fournisseurs diffrents. Par exemple, dans le scnario de la section 2, Emma a demand 2 fournisseurs. Si le systme ne lui en alloue quun seul la satisfaction dEmma ne peut tre totale, mme si ce fournisseur est parfait. Lquation suivante tient compte de ce point.
392

1 n
s (c, q ) =
CI q c [p] + 1
c pP q
(2)
4.2 Caractrisation locale dun fournisseur Cette section est consacre la caractrisation dun fournisseur. Intuitivement, nous cherchons rpondre des questions de la forme : dans quelle mesure les requtes mises sur le sytme correspondent aux intentions du fournisseur ? Adquation du systme ; dans quelle mesure les dernires requtes que le fournisseur a eu traiter lui conviennent ? Satisfaction du fournisseur ; la mthode dallocation est-elle statisfaisante ? Satisfaction du fournisseur par rapport la mthode dallocation . Ces caractristiques seront dnies par rapport aux intentions exprimes par le fournisseurs sur les k dernires requtes quil est capable de mmo riser (P I k p ).
Adquation.
o n abbrge q.n. Les valeurs de s (c, q ) sont dans lintervalle [0..1]. La satisfaction dun client c est alors obtenue en faisant la moyenne des satisfactions par rapport aux k dernires requtes traites.
Dnition 2 Satisfaction dun client s (c) = 1 ||IQk c ||
s (c, q )
q IQk c
Cette notion de satisfaction ne tient aucun compte du contexte. Elle ne permet donc pas au client dvaluer les efforts consentis par le systme dallocation pour le satisfaire. Par exemple, en reprenant le scnario de la section 2, suppose quEmma a une intention de 1 (resp. 0.9, 0.7) pour que la requte soit alloue Robert (resp. William et Mary). Allouer la requte William est dans labsolu satisfaisant. Cependant, il existe un autre fournisseur dans le systme qui serait encore plus satisfaisant. La satisfaction dun fournisseur par rapport au systme dallocation, note as (c) (dnition 3) permet de rendre compte des efforts effectus en ce sens par la mthode dallocation. Cette satisfaction prend ses valeurs dans lintervalle [0..].
Dnition 3 Satisfaction dun client par rapport la mthode dallocation 1 as (c) = ||IQk c ||
Ladquation du systme par rapport un fournisseur aide ce fournisseur dterminer si le systme dans lequel il volue correspond ses attentes. Par exemple, dans le scnario de la section 2, on peut considrer que le systme est adquat par rapport Marc dans la mesure o la seule requte mise par Emma correspond ses intentions. Cependant, il est difcile de conclure en ne considrant quune seule requte. Une moyenne est plus informative.
Dnition 4 Adquation du sytme par rapport un fournisseur 1 ||P Qk p ||
q IQk c
s (c, q ) sca (c, q )
spa (p) =
P Ik p [q ] + 1
q P Qk p
si P Qk p =
Si la valeur ainsi obtenue est suprieure 1, le client peut en conclure que la mthode dallocation agit en sa faveur. Par contre, si cette valeur est proche de 0 la mthode dfavorise le client.
Les valeurs que peut prendre cette adquation sont dans lintervalle [0..1]. Plus la valeur est proche de 1, plus le systme est adquat par rapport au fournisseur concern.
393
Contrairement ladquation, la satisfaction dun fournisseur ne dpend que des requtes quil a eu traiter. En revenant encore une fois au scnario de la section 2, et en supposant que le systme alloue la requte dEmma Robert, Robert ne sera pas satisfait car il ne souhaite pas la traiter. La satisfaction dun fournisseur, s (p), est donc dnie comme tant la moyenne des satisfactions obtenues sur les requtes traites par le fournisseur (SQk p) k parmi les k dernires requtes (P Qp ). La valeur est ramene sur lintervalle [0..1]. Plus la valeur est proche de 1, plus le fournisseur est satisfait.
Satisfaction. Dnition 5 Satisfaction dun fournisseur 1 ||SQk p ||
4.3 Caractrisations des participants du point de vue du systme Les participants, tant les fournisseurs que les clients, sont ici caractriss dun point de vue global. Lobjectif est de pouvoir rpondre des questions de la forme : Dans quelle mesure les requtes dun client correspondent aux attentes des fournisseurs Adquation dun client par rapport au systme Dans quelle mesure un fournisseur rpond-il aux attentes des clients ? Adquation dun fournisseur par rapport au systme Ladquation dun client par rapport au systme systme permet dvaluer si ce client correspond aux attentes des fournisseurs. En reprenant le scnario de la section 2, la requte dEmma est adquate au systme car une grande partie des fournisseurs sont prts la traiter. En accord avec cette intuition, ladquation dune requte q dun client c, note csa (c, q ), est dnie comme la moyenne des intentions dclares par les fournisseurs. Les valeurs sont ramenes dans lintervalle [0..1].
1 ||Pq ||
s (p) =
P Ik p [q ] + 1
q SQk p
si SQk p =
Avec cette dnition, un fournisseur peut valuer sil obtient des requtes lui permettant datteindre ses objectifs, ou au moins, satisfaisant ses intentions. Dun autre cot, les efforts dploys par la mthode dallocation pour laider peuvent aussi lintresser. Nous dnissons la satisfaction dun fournisseur par rapport la mthode dallocation comme tant la ratio de sa satisfaction sur son adquation (dnition 6). Les valeurs sont dans lintervalle [0..].
Dnition 6 Satisfaction dun fournisseur par rapport la mthode dallocation as (p) = s (p) spa (p)
csa (c, q ) =
P Ip (q ) + 1
pPq
2 (3)
Ladquation du client par rapport au systme est simplement dnie comme la moyenne de ces valeurs.
Dnition 7 Adquation dun client par rapport au systme csa (c) = 1 ||IQk c ||
Plus la satisfaction dun fournisseur par rapport la mthode dallocation est suprieure 1 plus leffort de la mthode dallocation en faveur du fournisseur est important. A contrario, plus la valeur est proche de 0, plus la mthode est pnalisante pour le fournisseur.
394
csa (c, q )
q IQk c
Ladquation du fournisseur par rapport au systme permet dvaluer si les clients sont intresss par ce fournisseur. En revenant au scnario de la section 2, Emma
ne souhaite pas que Mark traite sa requte. Cela ne joue pas en faveur de Mark. Ladquation dun fournisseur par rapport au systme, psa (p), est dnie comme la moyenne des intentions montres son gard par les clients sur les k dernires requtes proposes. Les valeurs sont ramenes entre [0..1]. Plus la valeur est proche de 1, plus le fournisseur est adquat.
Dnition 8 Adquation dun fournisseur par rapport au systme psa (p) = 1 ||P Qk p ||
o c0 > 0 est une constante positive prdnie, il mesure lcart maximal entre les valeurs, et donc il qualie la balance entre les diffrents lments. Plus la valeur obtenue est grande meilleure est la balance.
min g (s) + c0 (g, S ) =
sS
max g (s ) + c0
s S
(6)
CI q c [p] + 1
q P Q k p
6 Travaux connexes
Il existe une litrature substantielle relative au problme de query load balance. Dans le contexte des systmes largement distribus, la plupart des travaux allouent la requte aux fournisseurs qui sont les moins chargs. Azar et al. [1] explorent le problme dallouer n tches en choisissant le serveur le moins charg parmi d serveurs choisis alatoirement. Vcking [11] a montr que lusage de la-symtrie amliore les rsultats. Mitzenmacher et al. [6] amliorent les deux propositions prcdentes en introduisant une mmoire des m derniers serveurs utiliss. Cependant, tous ces travaux font lhypothse que les fournisseurs (et les requtes) sont homognes et ne se gnralisent pas aux systmes htrognes. Des travaux ont considr dautres notions comme le CPU [4], ou la combinaison de plusieurs notions I/O, mmoire, CPU [9], ou encore des scnarii avec plusieurs ressources [7]. Cependant, aucun ne considre les intentions que ce soient celles des fournisseurs ou des clients. Plusieurs approches [2, 8] sapprochent de la notion dintention en prsentant des modles conomiques, mais lconomie introduit dautres aspects (lis lauto-rgulation des systmes conomiques) qui ne sont pas directement lies aux intentions. De plus, ltude sur le long terme (k requtes) nest pas toujours claire.
395
if P Qk p =
5 Mesures
Les mesures proposes sont identiques pour les clients et les fournisseurs, et sont applicables aux diffrentes notions prsentes plus haut. Pour viter les redites, la fonction g dnotera lune ou lautre des notions prsentes, et S un ensemble de fournisseurs ou de clients. La moyenne () permet de mesurer correctement lefcacit.
(g, S ) = 1 ||S ||
g (s)
sS
(4)
Lindice dquit propos par [5] (Equation 5) apporte quant lui des informations sur la rpartition des valeurs. Il est toujours compris entre 0 et 1. Plus la valeur est proche de 1, plus le mcanisme est quitable.
g (s) f (g, S ) =
sS 2
||S ||
sS
g (s)2
(5)
Lorsque lon sintresse la rpartition de charge, le ratio Min/Max est aussi largement utilis. Tel que dni par lquation 6
7 Conclusion
Cet article est centr sur les systmes dinformation distribus o les participants (fournisseurs comme clients) sont libres de quitter le systme quand ils le souhaitent et ont des intrts particuliers. Nous avons propos un modle de rpartition des requtes dont les principales caractristiques sont 1) prise en compte des intentions des participants sur le long terme ; 2) indpendance par rapport la stratgie utilise pour obtenir les intentions et par rapport la technique utilise pour effectuer la rpartition des requtes ; do, 3) applicablilit tous les systmes existants pour mesurer leurs capacits respecter les intentions des participants et donc les satisfaire ; et, 4) prsentation de notions pouvant guider la conception de nouvelles techniques dallocation de requtes. En utilisant les diffrentes mesures proposes, nous pensons quil est possible de prvoir les dparts des participants dun systme et den dterminer les raisons. Dans de futurs travaux, nous allons analyser des mthodes dallocations existantes en utilisant ce modle et vrier concrtement sil permet deffectuer des prvisions correctes. [4]
[5]
[6]
[7]
[8]
[9]
[10]
Rfrences
[1] Y. Azar, A. Z. Broder, A. R. Karlin, and E. Upfal. Balanced Allocations. SIAM Journal Computing, 29(1), 1999. [2] D. Ferguson, Y. Yemini, and C. Nikolaou. Microeconomic Algorithms for Load Balancing in Distributed Computer Systems. In Procs. of ICDCS Conference, 1988. [3] P. Ganesan, M. Bawa, and H. GarciaMolina. Online balancing of rangepartitioned data with applications to
396
[11]
peer-to-peer systems. In Procs. of VLDB Conference, 2004. M. Harchol-Balter and A. B. Downey. Exploiting process lifetime distributions for dynamic load balancing. ACM TOCS, 15(3), 1997. R. K. Jain, D.-H. Chiu, and W. R. Hawe. A quantitive measure of fairness and discrimination for resource allocation in shared computer systems, DEC-TR-301. Technical report, 1984. M. Mitzenmacher, B. Prabhakar, and D. Shah. Load balancing with memory. In Procs. of FOCS Conference, 2002. E. Rahm and R. Marek. Dynamic multi-resource load balancing in parallel database systems. In Procs. of VLDB Conference, 1995. M. Stonebraker, P. Aoki, W. Litwin, A. Pfeffer, A. Sah, J. Sidell, C. Staelin, and A. Yu. Mariposa : A wide-area distributed database system. VLDB Journal, 5(1), 1996. M. Surdeanu, D. I. Moldovan, and S. M. Harabagiu. Performance analysis of a distributed question/answering system. IEEE Transactions on Parallel and Distributed Systems, 13(6), 2002. K. P. Sycara, M. Klusch, S. Widoff, and J. Lu. Dynamic service matchmaking among agents in open information environments. SIGMOD Record, 28(1), 1999. B. Vocking. How asymmetry helps load balancing. In Procs. of FOCS Conference, 1999.
Vers un Support des Communications Multi-Parties pour les Systmes Multi-Agents

J. Saunier saunier@lamsade.dauphine.fr F. Balbo , balbo@lamsade.dauphine.fr
LAMSADE, Universit Paris-Dauphine Place du Marchal de Lattre de Tassigny 75775 Paris cedex 16 FRANCE
Institut National de Recherche sur les Transports et leur Scurit 2 avenue du Gnral Malleret-Joinville F-94114 ARCUEIL Cedex FRANCE
Rsum : Bien que les dialogues bi-parties soient les plus tudis dans la communaut des Systmes MultiAgents (SMA), certains nouveaux modles tels que lcoute ottante et les communications multiparties ont merg rcemment. Ces modles ont montr des gains defcacit et de cohrence des SMA. Dans cet article, nous introduisons un cadre gnrique pour le support des communications multi-parties. Nous dcrivons un modle formel denvironnement appel EASI (Environment as Active Support of Interaction). Des algorithmes pour la mise en oeuvre effective du modle sont galement proposs, et nous discutons la validit de cette approche travers une srie de tests. Mots-cls : Interaction, environnement, communications multi-parties Abstract: Although two-party dialogues are the most-studied communication type in the Multi-Agent Systems (MAS) community, new models such as overhearing and multi-party communications have emerged recently. These models have been shown to improve the efciency and the coherence of the MAS. In this article, we introduce a generic framework for multi-party communication support. Then we introduce a formal environment model called EASI (Environment as Active Support of Interaction). We also propose algorithms to support effectively this model, and we discuss the validity of this approach through a series of tests. Keywords: Interaction, Environment, multi-party communications
participants changent les rles dmetteur et de destinataire. Cependant, des travaux rcents, inspirs par ltude de situations relles, mettent en exergue la possibilit dexploiter des formes de communications plus complexes, impliquant de nouveaux rles. Ainsi, lcoute ottante [6] est lcoute de communications entre dautres agents, sans tre impliqu directement dans la communication ni mme ncessairement que les participants en ait connaissance. En section 2, nous introduisons de faon gnrique les communications multiparties. Nous dcrivons en section 3 le modle formel EASI (Environment as Active Support of Interaction). En section 4, nous introduisons des algorithmes de gestion de ce modle qui dpendent de la dynamique du SMA et nous montrons une implmentation et discutons la performance du modle et des algorithmes.
2 Les Communications MultiParties

De faon gnrale, les communications multi-parties prsentent la spcicit davoir un metteur, des destinataires prvus et des rcepteurs inattendus. Une tude plus ne est ncessaire pour extraire les diffrents types de rles possibles. Sur la base des travaux existants dans
397
1 Introduction
La forme de communication la plus tudie est le dialogue, dans lequel deux
Vers ___________________________________________________________________________ un support des communications multi-parties pour les systmes multi-agents
le domaine des SMA [5], mais aussi de la psychologie et des sciences sociales [2], nous proposons 3 critres dterminant le rle de lagent dans la communication : (1) lintention : le rcepteur estil prvu, et si oui pour participer activement lchange ou pour lcouter passivement ? (2) La connaissance : lagent est-il connu des autres participants ? (3) Linitiateur de la rception : est-ce une initiative de lmetteur ou du rcepteur ? Ces critres vont nous permettre de dnir les principaux rles pouvant tre jous dans la communication. Ainsi, le destinataire est un rcepteur prvu et connu par lmetteur, qui participe au dialogue, et pour lequel la rception sest effectue linitiative de lmetteur. Un auditeur aura les mmes caractristiques, hormis quil nest pas sens participer la conversation. Un couteur est un rcepteur non-prvu, qui peut ne pas tre connu de lmetteur, et qui peroit le message par son initiative propre. Le cas dun groupe de destination est le moins classique, il sagit dune initiative de lmetteur envers un groupe dont les membres ne sont pas ncessairement connus. Par exemple, faire une annonce au club photographie de luniversit nimplique pas de connatre chacun de ses membres. Enn, un couteur indiscret est un rcepteur indsirable. Ce cas ne sera en gnral pas recherch, hormis par exemple dans le cadre de simulations. Un systme permettant la prsence simultane de destinataires et dcouteurs doit rsoudre la problmatique de la mise en corrlation dinitiatives dorigines diffrentes pour la dcision de distribution des messages. La possibilit de rcepteurs imprvus, voir inconnus, implique que lmetteur ne matrise pas ncessairement le canal de communication, par exemple une mission en clair sur un rseau wi. Dans le cadre de rseaux classiques, ceci nest ralisable que par le biais dun middleware. Il est ncessaire de caractriser comment sexprime l initiative permettant la connexion entre lin398
formation et les rcepteurs. Une solution est de reprsenter chaque composant du SMA par une description observable, et de permettre aux agents dutiliser ces descriptions pour grer leurs interactions en ajoutant des conditions. Les composant du SMA sont les agents, les percepts (messages, traces) ou tout autre objet. Au long de cet article, nous dveloppons un exemple de service de communication ddi une Application dIntelligence Ambiante (AIA). Cette application doit faciliter les interactions entre les employs dune entreprise et leurs visiteurs. Un agent employ appartient un service, et a une disponibilit. Lentreprise est compose de salles de service, de salles de runion et dune rception. Lobjectif sera de proposer une application permettant le support des diffrents besoins dinteraction de faon standardise. Par exemple, pour un visiteur, les besoins dinteraction directe seront lis la recherche dun certain employ (situation note Sdi1 ), ou la recherche dun employ disponible dans un service dtermin (Sdi2 ). Un exemple dinteraction indirecte sera li la libration dune salle. Cet vnement devra tre peru par les agents intresss (Sind ). Enn, lapplication doit supporter des modles dinteraction plus complexes comme lcoute ottante. Par exemple, un agent peut surveiller lactivit du SMA en coutant les employs en prsence de clients dans les salles dun service particulier (Smon ).
Exemple Illustratif.
3 LEnvironnement, Support Actif de lInteraction

Loriginalit dEASI est de modliser linteraction dans son ensemble et de considrer les agents comme une partie de cet ensemble. Le problme de connexion est rsolu par lenvironnement en fonction de la description quil a des composants de linteraction, agents ou percepts ; et la ri-
cation de chaque problme de connexion sera appele un ltre. Dans la suite, nous appellerons connexion la mise en relation dun percept avec un ou plusieurs agent. Toutes les informations sur les composants du SMA ncessaires linteraction sont regroupes dans lenvironnement. De faon tre facilement utilisable, ce regroupement doit reposer sur une organisation efcace, cest pourquoi EASI est fond sur lAnalyse de Donnes Symboliques (ADS) [1]. LADS est un modle de classication et danalyse de grands ensembles de donnes qualitatives, quantitatives et complexes. Notre modle denvironnement comprend un ensemble de m entits, = {1 , ..., m } et un ensemble de k ltres, F = {f1 , ..., fk }. Une entit l possde une description dun composant du SMA (agent, percept, objet) par le biais de ses proprits observables. Un ltre fj est la description de contraintes sur les proprits observables des entits lies un problme de connexion j , qui sera utilis pour la transmission des percepts. Soit P = {p1 , ..., pn } lensemble des n proprits observables dun SMA, une proprit observable pi est une fonction qui donne pour une entit l une valeur : pi P , pi : di {unknown, null}, avec di le domaine de description de pi . di peut tre quantitatif, qualitatif, ou un ensemble ni de donnes. La gure 1 dcrit un exemple simple de notre modlisation pour lAIA. Il y a quatre entits, = {1 , 2 , 3 , 4 } qui ont respectivement la description de lagent visiteur v1 , des agents employ e1 et e2 et du message m1 . Les agents ont entre autres une proprit appele pos (pour position), le domaine de description de cette proprit dpos est lensemble des salles du btiment. La valeur de pos(1 ) est la rception ; la valeur pos(2 ) est unknown car lagent 2 ne la pas renseigne, enn la valeur pos(4 ) est null car 4 ne possde pas cette pro-
prit dans sa description. La valeur dune proprit peut tre modie dynamiquement lors de lexcution, except pour null, qui exprime labsence de cette proprit. Il y a trois ltres, F = {di1, di2, ind}. Un agent devant rsoudre un problme de connexion ajoute un ltre le dcrivant dans lenvironnement. Par exemple, les agents employ ont deux ltres en commun, {di1, di2}, et lagent employ e2 a ajout le ltre ind. De mme que pour les ltres, les agents modient lenvironnement en ajoutant, retirant ou mettant jour des entits. Par exemple, lagent visiteur v1 ajoute dans lenvironnement lentit 4 , qui reprsente le message m1 . Grce lensemble des descriptions des composants du SMA, un processus dappariement entre messages et agents (dtaill en section 4) permet de rsoudre le problme de connexion pour m1 via les ltres de F . Tous les composants du SMA sont au mme niveau dabstraction, cest dire des entits. An dobtenir des catgories dentits, nous utilisons linformation structurelle dexistence des proprits observables (valeur de pi gale null). Ainsi, une catgorie est un sous-ensemble dentits dcrites par un mme sous-ensemble de proprits. Lors de la connexion, la classication est faite de manire prcise en ajoutant des conditions que les entiEnvironment
: set of entities
1: <id, v1>, <visitSubject, e1>,
<position, reception>
Visitor agent
2: <id, e1>, <available, 14>, <position,

room 1>, <service, marketing>
3: <id, e2>, <available, 15>, <position,

unknown>, <service, marketing>
4: <sender, v1>, <receiver, e1>,
Employee agent e1
F : set of filters
Matching Algorithm
Filter direct1 Employee agent e2 Filter direct2 Filter indirect

Description relation Put/retract Filter Put/retract percept
interaction
F IG . 1 Exemple de modlisation des interactions avec EASI

399
ts doivent satisfaire. En ADS, un objet symbolique est une description cohrente dune entit. Une assertion est un cas particulier dobjet symbolique, une conjonction de tests lmentaires. Une assertion est une description en intention, et son extension dans contient toutes les entits satisfaisant cette description. Un ltre sera donc un objet symbolique dcrivant les entits qui sont lies un besoin en connexion particulier. Denition 1 (Filtre) Un ltre f F est un tuple fag , fpe , [fco ], nf o : fag est la description en intention de lagent rcepteur telle que : a f fag A, fag (a) = pi Pfag [pi (a)Rpag i dpi ]. fpe est la description en intention du percept telle que : , fpe ( ) = fpe f pi Pfpe [pi ( )Rppe i dpi ]. fco est la description en intention (optionnelle) du contexte telle que : C ,fco (C ) = cC fco (c), avec c c fco (c) = pi Pc [pi (c) Rp d ]. i pi nf est le nom du ltre. La description du rcepteur (dnition 1) est fonde sur les proprits quun agent doit possder pour tre un rcepteur potenf tiel. Avec Rpag i , le tuple des oprateurs de f comparaison et dpag i le tuple des valeurs et variables, lassertion fag dcrit les conditions satisfaire pour tre rcepteur. De la mme faon, la description du percept recevoir est donne par lassertion fpe . Le contexte de linteraction, i.e. les autres entits sur lesquelles portent des conditions, est donn par lobjet symbolique fco . Le contexte est donc une partie de ltat observable du SMA. De faon dcrire une interaction, les deux premires assertions sont obligatoires. Pour lAIA, le ltre dcrivant Sdi2 est : fSdi2 = [dep(a) =?x] [ava(a) = true], [dep(io) =?x], , di2 Les variables sont donnes prxes avec
400
un ?, comme ?x dans lexemple. Ce ltre dcrit la condition sur les agents ([dep(a) =?x] [ava(a) = true]), et sur les percepts ([dep(io) =?x]). Cest un exemple de groupe de destination : lmetteur choisit un groupe dont il connat les critres, mais dont il ne connat pas ncessairement les membres. Le modle EASI est gnrique car ce sont les ltres qui dterminent le modle dinteraction utilis, et tous les ltres sont traits de la mme faon. Ainsi, les agents peuvent utiliser de faon standardise nimporte quel modle en fonction de leurs besoins. La distinction peut tre effectue en tudiant linitiateur du ltre par rapport aux percepts. Soit f un ltre, si lagent initiateur de f nappartient pas lextension E (fag ), ceci signie quil nest pas dans les rcepteurs potentiels de ce ltre. Cest donc que le ltre dcrit les agents avec lesquels linitiateur dsire interagir, ce qui est de linteraction directe. Pour lexemple AIA, les ltres de communication direct sont lis Sdi1 et Sdi2 . La dnition fSdi1 est : fSdi1 = [id(a) = ?x], [receiver(io) =?x], di1 Dans ce cas, le rcepteur est de type destinataire, car il est prvu et connu par lmetteur, lequel a initi la connexion. Si linitiateur fait partie de E (fag ), cest dire quil fait partie des rcepteurs potentiels de son ltre, alors fpe dcrit les percepts quil souhaite recevoir. Cest une interaction indirecte, linitiative du rcepteur. Lexemple de ltre pour AIA dinteraction indirecte est : fSind = [id(a) = e2 ], [pos(io) MR] [sub(io) = available ], ind Lagent avec la proprit id valeur e2 percevra tous les percepts lis la disponibilit des salles de runion. Cest un couteur, puisque cest son initiative quil accde aux informations. Enn, pour les interactions de type coute ottante, linitiateur appartient E (fag ), mais le percept est initialement adress dautres agents. Lexemple AIA sera : fSmon = [id(a) = e3], [sender(io) =
?y ], [pos(ax) MR] [pos(ax) =?x] [pos(ay ) =?x] [dep(ax) = sav ] [id(ax) =?y ], mon avec ax, ay A. Lagent e3 est aussi un couteur puisquil est linitiative du ltre et quil est rcepteur potentiel.
par : receive(a, P erf ) P Ka P Ka P erf Il faut trouver les ensembles les plus petits lis chaque ltre. Une premire solution est donc de ne calculer la validation que pour les entits possdant les proprits requises. Lextension dun ltre f est le tuple E (P fag ), E (Pfpe ), E (Pfco ) . Ces ensembles sont calculables pour une description du SMA donne. Un percept peut tre reu par plusieurs agents grce au mme ltre. Par exemple, pour le mme percept, fSdi2 sera valide pour tous les agents disponibles du mme service. De plus, un mme percept peut tre peru grce plusieurs ltres. Par exemple, fSdi1 et fSmon peuvent tre valides pour un mme percept. La difcult est donc de trouver pour un percept io tous les rcepteurs potentiels, en fonction des ltres lis cet io. Nous dnissons Chaio comme lensemble des ltres f lis au percept io tel que cet io appartient lextension de chaque f (les dnitions sont donnes en gure 2). Pour chaque ltre f dans Chaio , on peut calculer lensemble des rcepteurs potentiels et lensemble des contextes. Recio est lensemble des agents appartenant aux extensions des ltres appartenant Chaio , et Coio est lensemble des contextes appartenant aux extensions de ces ltres. Enn, sur le mme principe, nous dnissions F P era (pour ltres de perception) comme lensemble des ltres
Nom Chaio Recio
4 Appariement
Une des difcults du problme de connexion est de trouver un algorithme gnrique permettant de grer les interactions quelle que soit la dynamique du SMA. Dans le cadre dEASI, le critre principal dvaluation de la dynamique est la frquence de mise jour des proprits. Notre proposition est donc un algorithme dappariement gnrique qui utilise les ensembles construits selon deux niveaux de description, lexistence des proprits et les contraintes. Lalgorithme dappariement sera fond sur la relation de validit suivante : Soit a A, io IO, C , V : A P () F {true, false}, V (a, io, C, f ) = fag (a) fpe (io) fco (C ) A chaque fois quune connexion est ralise, un destinataire reoit un percept. Autrement dit, lorsque V (a, io, C, f ) est valide, lagent a reoit P erf , tel que C C, P erf = {io, C , nf }. Lensemble des informations perues en mme temps que lio est compos du nom du ltre, et dun sous-ensemble du contexte de validation, i.e. une partie des entits de C . Un avantage dEASI sera ainsi que le rcepteur connat le contexte dans lequel il reoit un percept. Pour chaque percept ajout dans lenvironnement, lalgorithme doit associer les agents qui sont lis ce percept par des ltres, en fonction du contexte. La rception effective est dnote par la primitive receive(a, P erf ), qui signie la rception par lagent a de lensemble de perception P erf . Nous ne faisons aucune hypothse sur larchitecture des agents. En considrant donc un ensemble P Ka , les connaissances prives de lagent a, la primitive sera reprsente algorithmiquement
Coio
F P era F CoC
Dnition {f F|io E (Pfpe )} {a A|f Chaio , a E (Pfag )} {C |f Chaio , C E (Pfco )} {f F|a E (Pfag )} {f F|C E (Pfco )}
F IG . 2 Dnitions des ensembles pour lappariement structurel.

401
lis un agent a, cest dire que lagent appartient lextension de chacun de ces ltres. F CoC (contextes de perception) est lensemble des contextes appartenant lextension de ces ltres. Chacun des ensembles est rduit aux entits et ltres potentiels. Par exemple, au lieu dutiliser lensemble des agents A, nous avons Recio , i.e. le sous-ensemble des agents possdant les proprits requises. Pour un percept io, un agent a Recio et un contexte C Coio , lensemble minimal des ltres pouvant effectuer la connexion est (F P era Chaio F CoC ). Cet algorithme limite la recherche dappariement lespace des entits qui ont t classies en fonction de leur description en intention, ce qui amliore la rsolution de la connexion. La valeur des proprits ntant pas prise en compte, ce niveau de description nest pas sensible la frquence de mise jour du SMA.
sur les extensions des descriptions des entits, i.e. E (fag ), E (fpe ) et E (fco ) dans . Ces extensions sont rarement calculables entirement, car les appariements raliss dans les ltres peuvent mettre en correspondance des proprits de plusieurs ensembles dentits. Nous proposons donc de modier lalgorithme 1 en tant des ensembles dappariement les entits dont la valeur des proprits ne satisfait pas les conditions des ltres. Sur lensemble Chaio , la slection sera donc faite formellement par : Chav io = {f Chaio |pi fpe fpe Pfpe [pi (io)Ri di ] = false} Ceci signie lensemble des ltres pour lesquels il ny a pas de test lmentaire qui invalide lio. Par exemple, fSind nest valide que pour les io dont la proprit sub a pour valeur available . Par continuit, nous utiliserons dans ce second algorithme les ensembles restreints v de rcepteurs potentiels Receiverio et de v ltres F P era que lagent peut satisfaire. Ce calcul peut tre fait pour tous les ensembles de lalgorithme prcdent. Il en rsulte que le processus dappariement est plus rapide grce un parcours densembles plus petits, par contre le cot de maintenance des ensembles sera plus lev. En effet, lorsquune entit met jour ses proprits, elle peut passer pour un ltre donn de valide invalide ou inversement. Exprimentations De faon valuer la performance de nos algorithmes, nous avons mis en place une srie de tests comparatifs comprenant la diffusion classique (Broadcast) et nos deux algorithmes, respectivement nots E1 et E2. Nous nous sommes intresss en particulier la dpendance entre le taux de mise jour, le nombre dagents et la performance du systme. Les tests sont des simulations de lexemple AIA dcrit dans cet article.
Algorithm 1 Algorithme dappariement structurel Pour chaque (io IO) Pour chaque (a Recio ) Pour chaque (C Coio ) Pour chaque (f (F P era Chaio F CoC ) Si (V (a, io, C, f )) Alors receive(a, P erf ) Fin si Fin pour Fin pour Fin pour Fin pour
Lorsque les proprits observables ont un taux de mise jour raisonnable, il est possible danticiper quun sous-ensemble de rcepteurs potentiels, au sens possdant les proprits requises, ne satisfont pas certaines conditions en terme de valeurs. Dans lalgorithme prcdant, on value tout de mme ces entits. Nous proposons donc un nouvel algorithme, qui tout en suivant le mme droulement sera fond non plus sur les descriptions en intention, mais
402

Broadcast
200000
EASI1 EASI2
Time
150000
100000
50000
0 0
Broadcast EASI1 EASI2
50
100
150
200
250 45000 40000 35000
300
350
EASI1 EASI2
400
Agents
3000 2500 2000 1500 1000 500 0
25000 20000 15000 10000 5000
Update
0 50 40 30 20 10 0 10 8 6 4 2 0
F IG . 3 Broadcast - Algorithmes EASI. Temps dexcution en fonction du nombre dagent (haut) et du taux de mise jour (bas). Par broadcast, la rsolution du problme de connexion est dcentralise, i.e. chaque agent calcule les rcepteurs de ses messages, tandis quEASI centralise au niveau de lenvironnement ce calcul. Pour pouvoir comparer ces deux approches, nous devons donc valuer la performance du systme dans son ensemble. Ainsi, la fois le processus de dcision des agents et la gestion de lenvironnement sont mesurs dans un simulateur centralis. Il est noter que nous ne mesurons donc pas les cots en bande passante des diffrentes solutions. A chaque pas de temps et dans un ordre alatoire, chaque agent vrie ses messages, puis choisit et excute un comportement, comme rpondre un message, ajouter un ltre, etc. La moiti des agents sont des agents employ, lautre moiti des agents visiteur. Chaque agent met jour sa proprit ava lorsque cest ncessaire, et les agents employ modient leur proprit dep en fonction du taux de mise jour.
Rsultats. Les constantes de base sont un taux de mise jour de 1/10 (une fois tous les 10 pas), pour 40 agents, sur 8000 pas. Le premier graphique (Fig. 3, haut) donne le temps dexcution de la simulation en fonction du nombre dagents. Le broadcast est le moins efcace quel que soit
Time
30000
le nombre dagents. Cest la limite classique du broadcast, qui le rend inutilisable si le nombre de messages et/ou dagents devient important. Nous avons pu vrier que nos alorithmes pouvaientt grer un nombre assez important dagents avec les deux algorithmes EASI : Nous avons excuts des tests jusqu 1000 agents en 9 minutes, ce qui reprsente 22 millions de messages. Pour moins de 30 agents, le temps dexcution dE2 est plus long que celui dE1, tandis que pour plus dagents cest le contraire. En effet, la cration et la gestion des ensembles utiliss par E2 ncessitent plus de calculs que pour les ensembles utiliss par E1, tandis que lappariement dun message sera plus rapide pour E2. Pour un petit nombre dagents, le surcot du calcul des ensembles nest pas rentabilis par le gain de gestion, mais lavantage dE2 augmente mesure du nombre dagents. Le second graphique (Fig. 3, bas et droite) montre le temps dexcution en fonction du taux de mise jour. A nouveau, le broadcast est clairement dsavantag par rapport nos algorithmes. PuisquE1 utilise des ensembles calculs partir de la classication structurelle des entits, le taux de mise jour na pas deffet sur lalgorithme lui-mme. Finalement, le temps dexcution dE2 est sensible une forte dynamique des proprits : lorsque la frquence de mise jour est suprieure 1/2 il devient moins efcace cause du cot de mise jour des ensembles. Ces tests montrent donc que le modle EASI et nos algorithmes sont une solution valide au problme de connexion. Le choix entre E1 et E2 doit tre fait en fonction de la taille et de la dynamicit du SMA.
5 Discussion
Lutilisation de lenvironnement pour les interactions entre agents nest pas nouveau, et dautres travaux le modlisent comme espace commun et partag dans
403
lequel les agents voluent [7]. Nous partageons cette ide de placer lenvironnement comme lun des composant principaux de la conception du SMA. Cependant, ces travaux tendent ne pas sintresser spciquement au problme des communications multi-parties. Notre modle, quant lui, unie les diffrents moyens de communication de faon les rendre utilisables conjointement, y compris dans le cadre dagents purement interactionnels. Les modles despaces de tuples, initis par Linda [3], rentrent dans cette catgorie, mme sils ne sont pas ddis spciquement aux SMA. La diffrence avec notre modle est que les agents (ou processus) ne sont pas reprsents par des donnes au sein de lenvironnement, et que lutilisation dobjets symboliques pour retrouver linformation dans lenvironnement permet une expressivit plus riche que les templates utiliss dans les modles de type Linda. En effet, le systme teste si une donne considre correspond un template, tandis que les objets symboliques permettent les correspondances multiples entre entits distinctes. Notons que la programmation despaces de tuples peut tre un moyen dimplmenter le modle EASI. Notre mthode de rsolution des connexions permet le support effectif des communications multi-parties, grce la description de chaque entit du systme par des proprits observables. Notre proposition permet aux agents de dclarer explicitement leurs besoins dans lenvironnement, lequel gre ensuite la connexion. De cette faon, les interactions directes, indirectes, aussi bien que les communications multi-parties peuvent tre utilises au sein dun mme SMA, de faon standardise. Nous envisageons de tirer parti de lexpressivit du modle pour ltendre vers un systme de normes et lois, de faon contrler les interactions. Par ailleurs, nous travaillons sur la compltion des tests raliss pour prendre en compte les cots en bande passante dans un contexte compltement distribu.
404
Enn, nous tudions lapplication de notre modle la gestion de crise et plus gnralement la simulation.
Rfrences
[1] H. Bock and E. Diday. Analysis of symbolic data. exploratory methods for extracting statistical information from complex data. In Studies in Classication, Data Analysis, and Knowledge Organisation, volume 15. Springer-Verlag, 2000. [2] H. Branigan. Perspectives on multi-party dialogue. Research on Language & Computation, 4 (2-3) :153177, October 2006. [3] N. Carriero, D. Gelernter, and J. Leichter. Distributed data structures in linda. In popl86 : Proceedings of the 13th ACM SigactSigplan symposium on Principles Of Programming Languages, pages 236242, 1986. [4] J. Dugdale, J. Pavard, and B. Soubie. A pragmatic development of a computer simulation of an emergency call center. In Designing Cooperative Systems : The Use of Theories and Models, pages 241256. IOS Press, 2000. [5] S. Kumar, M. J. Huber, D. McGee, P. R. Cohen, and H. J. Levesque. Semantics of agent communication languages for group interaction. In Proceedings of the Seventeenth National Conference on Articial Intelligence, pages 4247. AAAI Press / The MIT Press, 2000. [6] E. Platon, N. Sabouret, and S. Honiden. Overhearing and direct interactions : Point of view of an active environment, a preliminary study. In Proceedings of Environment for Multi-Agent Systems, Workshop held at the Fourth Joint Conference in Autonomous Agents and MultiAgent Systems, pages 121138. Springer Verlag, 2005. [7] D. Weyns, H. V. D. Parunak, F. Michel, T. Holvoet, and J. Ferber. Environments for multiagent systems, state-of-the-art and research challenges. Lecture Notes in Computer Science Series, 3374 :252, 2005.

Annale Du Lamsade N°8 - Mai, 2007

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Annale Du Lamsade N°8 - Mai, 2007

Transféré par

Droits d'auteur :

Formats disponibles

Laboratoire dAnalyse et Modlisation de Systmes pour lAide la Dcision UMR CNRS 7024

ANNALES DU LAMSADE N8 Mai 2007

MFI07 Actes des Quatrimes Journes Francophones

103 113 127

317 325 333

357 365 373 379

An Abstract Framework for Argumentation-based Negotiation

____________________________________________________________________________ An abstract framework for argumentation-based negotiation

2 The logical language

___________________________________________________________________________ Annales du LAMSADE N8

3 Negotiating agents theories and reasoning models

____________________________________________________________________________ An abstract framework for argumentation-based negotiation

= {(a1 , a2 ), (a2 , a1 ), (a3 , a2 ), (a4 , a3 )}

___________________________________________________________________________ Annales du LAMSADE N8

____________________________________________________________________________ An abstract framework for argumentation-based negotiation

i Ri t = R0 {(ai , aj ) | ai = Argument(mi ), aj = Argument(mj ), i, j t, and ai RL aj } R with R RL i i Defi t At A t

___________________________________________________________________________ Annales du LAMSADE N8

____________________________________________________________________________ An abstract framework for argumentation-based negotiation

2 The rst move has no target.

___________________________________________________________________________ Annales du LAMSADE N8

Property 2 Let d = m1 , . . . , ml be a argumentation-based negotiation dialogue. If Outcome(d) = , then t l,

A direct consequence of the above theorem is the following:

____________________________________________________________________________ An abstract framework for argumentation-based negotiation

___________________________________________________________________________ Annales du LAMSADE N8

____________________________________________________________________________ An abstract framework for argumentation-based negotiation

Practical reasoning as a generalized decision making problem

Practical ___________________________________________________________________________ reasoning as a generalized decision making problem

____________________________________________________________________________ Annales du LAMSADE N8

2 General framework for practical reasoning

Practical ___________________________________________________________________________ reasoning as a generalized decision making problem

____________________________________________________________________________ Annales du LAMSADE N8

Practical ___________________________________________________________________________ reasoning as a generalized decision making problem

____________________________________________________________________________ Annales du LAMSADE N8

Some decision criteria.

Sj iff GoalsP (Si ) = , and GoalsP (Sj ) = (1)

Sj iff GoalsP (Si ) GoalsP (Sj ) (2)

Sj iff |GoalsP (Si )| > |GoalsP (Sj )| (3)

Practical ___________________________________________________________________________ reasoning as a generalized decision making problem

<{t, vac}, jca>

<{t, vac}, jca>

<{t, vac}, jca>

<{t, vac}, jca>

____________________________________________________________________________ Annales du LAMSADE N8

Practical ___________________________________________________________________________ reasoning as a generalized decision making problem

Planication multi-agent et diagnostic stratgique

Planification ___________________________________________________________________________ multi-agent et diagnostic stratgique

2 Un cadre formel pour la planication multi-agent

____________________________________________________________________________ Annales du LAMSADE N8

Planification ___________________________________________________________________________ multi-agent et diagnostic stratgique

____________________________________________________________________________ Annales du LAMSADE N8

Planification ___________________________________________________________________________ multi-agent et diagnostic stratgique

0 1-i 0 1-i 0 1-i j 10 j 6 11 j 6 12 6 1 1 1

____________________________________________________________________________ Annales du LAMSADE N8

3 Rsolution du jeu et gnration de diagnostic stratgique

TAB . 1 Evaluation des SPs

Planification ___________________________________________________________________________ multi-agent et diagnostic stratgique

p2 p2 p1 (3,3) (0,4) p1 (4,0) (1,1)

____________________________________________________________________________ Annales du LAMSADE N8

Planification ___________________________________________________________________________ multi-agent et diagnostic stratgique

J1 B1C 1 B1J 1 C 1J 1 J 1B1 J 1C 1

____________________________________________________________________________ Annales du LAMSADE N8

Planification ___________________________________________________________________________ multi-agent et diagnostic stratgique

Les reprsentations prdictives des tats et des politiques