JSD Jfsma08

Recherche incrémentale à base de points pour la
résolution des DEC-POMDPs

J. S. Dibangoyea,b A.-I. Mouaddiba B. Chaib-draab
gilles.dibangoye@unicaen.fr mouaddib@info.unicaen.fr brahim.chaib-draa@ift.ulaval.ca
a
Greyc - UMR 6072,
Université de Caen, France
b
Département d’informatique,
Université Laval - Québec Q.C., Canada
Résumé haustive backup. A theoretical analysis of PBIP

Nous nous intéréssons au problème du contrôle shows that it is both complete and optimal (with
d’un processus décisionnel de Markov décen- respect to MBDP). We also present experiment
tralisé et partiellement observé (DEC - POMDP) à results, which show how PBIP outperforms the
horizon fini. Nous introduisons une nouvelle ap- performance of MBDP and extensions on DEC -
proche heuristique qui s’appuie sur les obser- POMDP examples from the literature.
vations suivantes : (1) l’opération élémentaire Keywords: Decentralized planning
de programmation dynamique, consistant à la
génération exhaustive et l’évaluation de toutes
les politiques jointes, est extrêmement prohi- 1 Introduction
bitive ; (2) bon nombre des politiques jointes
ainsi générées sont inutiles pour un contrôle op- De nombreux problèmes de planification qui
timal ou presqu’optimal. Suivant ces observa- impliquent deux ou plusieurs agents coopè-
tions, nous proposons la première technique de rants afin d’optimiser une fonction de récom-
construction incrémentale de politiques jointes pense, tout en ayant différentes observations lo-
à base d’états de croyance, PBIP, permettant cales, peuvent être modélisés comme des DEC -
d’éviter ces calculs intensifs. L’algorithme PBIP POMDPs. Ces problèmes apparaissent naturelle-
surpasse les performances des meilleurs tech- ment dans diverses disciplines, incluant l’infor-
niques approximatives actuelles sur de nom- matique, par exemple le contrôle de plusieurs
breux exemples de la littérature. robots pour l’exploration de l’espace, l’écono-
Mots-clés : Planification décentralisée mie, les chaînes d’approvisionnement décentra-
lisées, ou la recherche opérationnelle, le trafic
Abstract des réseaux de routage. Malheureusement, trou-
Recent scaling up of decentralized partially ver une solution optimale ou ε-approximée à
observable Markov decision process (DEC - de tels problèmes s’est révélée particulièrement
POMDP) solvers towards realistic applications difficile [3, 7]. À ce jour, la plupart des algo-
is mainly due to approximate methods. Of this rithmes de résolution des DEC - POMDPs sont es-
family, MEMORY BOUNDED DYNAMIC PRO - timés incapables de faire face aux problèmes
GRAMMING (MBDP), which combines in a sui- réels [5, 11, 12].
table manner top-down heuristics and bottom-
up value function updates, can solve DEC - Il y a deux difficultés distinctes, mais étroite-
POMDPs with large horizons. The performance ment liées, qui expliquent l’incapacité de ces al-
of MBDP, however, can be drastically improved gorithmes à passer à l’échelle. La plus connue
by avoiding the systematic generation and eva- des ces difficultés est nommée la malédiction
luation of all possible policies which result from de la dimension [2] : dans un problème avec
the exhaustive backup. To achieve that, we sug- n agents ; |S| états physiques (pour chaque
gest a heuristic search method, namely POINT agent) ; et pour Q−i l’ensemble des politiques
BASED INCREMENTAL PRUNING (PBIP) which jointes des partenaires de l’agent i, les algo-
is able to distinguish policies with different heu- rithmes doivent raisonner sur un espace continu
ristic estimate. Taking this insight into account, de dimension |S n × Q−i | qui croît doublement
PBIP searches only among the most promising exponentiellement avec le nombre d’agents et
policies, finds the useful, and prunes domina- le nombre d’observations. Cela s’explique par
ted ones. Doing so permits us to reduce clearly le fait que chaque agent doit raisonner sur la
the amount of computation required by the ex- base des politiques des autres agents évaluées
sur l’espace joint des états physiques S n . Cette DEC - POMDP vers un sous-espace des politiques
contrainte indique en partie pourquoi la majorité du POMDP multi-agent sous-jacent (MPOMDP) ;
des algorithmes est incapable de résoudre des (2) nous utilisons les états de croyance sélec-
DEC - POMDP s avec un grand nombre d’agents et tionnés par chaînage-avant afin de déterminer
quelques dizaines d’états. L’autre difficulté de les contributions des politiques jointes de l’ité-
la complexité des DEC - POMDPs est la malédic- ration précédente dans celles de l’itération cou-
tion de l’historique : où le nombre d’historiques rante ; (3) ces contributions sont par la suite
joints croît doublement exponentiellement avec utilisées comme estimations heuristiques afin
l’horizon de planification et le nombre d’agents de traverser l’espace exponentiel des politiques
[6]. De récentes tentatives ont été faites pour mi- jointes du DEC - POMDP vers un espace plus pe-
nimiser l’ensemble des historiques considérés tit correspondant aux politiques pertinentes du
[4, 8, 9, 11], mais jusqu’à présent, les meilleures MPOMDP sous-jacent.
techniques, y compris MBDP [9], restent tou-
jours entravées par la malédiction de la dimen- 2 Contexte général
sion.
Pour les DEC - POMDPs à horizon fini, MBDP [9] Dans cette section, nous présentons le modèle
est actuellement l’algorithme approximatif qui des DEC - POMDPs et certains des travaux de
connaît le plus de succès. En comparaison à l’état de l’art.
d’autres algorithmes de programmation dyna-
mique (DP), MBDP dispose de deux avantages : 2.1 Le cadre formel des DEC-POMDPs
d’une part, il est à mémoire limitée, i.e., il ne re-
quiert pas la mémorisation d’un nombre expo- Le cadre formel des DEC - POMDPs est un mo-
nentiel de politiques mais seulement un nombre dèle généralisé pour des systèmes d’agents
fixe noté maxT rees ; d’autre part, il sélectionne coopératifs, qui opèrent dans des domaines
suivant un ensemble d’heuristiques, ses états de impliquant à la fois des états cachés mais
croyance permettant de choisir les meilleurs po- aussi de l’incertitude sur les effets des ac-
litiques courantes. Toutefois, un des effets in- tions. Un DEC - POMDP à n agents est un tuple
désirables de cette stratégie est qu’elle néces- (I, S, {Ai}i , P, R, {Ωi}i , O, T, b0 ).
site l’énumération exhaustive de toutes les poli- – Soit I = {1, · · · , n} un ensemble fini
tiques jointes de l’itération courante construites d’agents.
sur la base des politiques jointes de l’itération – Soit S un ensemble fini d’états.
précédente. Ceci est réalisé par le biais de l’opé- – Soit Ai = {a1 , a2 , · · · } un ensemble
ration dite de sauvegarde exhaustive. Malheu- fini d’actions disponibles pour l’agent i, et
reusement dans le pire des cas, le nombre de A = ⊗i∈I Ai l’ensemble fini d’actions jointes
politiques jointes résultantes croît exponentiel- a, où a = (a1 , · · · , an ), la variable ai dénote
lement en fonction du nombre d’observations et une action exécutée par l’agent i ∈ I.
du nombre d’agents. Ce problème nous pousse – Soit P (s′ |s, a) la fonction de transition.
à introduire une nouvelle technique réduisant – Soit R(s, a) la fonction de récompense.
considérable la complexité de la sauvegarde ex- – Soit Ωi = {o1 , o2 , · · · } un ensemble fini d’ob-
haustive. servations disponibles pour l’agent i, et Ω =
⊗i∈I Ωi l’ensemble fini d’observation jointes
La principale contribution de ce papier est l’in- o ∈ Ω, où o = (o1 , · · · , on ) et la variable
troduction d’une nouvelle technique de sélec- oi dénote une observation reçue par l’agent
tion des meilleures politiques jointes d’une ité- i ∈ I.
ration donnée selon un ensemble fini d’états – Soit O(o|a, s) la fonction d’observation.
de croyance et les politiques jointes de l’itéra- – Soit T l’horizon de planification.
tion précédente. Cette méthode vise à rempla- – Soit b0 l’état de croyance initial du système.
cer l’opérateur fondamental de tout algorithme Sachant un DEC - POMDP, nous avons pour
de programmation dynamique à savoir la sau- objectif de trouver un vecteur de poli-
vegarde exhaustive. PBIP contourne le problème tiques
de la sauvegarde exhaustive en construisant in- hP dont la récompense i à long terme,
T −1
crémentalement les plus prometteuses des poli- E t=0 R(st , at )| b0 , est la plus grande
tiques jointes et en élaguant les politiques domi- pour l’état de croyance initial b0 . Une politique
nées. Ceci est réalisé au moyen d’une méthode pour un seul agent, arbre de politique, peut-
triple : (1) nous identifions tout d’abord une bi- être représentée comme un arbre de décision
jection de l’espace des politiques jointes d’un désigné qi , où les nœuds sont marqués par une
action ai ∈ Ai et les arêtes étiquettées par une précédentes. Cependant, d’un point de vue pra-
observation oi ∈ Ωi . Soit Qti l’ensemble des po- tique, MBDP dispose aussi bien de points forts
litiques de l’agent i à l’horizon de planification que de points faibles. D’un côté, il réduit consi-
t. Une solution à horizon t d’un DEC - POMDP dérablement la complexité en pire cas des algo-
peut alors être considérée comme un vecteur rithmes de résolution de DEC - POMDPs notam-
d’arbres de politiques à horizon t. On décrit une ment par rapport à l’horizon. Cependant, il uti-
telle politique en utilisant un vecteur d’arbres lise la sauvegarde exhaustive, et par conséquent,
de politiques ~qt = (q1t , · · · , qnt ), un arbre par la manipulation et l’évaluation des politiques
agent. L’ensemble des vecteurs d’arbres de po- jointes nécessite un calcul intensif.
litiques est noté Qt = ⊗i∈I Qti . Nous définissons
également V (s, ~qt ) comme la valeur espérée à L’inconvénient majeur de MBDP est qu’il tra-
l’état s suite à l’exécution du vecteur d’arbres verse l’espace exponentiel des politiques jointes
de politiques ~qt . afin de déterminer les meilleures d’entre elles
X
"
X
# selon un ensemble d’états de croyance. Pour
V (s, q~t ) = P (o|s, q~t ) P (s′ |s, q~t , o)V (s′ , η(~
qt , o)) (1) mieux comprendre la complexité de MBDP,
s′
o
considérons maxT rees le nombre de poli-
où η(~qt , o) est le vecteur d’arbres de politiques sélectionnées pour chaque agent à une
tiques exécuté par les agents après la recep- itération donnée. La première étape de cette
tion de l’observation jointe o. Nous utilisons méthode consiste à créer |Ai |maxT rees|Ωi |
α(~qt ) afin de désigner le nœud racine (action politiques par agent ; la deuxième évalue
jointe) du vecteur d’arbres de politiques ~qt . Un ×i∈I (|Ai |maxT rees|Ωi | ) politiques jointes pour
vecteur d’arbres de politiques optimales ~q⋆T = chaque état de croyance. Par conséquent, MBDP
(q1T , · · · , qnT ) pour un état de croyance initial b0 requiert par horizon un temps exponentiel
peut alors être déterminé comme suit : |S 2 ||A||Ω|maxT rees|Ωi||I|+1, où |S|, |Ω| et
~q⋆T = arg maxq~T ∈QT
P |A| croissent exponentiellement avec |I|. Plus
s b0 (s)V (s, ~
qT ) (2)
important encore, MBDP procède ainsi même
Un certain nombre d’algorithmes ont été propo- si très peu de ces politiques sont pertinentes
sés pour la construction de solutions optimales pour la réalisation d’un comportement optimal
ou approximatives selon deux familles de straté- ou presqu’optimal. Toutefois, très peu d’efforts
gies : les méthodes de recherche par chaînage- ont été consacrés à l’exploiter cette idée. Actuel-
avant [12] et celles par chaînage-arrière [5, 11]. lement, la quasi-totalité des algorithmes de ré-
Les difficultés du passage à l’échelle des mé- solution des DEC - POMDPs fait usage de la sau-
thodes précitées ont entraîné le développement vegarde exhaustive. Fort de cette observation,
d’une vaste variété d’algorithmes approxima- nous voulons concevoir un algorithme général
tifs. Parmi eux, MBDP [9] et ses extensions sont qui soit en mesure d’identifier les politiques po-
les seules méthodes capables de résoudre des tentiellement utiles de celles qui ne le sont pas
DEC - POMDP s à des horizons élevés. de façon à éviter le problème de la sauvegarde
exhaustive.
2.2 L’algorithme MBDP
3 Recherche incrémentale
MBDP [9] est un simple algorithme de program-
mation dynamique, qui maintient pour chaque
agent un nombre limité d’arbres de politiques, Dans cette section, nous décrivons une version
naïve de la méthode proposée, la version opti-
i.e., paramètre maxT rees. À chaque itération, misée et les principales priopriétés sont discu-
MBDP sélectionne maxT rees états de croyance tées plus en profondeur dans la section suivante.
en utilisant des heuristiques de recherche par Tout d’abord nous allons introduire quelques
chaînage-avant. Puis, il identifie le meilleur définitions supplémentaires.
arbre de politiques jointes pour chaque état
de croyance, utilisant l’ensemble des politiques
jointes résultantes de la sauvegarde exhaustive. 3.1 Espace de recherche
À l’itération T , la meilleure politique jointe, en
fonction de l’état de croyance initial b0 et des Notre objectif étant de déterminer un vecteur de
politiques jointes de l’itération précédente, est politiques d’un DEC - POMDP, il paraît évident de
retournée. Cette combinaison des approches de faire de l’espace des vecteurs de politiques notre
chaînage-avant et chaînage-arrière est très effi- espace de recherche. Cependant, pour des rai-
cace, et fait de MBDP une méthode différente des sons de mise en œuvre de notre approche nous
considérons une représentation legèrement dif- d’utilité d’un arbre-joint courant ; de plus com-
férente de ces politiques. En effet, à la différence ment ces estimations peuvent-elles orienter la
de la représentation classique (vecteur d’arbres recherche vers des arbres-joints les plus utiles.
de politiques), nous considérons un arbre de po-
litique δ, dit arbre-joint, pour tout le groupe Afin d’es-
Évaluation des estimations heuristiques.
d’agents. Un arbre-joint est un arbre de décision timer le potentiel d’utilité d’un arbre-joint δ,
où la racine α(δ) = (α(q1 ), · · · , α(qn )) est mar- pour un état de croyance b et des sous-arbres,
qué par une action jointe ; les arcs sont étiquettés nous devons identifier la contribution de chacun
par des observations jointes o ∈ Ω ; et les sous- des sous-arbres dans la valeur de l’arbre-joint
arbres sont des vecteurs d’arbres de politiques courant.
η(δ, o) = (η(q1 , o1 ), · · · , η(qn , on )) de l’itéra- – la contribution d’un sous-arbre η(δ, o) est :
tion précédente. La Figure 1 illustre parfaite- δ = P (o|b, δ)
gb,o
ˆP
P (s′ |s, δ, o)V (s′ , η(δ, o))
˜
(3)
s′ ∈S
ment une telle représentation. Le lecteur notera
que cette représentation correspond exactement l’évaluation de toutes les contribu-
à celle des politiques jointes du MPOMDP sous- tions requiert un temps polynômial,
jacent au DEC - POMDP. O(|S 2||A||Ω|maxT rees2 ), négligeable com-
parativement à la complexité de la sauvegarde
δ
(a2 a2 )
qi
a2
qj
a2
exhaustive.
– et la valeur exacte de l’arbre-joint δ est :
o0 o0 o0 o1 o1 o0 o1 o1 o0 o1 o0 o1
f ⋆ (b, δ) = δ
P P
s∈S b(s)R(s, α(δ)) + o∈Ω gb,o (4)
(qi2 , qj2 ) (qi2 , qj1 ) (qi1 , qj2 ) (qi1 , qj1 ) qi2 qi1 qj2 qj1
MPOMDP DEC - POMDP

Il assez facile, cependant, de démontrer que
l’arbre-joint dont les sous-arbres offrent indivi-
duellement les meilleures contributions est très
F IG . 1 – Politiques du MPOMDP et du DEC - POMDP. probablement non-décentralisable. En effet, il
correspond à la politique optimale, selon les cri-
3.2 Formulation du problème tères précités, du MPOMDP sous-jacent au DEC -
POMDP à résoudre. À l’exception de cas par-
Un effet désirable découle des observations pré- ticuliers, la valeur de la politique optimale du
cédentes : la recherche de la politique jointe MPOMDP sous-jacent est une borne supérieure
δ t optimale pour un état de croyance b et un sur la valeur de la meilleure politique jointe
ensemble de politiques jointes Qt−1 de l’itéra- du DEC - POMDP à résoudre. En outre, contrai-
tion précédente, équivaut au problème du dé- rement aux MPOMDPs dans le cadre des DEC -
terminisme de l’action jointe α(δ t ) et des sous- POMDPs les sous-arbres d’un arbre-joint doivent
arbres η(δ t , o) de sorte que l’arbre-joint δ t ré- vérifier la condition (C 2). Néanmoins, la bonne
sultant soit à la fois décentralisable et opti- nouvelle est que nous pouvons utiliser ces es-
mal. Nous dirons qu’un arbre-joint est décen- timations pour définir une heuristique sur la
tralisable s’il existe un vecteur d’arbres de poli- valeur réelle des arbres-joints partiellement ou
tique (q1 , · · · , qn ) qui vérifie les conditions (C1) complètement définis. On dira qu’un arbre-joint
et (C2) suivantes, dites conditions de décentra- est partiellement défini si tout ou partie des ses
lisabilité de l’arbre joint : sous-arbres reste à définir. L’estimation heuris-
– (C1) α(δ) = (α(q1 ), · · · , α(qn )), tique d’un arbre-joint est basée sur la décom-
position de la fonction d’évaluation (Equation
– (C2) η(δ, o) = (η(q1 , o1 ), · · · , η(qn , on )). 1) en deux estimations : la première estimation,
Un arbre-joint est dit décentralisable s’il équi- g(b, δ), correspond à la somme des contributions
vaut à un vecteur de politiques, autrement nous des sous-arbres définis et bien sûr sélectionnés
dirons qu’il est non-décentralisable et corres- conformément à (C2) ; la deuxième estimation,
pond simplement à une politique jointe du h(b, δ), est la somme des meilleures contribu-
MPOMDP sous-jacent au DEC - POMDP à ré- tions des sous-arbres non définis. Nous intro-
soudre. duisons Ω1 comme l’ensemble des observations
jointes qui mène à un sous-arbre défini et Ω2
3.3 L’approche heuristique correspond au reste des observations jointes de
sorte que Ω = Ω1 ∪ Ω2 . Ceci nous permet de dé-
A ce niveau, nous nous retrouvons avec deux composer l’estimation heuristique de tout arbre-
problèmes : tout d’abord, comment les vecteurs joint δ pour un état de croyance donné b en une
d’arbres de politiques de l’itération précédente partie provenant de la contribution exacte des
peuvent-ils nous aider à estimer le potentiel observations jointes Ω1 et une borne-supérieure
sur les contributions en provenance des autres 3.4 L’algorithme PBIP
observations jointes Ω2 :
X X La méthode heuristique decrite ci-dessus, de
f (b, δ) = b · rα(δ) + δ
gb,o + b
ḡα(δ),o type A⋆ , souffre de trois inconvénients majeurs :
o∈Ω1 o∈Ω2 (5) elle requiert de nombreux calculs ; consomme
| {z } | {z } beaucoup de mémoire ; et la stratégie d’élagage
g(b,δ) h(b,δ) est inefficace. Afin de faire face à ces inconvé-
nients, nous proposons les optimisations supplé-
b δ mentaires suivantes.
avec ḡα(δ),o = maxδ gb,o . Bien entendu, l’es-
timation heuristique f est une fonction heuris-
tique admissible. En effet, pour tout arbre-joint Réduire la quantité de calculs. Tout d’abord
δ et état de croyance b, on a par construction : l’heuristique ci-dessus nécessite la vérification
f (b, δ) ≥ f ⋆ (b, δ). des conditions (C1) et (C2) pour chaque arbre-
joint partiel δ. Toutefois, cette opération exige
Description sommaire. Dans un souci de clarté en pire cas une complexité en temps de O(n ·
nous proposons une première description naïve |Ω1 | · |Qt−1 |), où O(n · |Ω1 |) opérations sont re-
de notre méthode nommée PBIP (POINT- BASED quises pour un seul sous-arbre. Pour contour-
INCREMENTAL PRUNING ). Cette méthode vise ner ce point, nous nous appuyons sur le fait
à identifier l’arbre-joint optimal selon les cri- que seul un nombre restreint de sous-arbres doit
tères précités. Pour ce faire, PBIP divise la être sélectionnés afin de définir complètement
sélection de l’arbre-joint optimal en la sélec- un arbre-joint, comme l’illustre l’exemple sui-
tion de plusieurs sous-arbres, un pour chaque vant.
observation jointe. Malheureusement, comme
nous l’avons déjà mentionné, l’arbre-joint ré- Exemple 1 Revenons sur l’exemple Figure 1,
sultant doit être optimal et décentralisable, en supposons connu les sous-arbres suivants :
d’autre termes il doit vérifier les conditions (C1) η(δ, (o0 , o0 )) = (qi2 , qj2 ) et η(δ, (o1 , o1 )) =
et (C2). Afin de satisfaire ces exigences, PBIP (qi1 , qj1 ). On a alors : η(qi , o0 ) = qi2 et
combine un mécanisme de construction incré-
mentale (sous-arbre par sous-arbre) de l’arbre- η(qi , o1 ) = qi1 pour l’agent i ; et η(qj , o0 ) =
joint à un mécanisme de recherche heuristique qj2 et η(qj , o1 ) = qj1 pour l’agent j. Dès
classique. La méthode résultante est alors ca- lors il est facile de construire l’arbre-joint δ
pable de construire progressivement un arbre correspondant, par exemple η(δ, (o0 , o1 )) =
de recherche dans l’espace des arbres-joints. Le (η(qi , o0 ), η(qj , o1 )) = (qi2 , qj1 ).
nœud racine de l’arbre de recherche est initia-
lisé par un arbre-joint de racine une action jointe
(non traitée) et dont aucun des sous-arbres n’est Cette remarque nous permet de réduire les cal-
défini. L’expansion d’un nœud n (de l’arbre de culs intensifs qui étaient précédemment néces-
recherche) marqué par l’arbre-joint δ corres- saires, car (C2) ne sera vérifiée que pour un
pond à la construction de tous les arbres-joints nombre assez réduit de sous-arbres. Plus for-
qui étendent δ. En d’autres termes, il s’agit de mellement, nous introduisons la notion d’arbre-
construire tous les arbres-joints où un sous-arbre joint de base afin de désigner un arbre-joint
non défini de δ est remplacé par un sous-arbre partiel qui possède le plus petit nombre de
sélectionné conformément à (C2), pour chaque sous-arbres définis et suffisants pour construire
arbre-joint δ ′ ainsi créé, assigner à n un nœud l’arbre-joint complet. L’ensemble des obser-
fils marqué par δ ′ . Lorsqu’un arbre de recherche vations jointes, qui étiquettent les arcs me-
a été complètement exploré, PBIP garde en mé- nant aux sous-arbres définis, est dit ensemble
moire le meilleur arbre-joint et débute un nouvel d’observations jointes de base et noté ΩB =
arbre de recherche avec comme arbre-joint ini- {o1 , · · · , oκ }. Les nœuds associés aux sous-
tial un arbre-joint partiel dont la racine est éti- arbres définis sont appelés les nœuds de base.
quettée par une action jointe non traitée, jusqu’à Dans la Figure 1, l’arbre-joint δ où les arcs
ce que toutes les actions jointes aient été trai- {(o0 , o1 ), (o1 , o0 )} sont supprimés est un arbre-
tées. La valeur exacte de l’arbre-joint qui est à joint de base, ses observations jointes de
la fois complètement défini (tous les sous-arbres base et nœuds de base sont les ensembles
sont définis) et l’actuel meilleur arbre-joint (dis- {(o0 , o0 ), (o1 , o1 )} et {(qi2 , qj2 ), (qi1, qj1 )}, respec-
posant de la plus grande valeur), peut-être défi- tivement. S’il est relativement simple de déter-
nie comme borne inférieure notée f (b). miner l’arbre-joint complet sachant l’arbre-joint
de base, on peut se demander comment détermi- de la file de priorité. En effet, les autres nœuds
ner un arbre-joint de base. Une des stratégies est ne seront developpés que s’il s’avère que la va-
de déterminer tout d’abord un ensemble d’ob- leur réelle du nœud developpé est inférieure à
servations jointes de base ΩB , puis de sélection- l’estimation heuristique du nœud suivant dans la
ner les sous-arbres pour chacun des nœuds de file. Finalement, l’algorithme résultant ne main-
base. Nous construisons ΩB par ajout progres- tient en mémoire qu’un nœud par niveau de
sif d’une observation jointe o ∈ Ω qui soit in- l’arbre de recherche, soit en pire cas (κ + 1)
dépendante de celles déjà incluses dans ΩB . On nœuds.
dira que les deux observations jointes (o0 , o0 ) et
δ0
(o1 , o1 ) sont indépendantes par composante tan- (a2 a2 )
dis que (o0 , o0 ) et (o0 , o1 ) sont simplement in- arbre-joint non développé
arbre-joint développé
o0 o0 o1 o1
dépendantes (car une des composantes est iden- ? sous-arbre non-décentralisable ? ?
tique). L’ajout d’observations jointes indépen- f = −1.42
dantes se fait de sorte à priviléger les observa- δ1
(a2 a2 )
δ4
(a2 a2 )
tions jointes indépendantes par composante. La o0 o0 o1 o1 o0 o0 o1 o1
procédure s’arrête lorsque l’ensemble ΩB est (qi2 qj2 ) (qi1 qj2 )
? ?
un ensembled de base. La belle propriété des
arbres-joints de base est que la vérification de δ2 f = −4 δ3 f = −6.746
(a2 a2 ) (a2 a2 )
(C 2) ne se fait que pour les nœuds de base as-
o0 o0 o1 o1 o0 o0 o1 o1
sociés aux observations jointes simplement in-
(qi2 qj2 ) (qi2 qj2 ) (qi2 qj2 ) (qi2 qj1 )
dépendantes. En effet, cette condition est au-
tomatiquement vérifiée dans le cas d’observa- f ⋆ = −4 f = −4
tions indépendantes par composantes. En outre,

on peut montrer que le nombre κ de nœuds de F IG . 2 – Une section d’un arbre de recherche de PBIP.
base est assez réduit, où κ = maxi∈I |Ωi | (par
construction de ΩB ). En particulier, si tous les Algorithm 1 Élagage incrémental à base de
agents ont le même nombre d’observations indi- points
viduelles, il est inutile de vérifier (C2). En effet, 1: procedure PBIP((maxT rees, T , H))
dans ce cas, seules les observations jointes in- 2: Select1 ← initialiser toutes les politiques de profondeur 1
dépendantes par composantes sont inclues dans 3: for all t = 2, · · · , T do

4: Qt−1 ← Selectt and Selectt ← ∅
ΩB . 5: for all k = 1, · · · , maxT rees do
6: choisir h ∈ H et générer l’état de croyance b
7: δt ← null et f (b) ← −∞
Réduire la complexité en espace.Un inconvénient 8:

9:
for all a ∈ A do
R ECHERCHE (b, a, δt , ΩB , Qt−1 , Selectt )
majeur des techniques de type A⋆ est qu’en pire 10:
11:
end for
ajout du meilleur arbre-joint δt à Selectt
cas elles doivent se souvenir d’un nombre expo- 12: end for
13: end for
nentiel de nœuds. Malheureusement, cette stra- 14: sélectionner l’arbre-joint optimal δ⋆T de SelectT
15: returner δ⋆T
tégie requiert une quantité considérable de mé- 16: end procedure
moire. Pour faire face à cela, nous restreignons
le nombre de nœuds à développer à chaque ni-
veau de l’arbre de recherche. Plus précisement, Améliorer la stratégie d’élagage. L’utilisation des
les arbres-joints partiels attachés aux feuilles arbres-joints de base nous offre l’opportunité
de l’arbre de recherche correspondent unique- d’améliorer significativement la stratégie d’éla-
ment à toutes les associations possibles d’un gage en exploitant les propriétés de la fonction
sous-arbre à un seul et même nœud de base heuristique f . Soit Q(δ) l’ensemble des arbres-
non-défini, comme l’illustre la Figure 2. Cette joints successeurs de l’arbre-joint δ, c’est-à-dire
idée est motivée par le constat selon lequel ces les arbres-joints construits après δ selon l’ordre
arbres-joints partiels ne diffèrent que par rap- de priorité défini précédemment. Par exemple,
port au dernier sous-arbre qui leur est affecté. dans la Figure 2, les successeurs de l’arbre-joint
En conséquence, ils sont traitées dans l’ordre δ1 sont les arbres-joints {δ2 , δ3 , δ4 }. L’admissi-
décroissant de la contribution du dernier sous- bilité de la fonction heuristique f et l’ordre sui-
arbre affecté. Les contributions de chaque sous- vant lequel PBIP traite les arbres-joints, nous
arbre selon le nœud de base considéré sont pré- permet d’énoncer les résultats suivants :
calculées et stockées dans une file de priorité.
Ainsi, lors de l’expansion d’un nœud feuille, il
nous suffit de construire le meilleur nœud fils, Lemme 1 Soit δ un arbre-joint attaché au nœud
c’est-à-dire le nœud marqué par un arbre-joint n. Il vient alors que : ∀δ ′ ∈ Q(δ) : f (b, δ) ≥
dont le dernier sous-arbre assigné est le premier f (b, δ ′ ).
Algorithm 2 PBIP sous-routines.
1: procedure ÉTENDRE
1: procedure R ECHERCHE((b, a, δt , ΩB , Qt−1 , Selectt )) 2: k ← k+1 ⊲ passer à η(δ, ok+1 )
2: initialiser open ← P ILE -V IDE , k ← 0 3: η(δ, ok ) ← EXPLORER
3: définir α(δ) ← a 4: open.PUSH (ok , η(δ, ok ))
4: calculer ∀(o, η(δ, o)) ∈ Ω × Qt−1 : gb,oδ , ḡb
a,o 5: end procedure
5: ÉTENDRE ⊲ initialiser l’arbre de recherche
6: procedure BACKTRACK
6: while open 6= P ILE -V IDE do 7: if open.IS N OT E MPTY then
7: (ok , η(δ, ok )) ← open.PEEK 8: (ok , −) ← open.POP
8: if f (b) < f (b, δ) then 9: η(δ, ok ) ← −1 ⊲ ré-initialiser la position du pointeur
10: if ok 6= o1 then
9: if ok = oκ then
10: if f ⋆ (b, δ) > f (b) and δ 6∈ Selectt then 11: k ← k−1 ⊲ retourner à η(δ, ok−1 )
11: δt ← δ 12: EXPLORER
12: f (b) ← f ⋆ (b, δt ) 13: end if

14: end if
13: end if 15: end procedure
14: ⊲ selectionner un nouveau sous-arbre η(δ, ok )
EXPLORER
16: procedure EXPLORER
15: else ÉTENDRE ⊲ assigner un sous-arbre η(δ, ok+1 ) 17: INCRÉMENTER (η(δ, o ))
k
16: end if 18: if η(δ, ok ) > |Qt−1 | then
17: else BACKTRACK ⊲ retourne à la position η(δ, ok−1 )
19: BACKTRACK ⊲ backtrack à la position η(δ, ok−1 )
18: end if
19: end while 20: end if
20: end procedure 21: retourner η(δ, ok )
22: end procedure
Preuve D’après l’ordre de traitement des Preuve En accord avec le Lemme 1, nous
nœuds cette assertion est vraie pour tous les avons :
arbres-joints successeurs et attachés aux nœuds
frères de n. En ce qui concerne les autres arbres- f (b, δ) ≥ f (b, δk ), ∀δk ∈ Q(δ)
joints, il convient de procéder par induction. On obtient alors :
Premièrement le cas de base consiste à mon- f ⋆ (b, δ ′ ) ≥ f (b, δ) (par hypothèse)
trer que cette assertion est vraie pour le cas d’un ≥ f (b, δk ), ∀δk ∈ Q(δ) (Lemme 1)
≥ f ⋆ (b, δk ), ∀δk ∈ Q(δ) (déf. de la borne sup.)
nœud fils de n : f (b, δ) ≥ f (b, δ1 ), où δ1 est
l’arbre-joint attaché au nœud fils. Il suffit alors
de différentier δ1 de δ. La principale différence Ce théorème indique que si un arbre-joint δ a
réside sur le fait que δ1 dispose d’un sous-arbre une valeur heuristique inférieure ou égale à la
défini de plus que δ, disons le sous-arbre associé borne inférieure courante, PBIP ne developpe
à l’observation jointe de base o1 : pas le sous-espace Q(δ). Cette stratégie amé-
liore considérablement le mécanisme d’élagage
f (b, δ1 ) = b
f (b, δ) − ḡα(δ),o δ1
1 + gb,o1 de la version naïve précédente. En effet, elle ne
= b
f (b, δ) − ḡα(δ δ1
1 + gb,o1 (α(δ) = α(δ1 )) requiert pas la génération et l’évaluation de tous
1 ),o
≤ f (b, δ) les nœuds succésseurs. D’un point de vue pra-
tique, si la valeur heuristique de δ est inférieure
b δ1
La dernière inégalité tient car ḡα(δ 1 ≥ gb,o1 ou égale à la borne inférieure actuelle (condi-
1 ),o
par définition d’une borne supérieure. En répé- tion de backtrack), alors il existe deux possibi-
tant cet argument pour toute paire consécutive lités : (a) si le nœud parent de δ est le nœud ra-
(δk , δk+1 ) ∈ Q(δ) × Q(δ), on a : f (b, δk ) ≥ cine, alors on met fin à la recherche ; (b) sinon,
f (b, δk+1 ), ∀k = 1, · · · , |Q(δ)| la recherche retourne vers le nœud parent de δ
et teste la condition de backtrack.
Intuitivement, il est évident que cette propriété Exemple 2 La Figure 2 décrit différentes
est plus restrictive que la simple monotonie car étapes de l’algorithme PBIP. Le premier nœud
Q(δ) inclut non seulement les nœuds fils mais en partant du nœud racine δ0 est δ1 , car il dis-
aussi les nœuds frères de n. L’usage de cette pose de la plus grande valeur heuristique −4.
propriété et l’ordre suivant lequel PBIP traite les Ce nœud à son tour génère un seul nœud fils δ2 .
nœuds, nous permet d’énoncer le théorème sui- Comme l’arbre-joint résultant ne dispose plus
vant. Ce théorème décrit une propriété utile pour de nœuds de base non définis, PBIP calcule sa
éviter le développement des arbres-joints avec valeur exact −4 et l’utilise comme borne infé-
une valeur heuristique faible. rieure. PBIP retourne ensuite vers le nœud δ1 .
Fort du fait que la valeur heuristique −4 de δ1
est égale à la borne inférieure courante, PBIP ne
Théorème 1 Soit δ un arbre-joint avec f (b, δ) construit pas ses nœuds successeurs δ3 et δ4 . En-
sa valeur heuristique, et f ⋆ (b, δ ′ ) la valeur fin, la recherche se termine car le nœud parent
exacte du meilleur arbre-joint courant δ ′ . Si δ0 de δ1 est la racine de l’arbre de recherche.
f (b, δ) ≤ f ⋆ (b, δ ′ ), alors on a : f ⋆ (b, δ ′ ) ≥ Ainsi, l’arbre-joint δ2 est le meilleur pour cet
f ⋆ (b, δk ), ∀δk ∈ Q(δ). arbre de recherche.
3.5 Implémentation spécifique d’agents et κ. Dans les meilleurs cas, cepen-
dant, la complexité en temps est en O(κ),
Dans la même veine que MBDP, PBIP combine cela correspond à la longueur du chemin né-
heuristiques de recherche d’états de croyance cessaire pour la construction d’un arbre-joint
par chaînage-avant et sélection de politiques par complet. Néanmoins la complexité en temps
chaînage-arrière comme l’indique l’Algorithme globale peut-être fortement influencée par le
1. Cependant, ce qui distingue PBIP de MBDP est pré-calcul des contributions des sous-arbres,
sa capacité à éviter la génération exhaustive de O(|S 2||A||Ω|maxT rees2 ). Bien que PBIP s’ins-
toutes les politiques jointes à chaque itération. pire de l’algorithme A⋆ , il requiert bien
En effet, une seule itération de PBIP peut-être moins de mémoire. En effet, la sous-routine
résumée comme suit : d’abord l’algorithme dé- R ECHERCHE nécessite une mémoire linéaire,
fini l’ensemble Qt−1 . des politiques jointes de c’est-à-dire la longueur du plus long chemin de
l’itération précédente ; puis, il choisit un por- la racine à un arbre-joint complet soit O(κ).
tefeuille d’heuristiques H de recherche d’états Cela est possible car nous calculons toutes
de croyance par chaînage-avant, afin d’identifier les contributions de tous les sous-arbres pour
maxT rees états de croyance ; ensuite, il utilise chaque paire action-observation jointe et cela
une sous-routine nommée R ECHERCHE pour avant que la recherche ne commence. En consé-
le déterminisme de l’ensemble des politiques quence, la complexité globale en mémoire de
jointes optimales Selectt , une pour chaque état PBIP est O(|A||Ω|maxT rees).
de croyance ; finalement, à l’itération T , la
meilleure politique jointe, en fonction de l’état 5 Expérimentations
de croyance initial b0 , est retournée.
Dans ce qui suit, nous attirons l’attention sur le Nous avons testé notre algorithme sur plusieurs
traitement d’un seul arbre de recherche , avec bancs d’essais de DEC - POMDPs à 2 agents : y
pour données en entrée : un état de croyance compris le problème du broacast sur un canal
b ; une action jointe a ; l’ensemble des observa- de communication à accès multiple (MABC) ; le
tions jointes de base ΩB ; les sous-arbres Qt−1 problème du tigre multi-agent (TIGER) et le pro-
possibles provenant de l’itération précédente ; blème BOX - PUSHING considéré comme le plus
et finalement, the meilleures politiques jointes large de la littérature. Nous avons comparé les
courantes δ t ∈ Selectt (voir Algorithm 2). Les performances de notre approche à celles des
contributions exactes ou optimistes des sous- meilleurs algorithmes approximatifs connus :
arbres dans Qt−1 sont pré-calculées et stockées MBDP, IMBDP et MBDP - OC . Tous ont été exé-
dans une file de priorité. Nous utiliserons η(δ, o) cutés sur la même machine en utilisant les
à la fois comme sous-arbre et comme sa position mêmes paramêtres : portefeuille d’heuristiques ;
dans la file de façon inter-changeable. maxT rees et maxObs en ce qui concerne
IMBDP et MBDP - OC. Une sélection de ces ré-
sultats est rassemblée dans le Tableau 1 et dans
4 Propriétés Théoriques la Figure 3. Ces résultats confirment la réduc-
tion drastique de la complexité de la sauve-
Dans cette section, nous allons présenter garde exhaustive, notamment pour des para-
quelques propriétés théoriques additionnelles mêtres maxT rees élevés (voir Figure 3) ou des
qui garantissent les performances de PBIP, y problèmes de plus grande taille (voir Tableau 1
compris la complétude, l’optimalité, et la com- ). PBIP surpasse tous les autres algorithmes se-
plexité. lon tous les critères et les domaines testés. Il
En exploitant la similitude de PBIP à A⋆ il est construit ses politiques jointes jusqu’à 800 fois
facile de montrer que : l’algorithme PBIP est plus vite que IMBDP et MBDP - OC tout en offrant
complet ; et il est optimal en fonction de l’état des politiques jointes de meilleures qualités. Par
de croyance et des sous-arbres. Tous les ré- exemple, pour le problème BOX - PUSHING à ho-
sultats précédemment énoncés visent à garan- rizon 100, PBIP construit une politique jointe
tir que PBIP offre des performances au moins de valeur 786.4 tandis que celles de IMBDP et
MBDP - OC sont de 72.8 et 503.8 respectivement.
aussi bonnes que celle de MBDP et ses exten-
sions. Mieux, ils soulignent le fait que PBIP
peut significativement faciliter le passage à 5.1 Travaux connexes
l’échelle comparativement à MBDP et ses ex-
tensions. Néanmoins, la complexité en pire cas De nombreuses techniques, d’utilisation des
de PBIP reste exponentielle suivant le nombre techniques par chaînage-avant afin de résoudre
TIGER problem maxT rees = 20
Algorithm MBDP IMBDP MBDP - OC PBIP
T AEV CPU (sec.) AEV CPU (sec.) AEV CPU (sec.) (sec.)
AEV CPU %
10 12.5 ± 2.9 67.1 ± 0.13 N.A. 13.6 ± 1.11 5.55 ± 0.88
N.A. 7.83
20 25.8 ± 2.1 159 ± 0.16 N.A. 26.8 ± 1.50 15.1 ± 2.68
N.A. 12.4
50 73.9 ± 0.7 438 ± 0.86 N.A. 74.2 ± 2.76 45.3 ± 6.49
N.A. 15.3
100 149 901 N.A. 147 ± 5.84
N.A. 94.2 ± 9.53 12.9
COOPERATIVE BOX - PUSHING problem maxT rees = 3 maxObs = 3
10 N.A. 99.59 7994.6 89.94 7994.4 128.4 ± 6.46 11.8 ± 3.61 10.9
20 N.A. 102.6 17031 135.0 17194 198.0 ± 10.8 25.0 ± 4.21 10.3
50 N.A. 82.99 44708 272.70 44210 422.2 ± 20.8 61.6 ± 10.6 9.07
100 N.A. 73.88 89471 440.08 90914 786.4 ± 31.9 113 ± 20.8 9.62
A . E . V = valeur escomptée moyenne N . A . = pas applicable % = pourcentage d’arbres-joints developpés
TAB . 1 – Performances de PBIP, MBDP, IMBDP et MBDP - OC.
3500 MBDP
16
résoudre des problèmes décentralisés disposant
Execution Time (seconds)
14
PBIP
3000
12
d’un nombre d’agents relativement grand. Bien
Solution Quality
2500 10
2000
1500
8
6 qu’intéressante, l’utilisation de SPIDER dépend
1000
500
4
2
PBIP
de l’hypothèse selon laquelle l’on dispose d’une
0
10 20 30 40 50 60 70
Maximum Number of Trees
80 90 100
0
10 20 30 40 50 60 70
Maximum Number of Trees
80 90 100 structure d’interations entre coéquipiers et que
de plus ces interactions sont faibles. En ce qui
F IG . 3 – Performances pour TIGER à T = 10 . concerne le cas général des DEC - POMDPs à ho-
rizon fini, où les interactions sont soit inconnues
soit fortement couplées, SPIDER n’offre aucun
les DEC - POMDPs, ont été développées [13, 12, bénéfice.
10]. En principe, ces méthodes de recherche Au contraire, PBIP offre un certain nombre
heuristique peuvent traiter de larges domaines d’avancées majeures en comparaison à MAA⋆
de façon efficace, notamment au moyen de la et SPIDER. Tout d’abord, PBIP souligne le lien
combinaison des bornes supérieures et/ou in- qui existe entre la représentation des politiques
férieures à la connaissance des informations en DEC - POMDPs et celle en MPOMDPs. Cette
initiales du système, par exemple l’état de observation est cruciale car elle permet d’adap-
croyance initial. Szer et al. [12] ont fourni ter les techniques développées dans la commu-
le premier algorithme de recherche heuristique nauté des MPOMDPs à celle des DEC - POMDPs.
pour la résolution des DEC - POMDPs à horizon Ainsi, la résolution d’un DEC - POMDP peut dé-
fini, à savoir MAA⋆ . Cet algorithme est basé sur sormais être vue comme la résolution d’un
la combinaison des heurisiques classiques, A⋆ MPOMDP avec des contraintes additionnelles sur
par exemple, à la théorie du contrôle décen- les politiques. En poussant plus loin cette idée,
tralisé. MAA⋆ cherche à déterminer la solution nous proposons une adaptation de la meilleure
optimale pour un horizon prédéfini. Bien que technique de construction incrémentale de poli-
MAA ⋆ soit un grand pas en avant par rapport aux tiques en MPOMDPs au cadre décentralisé. Ceci
algorithmes précédents, il souffre d’un inconvé- permet l’introduction de la première technique
nient majeur : sa capacité à restreindre l’espace de construction incrémentale (sous-arbre par
de recherche dépend de la précision des bornes sous-arbre) de politiques jointes. La différence
(inférieure et supérieure). Malheureusement, la essentielle entre PBIP et MAA⋆ réside dans le fait
recherche de bornes plus serrées requiert bien que MAA⋆ associe à chaque nœud de l’arbre de
souvent un coût additif non-négligeable. Bien recherche une politique jointe complète tandis
que cet algorithme ne parvient pas à résoudre que PBIP y associe un sous-arbre de la politique
des DEC - POMDPs à horizon supérieur à 4, ses jointe recherchée. Cette différence offre à PBIP
résultats démontrent le potentiel des techniques une très grande flexibilité dans l’exploration de
de recherche heuristique. Varakantham et al. l’espace de recherche comme le démontrent les
[13] suggèrent une version similaire à MAA⋆ , résultats expérimentaux.
nommée SPIDER, qui exploite l’interaction entre
les coéquipiers afin de contourner les limitations Le deuxième ensemble de techniques consiste
de MAA⋆ . Plus précisément, SPIDER améliore la en des méthodes de chaînage-arrière ou mixtes
politique jointe en modifiant la politique d’un [11, 9, 8, 4]. Conformément à Szer et al., la
agent à la fois et suivant l’ordre des interac- principale limitation des approches de chaînage-
tions. En procédant ainsi, SPIDER est capable de arrière (y compris MBDP, IMBDP [8] et MBDP -
OC [4]) est le nombre de calculs dû à l’énuméra- de programmation dynamique jusqu’ici indis-
tion exhaustive. En effet, chaque itération de ces pensable mais extrêmement coûteux, à savoir la
techniques requiert un appel à la sauvegarde ex- sauvegarde exhaustive. Par ce biais, PBIP facilite
haustive, avant que ne commence l’étape d’éla- grandement le passage à l’échelle de nombreux
gage. Bien que ce phénomène soit similaire en algorithmes de programmation dynamique, y
MPOMDPs, il apparaît bien dévastateur en DEC - compris ceux de la famille des algorithmes ap-
POMDPs. En effet, les fonctions de valeur en proximatifs de type MBDP. Nous travaillons ac-
DEC - POMDP s sont définies sur un espace de po- tuellement sur une extension de PBIP qui nous
litiques bien plus large. Les récents algorithmes permettra de résoudre des problèmes généraux
de cette classe tels que MBDP [9], IMBDP [8] (sans hypothèses restrictives) de contrôle décen-
et MBDP - OC [4] tentent de mitiger cet handi- tralisé de plusieurs (>> 2) agents coopératifs.
cap au moyen de : (1) la sélection d’un pe-
tit nombre (maxT rees) de politiques par agent Remerciements
et par horizon ; (2) la réduction de la crois-
sance exponentielle dûe en partie aux observa- Nous aimerions remercier Sven Seuken et Alan
tions, notamment en les échantillonnant. Cepen- Carlin pour avoir rendu disponible leur code
dant, le choix du paramètre maxT rees n’est pas source des algorithmes MBDP, IMBDP et MBDP -
trivial et son ajustement de façon dynamique OC. Nous remercions également Hamid R. Chi-
est coûteux. De plus, l’efficacité de la seconde naei et Camille Besse pour leurs commentaires
proposition dépendra du domaine, comme le sur ce travail.
prouve les expérimentations cette proposition
réduit considérablement la qualité de la solution Références
retournée. Finalement, en pire cas la complexité
de ces algorithmes croît de façon exponen- [1] Raghav Aras, Alain Dutech, and François Charpillet. Mixed in-
tielle selon le nombre d’observations selection- teger linear programming for exact finite-horizon planning in de-
centralized pomdps. CoRR, 2007.
nées (maxObs) et le nombre d’agents |I|, soit
[2] Richard Ernest Bellman. Dynamic Programming. Dover Publica-
|S 2 ||A||Ω|maxT reesmaxObs|I|+1. Au contraire, tions, Incorporated, 1957.
bien qu’en théorie notre approche souffre des
[3] Daniel S. Bernstein, Robert Givan, Neil Immerman, and Shlomo
mêmes contraintes de complexité en pire cas, Zilberstein. The complexity of decentralized control of markov
en pratique elle n’explore qu’un petit sous- decision processes. Math. Oper. Res., 27(4), 2002.
espace de l’espace entier des politiques jointes
[4] Alan Carlin and Shlomo Zilberstein. Value-based observation
et élague automatiquement les sous-espaces in- compression for DEC-POMDPs. In AAMAS, 2008.
utiles.
[5] Eric A. Hansen, Daniel S. Bernstein, and Shlomo Zilberstein. Dy-
namic programming for partially observable stochastic games. In
Enfin, Aras et. al [1] ont récemment proposé AAAI, pages 709–715, 2004.
un programme linéaire mixte (MILP - DEC) pour
la résolution exacte des DEC - POMDPs à horizon [6] J. Pineau, G. Gordon, and S. Thrun. Point-based value iteration :
An anytime algorithm for POMDPs. In IJCAI, 2003.
fini. Cette approche s’est construite sur l’obser-
vation selon laquelle un DEC - POMDP équivaut [7] Zinovi Rabinovich, Claudia V. Goldman, and Jeffrey S. Rosen-
schein. The complexity of multiagent systems : the price of si-
à un POMDP sous contraintes structurelles. Bien lence. In AAMAS, pages 1102–1103, 2003.
que nous ayons abouti, de façon indépendante, à
cette même observation, les solutions proposées [8] Sven Seuken and Shlomo Zilberstein. Improved Memory-
Bounded Dynamic Programming for DEC-POMDPs. In UAI,
et les performances de nos méthodes (MILP - 2007.
DEC et PBIP) sont radicalement différentes. Cela
[9] Sven Seuken and Shlomo Zilberstein. Memory-bounded dynamic
s’explique par le fait que PBIP utilise à son avan- programming for DEC-POMDPs. In IJCAI, pages 2009–2015,
tage les dites contraintes, notamment en obser- 2007.
vant lesquelles peuvent être systématiquement [10] Daniel Szer and François Charpillet. An optimal best-first search
satisfaites sous certaines conditions. algorithm for solving infinite horizon DEC-POMDPs. In ECML,
pages 389–399, 2005.
6 Conclusion [11] Daniel Szer and François Charpillet. Point-based dynamic pro-
gramming for DEC-POMDPs. In AAAI, pages 16–20, July 2006.
[12] Daniel Szer, Francois Charpillet, and Shlomo Zilberstein. Maa* :
Nous avons présenté la première technique de A heuristic search algorithm for solving decentralized pomdps. In
construction incrémentale de politiques jointes UAI, pages 568–576, 2005.
d’un DEC - POMDP sachant un état de croyance [13] Pradeep Varakantham, Janusz Marecki, Milind Tambe, and Ma-
et des sous-arbres (PBIP). Cette approche per- koto Yokoo. Letting loose a spider on a network of pomdps : Ge-
met de remplacer avantageusement un opérateur nerating quality guaranteed policies. In AAMAS, May 2007.

JSD Jfsma08

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

JSD Jfsma08

Transféré par

Droits d'auteur :

Formats disponibles

Recherche incrémentale à base de points pour la

résolution des DEC-POMDPs

Résumé haustive backup. A theoretical analysis of PBIP

MPOMDP DEC - POMDP

tions indépendantes par composantes. En outre,

dépendantes par composantes sont inclues dans 3: for all t = 2, · · · , T do

Réduire la complexité en espace.Un inconvénient 8:

12: f (b) ← f ⋆ (b, δt ) 13: end if

TAB . 1 – Performances de PBIP, MBDP, IMBDP et MBDP - OC.

Vous aimerez peut-être aussi