Slides Mathieu

Intro Bases FiniteVI FiniteVIAll Coord.
FiniteVIComm Bilan
Soutenance de PFE
Mathieu Lefort
Dpartement dInformatique et de Gnie Logiciel
lefort@ensta.fr
http://damas.ift.ulaval.ca
31 aot 2007
Soutenance de PFE Mathieu Lefort 1 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan
Plan
1
Introdution
2
Bases thoriques
3
Recherche dun quilibre de Nash dans un jeu stochastique
4
Recherche des quilibres non Pareto domins dans un jeu
stochastique
5
Coordination
6
Recherche dcentralise dun quilibre de Nash non Pareto
domin dans un jeu stochastique
7
Bilan
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art
Sommaire
1
Introdution
Environnement du stage
Objectifs
tat de lart
2
Bases thoriques
3
4
stochastique
5
Coordination
6
7
Bilan
laboratoire DAMAS
quipe
6 tudiants au doctorat
4 tudiants la matrise
1 stagiaire
sujets de recherche
Dialogue et Communication inter-agents
Ngociation et Coordination entre agents
Environnements multi-agents temps rel
Apprentissage dans les environnements multi-agents
Coopration et comptition entre agents
Objectifs
Objectifs
initiation la recherche
dvelopper un algorithme de planication dcentralis dans les
jeux stochastiques horizon ni
Plan
analyse et comprhension dun algorithme de planication dans
les jeux stochastiques horizon ni existant
modication de cet algorithme pour prparer la dcentralisation
adaptation notre problme dalgorithmes de synchronisation
existants
mis en commun de la partie planication et de la partie
communication pour obtenir lalgorithme complet
Objectifs
Objectifs
Plan
existants
Objectifs
Objectifs
Plan
existants
Objectifs
Objectifs
Plan
existants
tat de lart
tat de lart de la planication dans les jeux stochastiques
Shapley (1953) a propos un algorithme centralis de recherche
dquilibre de Nash par planication dans les jeux stochastiques
somme nulle
Kearns et al. (2000) a propos une autre version pour les jeux
stochastiques horizon ni
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Sommaire
1
Introdution
2
Bases thoriques
Thorie des jeux
Processus de Markov
Jeu stochastique
Recherche de politique optimale
3
4
stochastique
5
Coordination
6
7
Bilan
Dnitions
Jeu
Un ensemble de joueurs p
1
, . . . , p
n
Chaque agent p
k
a un ensemble dactions A
k
= {a
1
k
, . . . , a
n
k
k
}
Une fonction de gain r
k
donnant la rcompense pour le joueur p
k
de laction conjointe a
r
k
:
k[1...n]
A
k
IR
a = (a
1
, ..., a
n
) r
k
(a)
Stratgie
Chaque agent peut jouer une stratgie mixte
k
=
1
k
, . . . ,
n
k
k
(A
k
)
avec
i
k
la probabilit que p
k
"joue" a
i
k
et
n
k
i =1
i
k
= 1
Si i
k
= 1 alors p
k
joue une stratgie pure
Dnitions
quilibre de Nash
Un ensemble de stratgies (
1
, . . . ,
n
) est en quilibre de Nash si
r
k
(
1
, . . . ,
k
, . . . ,
n
) r
k
(
1
, . . . ,
k
, . . . ,
n
) ,
k
(A
k
)
Domination au sens de Pareto
Un ensemble de stratgies
_
1
1
, . . . ,
1
n
_
domine au sens de Pareto
_
2
1
, . . . ,
2
n
_
si
i , r
i
_
1
1
, . . . ,
1
n
_
> r
i
_
2
1
, . . . ,
2
n
_
;
k = i , r
k
_
1
1
, . . . ,
1
n
_
r
k
_
2
1
, . . . ,
2
n
_
Exemple
Dilemne du prisonnier
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
dilemne du prisonner
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(a
2
1
,a
2
2
) est un quilibre de Nash
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(a
1
1
,a
1
2
) Pareto domine (a
2
1
,a
2
2
)
Exemple
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(a
2
1
,a
2
2
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(a
1
1
,a
1
2
) Pareto domine (a
2
1
,a
2
2
)
Exemple
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(a
2
1
,a
2
2
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(a
1
1
,a
1
2
) Pareto domine (a
2
1
,a
2
2
)
Dnitions
Processus de Markov
Un processus de dcision markovien est dni par un quadruplet
S, A, T, R avec:
S un ensemble ni dtats (avec un tat initial et un(ou des)
tat(s) nal(ux));
A un ensemble dactions que peut effectuer lagent;
T(s, a, s
) une fonction de transition donnant la probabilit

daboutir dans ltat s
sachant quon est dans ltat s et quon

effectue laction a;
R(s, a, s
) une fonction de rcompense donnant la rcompense

de lagent sachant quon est dans ltat s et quon va aboutir
dans ltat s
en effectuant laction a (la rcompense ne dpend

gnralement que de ltat courant).
Dnitions
Horizon
On dnit la notion dhorizon T du PDM par le nombre maximum de
pas de temps possible.
Utilit
U
(s) = E
_
t =0

t
R(s
t
) | , s
0
= s
dans le cas horizon inni

U
(s) = E
_
T
t =0
R(s
t
) | , s
0
= s
_
dans le cas horizon ni
Dnitions
Jeu stochastique
Un jeu stochastique est dni par un quintuplet
Ag, S, {A
k
}
k=1...|Ag|
, {M
k
[s]}
k=1...|Ag|,sS
, T avec:
Ag un ensemble dagents agissants dans lenvironnement (|Ag|
est le nombre dagents du jeu stochastique);
S un ensemble ni dtats (tats conjoints, cad coordonnes des
deux agents) (avec un tat initial et un(des) tat(s) nal(ux));
un ensemble densemble daction A
k
que peut effectuer lagent k;
un ensemble de matrice de jeux M
k
[s] pour chaque agent k et
pour chaque tat s
T : S A
1
. . . A
|Ag|
S [0; 1] une fonction de transition
entre tats, dpendant de laction conjointe joue par les agents
Dnitions
Dnitions
Le jeu stochastique est dit ni quand S et {A
k
}
k=1...|Ag|
sont nis
La notion dhorizon est la mme que celle introduite
prcdemment dans les PDM.
quilibre de Nash
k,
k
, s
0
G
k
(s
0
,
1
, . . . ,
k
, . . . ,
n
) > G
k
(s
0
,
1
, . . . ,
k
, . . . ,
n
)
avec G
k
(s, ) la valeur pour lagent k du jeu commenant en s en
suivant la politique conjointe .
Domination au sens de Pareto
Un politique conjointe
1
domine au sens de Pareto
2
si
i , G
i
_
s
init
,
1
_
> G
i
_
s
init
,
2
_
;
k = i , G
k
_
s
init
,
1
_
G
k
_
s
init
,
2
_
Exemple / Jeu de test
Jeu de Hu et Wellman (2003)
Action possibles pour lagent 1 :
aller droite
aller en haut
rester sur place
Action possibles pour lagent 2 :
aller gauche
aller en haut
rester sur place
Paramtres
Version dterministe
les actions sont dterministes
les rcompenses sont les suivantes :
R
d
eter
(s
k
, a
k
) =
_
_
_
100 si s
k
est un tat but
1 si s
k
= s
et s
k
nest pas un tat but
0 sinon
avec s
k
ltat suivant de lagent k dans ltat s
k
jouant a
k
et
k
= 1 si k = 2 et inversement
Paramtres
Version stochastique
les actions sont stochastiques avec les probabilits :
_
_
_
p lagent se dplace dans la direction prvue
1p
2
lagent se dplace droite de la direction prvue
1p
2
lagent se dplace gauche de la direction prvue
Laction "ne rien faire" reste dterministe
les rcompenses sont les mmes que les prcdentes,
pondres par les probabilits de transition : R
stoch
(s, a) =
pR
d
eter
(s, a
pr
evue
)+
1p
2
R
d
eter
(s, a
gauche
)+
1p
2
R
d
eter
(s, a
droite
)
Types dalgorithme
Objectif de lagent : maximiser son utilit
Moyens :
lapprentissage qui consiste apprendre la politique en faisant agir
lagent dans le monde (calcul en ligne (on line)), les donnes
pouvant servir soit calculer la politique directement, soit estimer
un modle du monde partir duquel on calculera ensuite la
politique;
la planication qui consiste calculer une squence dactions
conduisant un but. Le calcul de la politique optimale se fait hors
ligne (off line) partir dun modle du monde prconnu.
Types dalgorithme
Moyens :
politique;
Types dalgorithme
Moyens :
politique;
Types dalgorithme
Moyens :
politique;
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Algo Res
Sommaire
1
Introdution
2
Bases thoriques
3
Algorithme
Tests
4
stochastique
5
Coordination
6
7
Bilan
Recherche dun quilibre de Nash dans un jeu
stochastique horizon ni par planication
Algorithme de Kearns et al. (2000)
1 function FINITEVI(T) return un quilibre de Nash du jeu stochastique lhorizon T
2 Initialisation:
3 for all s S, k 1,2 do
4 Q
k
[s, 0] M
k
[s]
5
k
(s, 0) f
k
(M
1
[s], M
2
[s])
6 end for
7 Itration sur la taille de lhorizon :
8 for t=1. . . T do
9 for all s S, k 1,2 do
10 for all stratgie pure i, j do
11 Q
k
[s, t ](i , j ) M
k
[s](i , j ) +
P
s
P(s
| s, i , j )v
k
f
(Q
1
[s
, t 1], Q
2
[s
, t 1])
12 end for
13
k
(s, t ) f
k
(Q
1
[s, t ], Q
2
[s, t ])
14 end for
15 end for
16 return le couple de politique (
1
,
2
)
17 end function
Tests
Tests raliss sur les versions du jeu de Hu et Wellman:
dterministe
stochastique avec p = 0.8
Fonction de choix dquilibre de Nash
La fonction f choisie pour limplmentation est celle propose par
Lemke et Howson (1964), gnralement utilise pour trouver un
quilibre de Nash dans un jeu.
Rsultats sur le jeu de Hu et Wellman
Inuence de lhorizon sur les rsultats
dans le cas dterministe, aucune
dans le cas stochastique, si lhorizon est trop faible les agents
restent sur place
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexit
Sommaire
1
Introdution
2
Bases thoriques
3
4
stochastique
Motivation
Algorithme
Tests
Preuve
Complexit
5
Coordination
6
7
Bilan
Recherche des quilibres non Pareto domins dans
un jeu stochastique
But
Modier lalgorithme de Kearns et al. pour trouver tous les quilibres
non Pareto domins dans le but de dcentraliser lalgorithme.
un jeu stochastique
Algorithme
1 function FINITEVIALL(T) return lensemble
des quilibres de Nash non domins au
sens de Pareto du jeu stochastique
lhorizon T
2 Initialisation:
3 GM
1
M
1
[s]
4 GM
2
M
2
[s]
5 for all s S, k {1,2} do
6
k
(s, 0) f
all
k
(GM
1
, GM
2
)
7 Q
k
[s, 0] v
k
f
all
(GM
1
, GM
2
)
8 end for
10 for t=1. . . T do
13 for all s
S | P(s
| s, i , j ) =
0 do
14 S
{s
}
15 end for
16 end for
17 E[s]
Q[s
, t 1]
18 for all lment e E[s] do
20 GM
k
(i , j ) M
k
[s](i , j ) +
P
s
P(s
| s, i , j )e
k
[s
]
21 end for
22
k
(s, t )
k
(s, t )
f
all
k
(GM
1
, GM
2
)
23 Q
k
[s, t ] Q
k
[s, t ]
v
k
f
all
(GM
1
, GM
2
)
24 end for
25 end for
26 end for
27 return lensemble des couples de poli-
tiques
28 end function
un jeu stochastique
Fonction de recherche de tous les quilibres de Nash non domins
au sens de Pareto
La fonction f
all
utilise est la version tendue de celle propose par
Lemke et Howson (1964), qui permet de trouver un nombre ni
dquilibres de Nash.
Les quilibres non Pareto domins sont slectionns par la suite.
un jeu stochastique
Rsultats sur le jeu de Hu et Wellman
un jeu stochastique
Rsultats
dans le cas dterministe: on trouve les 10 quilibres
dans le cas stochastique avec
p = 0.8 et p = 0.9 on trouve les quilibres (1) et (1)
p = 0.4 et p = 1/3 on ne trouve pas dquilibres
un jeu stochastique
Points cl de la preuve
Une politique est un quilibre de Nash non domin au sens de
Pareto dun jeu stochastique n joueurs horizon ni si et
seulement si elle est chaque pas de temps un quilibre de
Nash non domin au sens de Pareto de la matrice des
rcompenses espres.
Pour une matrice de jeu deux joueurs, le nombre de valeurs
distinctes des quilibres de Nash non domins au sens de
Pareto est nie.
La fonction f
all
existe (Mangasarian (1964), Kuhn (1961) et
Vorobev (1958))
un jeu stochastique
rcompenses espres.
Pareto est nie.
La fonction f
all
Vorobev (1958))
un jeu stochastique
rcompenses espres.
Pareto est nie.
La fonction f
all
Vorobev (1958))
un jeu stochastique
Complexit
0
250
500
750
1000
1250
1500
1750
2000
2250
2500
2750
3000
3250
3500
3750
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
t
e
m
p
s

c
o
m
p
u
t
a
t
i
o
n
n
e
l
horizon
taille 3
taille 4
taille 5
taille 6
un jeu stochastique
Complexit thorique au pire
C
FiniteVIAll
pire
= O
_
|S|
NMST
max
exp|A|
_
avec
max
compris entre
1
max
= 0.949
(1 +
2)
|A|
_
|A|
1 et
2
max
= 0.921
_
27
4
|A|
_
|A|
1
C
FiniteVIAll
pire
= O(|S||T| exp|A|) si
max
= 1
Complexit pratique dans ce cas
linaire en |S|
linaire en T
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Sommaire
1
Introdution
2
Bases thoriques
3
4
stochastique
5
Coordination
Motivation
Adaptation du problme
Algorithme de Singh et al. (2000)
Algorithme de Bowling et Veloso (2002)
Comparatif
6
7
Bilan
Coordination
But
Proposer une mthode de coordination pour permettre aux agents de
choisir de manire dcentralis un des quilibres trouvs.
Moyen
Adaptation dalgorithmes de monte de gradient existants au
problme.
Coordination
Adaptation
Problme : coordination sur un des quilibres dune liste
Monte de gradient : trouve un quilibre de Nash dans un jeu
Adaptation : cration dun jeu de coordination partir des
quilibres
M
k
=
_
_
_
_
_
_
eq
k
1
0 . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0
0 . . . 0 eq
k
n
_
_
_
_
_
_
avec k {1, 2} et (eq
1
i
, eq
2
i
)
i [1...n]
la liste des quilibres
Coordination
Adaptation
quilibres
M
k
=
_
_
_
_
_
_
eq
k
1
0 . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0
0 . . . 0 eq
k
n
_
_
_
_
_
_
1
i
, eq
2
i
)
i [1...n]
Coordination
Adaptation
quilibres
M
k
=
_
_
_
_
_
_
eq
k
1
0 . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0
0 . . . 0 eq
k
n
_
_
_
_
_
_
1
i
, eq
2
i
)
i [1...n]
Problme
Lalgorithme assure la convergence vers un quilibre de Nash ou vers
une valeur dquilibre de Nash dun jeu 2 joueurs et 2 actions.
Il faut ladapter au cas n actions.
Adaptation
On considre les actions par couple pour se ramener au cas 2
actions.
Calcul du gradient
gradient 2 2
V
1
ij
(, )
i
=
i
eq
1
i

j
eq
1
j
=
V
1
ij
(, )
j
gradient dune action i
V
1
i
(, )
i
=
j =i
V
1
ij
(, )
i
= (n 1)
i
eq
1
i

j =i
j
eq
1
j
Algorithme
1 function MONTEGRADIENTN1(M
1
) re-
turn une stratgie pour lagent 1
2 on initialise alatoirement
3 while na pas converg do
4 communiquer lagent 2
5 for all i [1 . . . n] do
6 calcul de
V
1
i
(,)
i
7
i

i
+
V
1
i
(,)
i
8 end for
9 end while
10 return la stratgie
11 end function
1 function MONTEGRADIENTN2(M
2
) re-
turn une stratgie pour lagent 2
2 on initialise alatoirement
4 communiquer lagent 1
5 for all i [1 . . . n] do
6 calcul de
V
2
i
(,)
i
7
i

i
+
V
2
i
(,)
i
8 end for
9 end while
11 end function
Tests
0
25
50
75
100
125
150
175
200
225
250
275
300
325
100 90 80 70 60 50 40 30 20 10 2
n
o
m
b
r
e

d
t
a
p
e
s

p
o
u
r

c
o
n
v
e
r
g
e
r
taille de la matrice
Paramtres :
moyenne sur 100000 tests
alatoires
pas de dplacement
=
1
nbetape
2/3
critre darrt de 10
9
Complexit
le nombre dtapes ncessaire la convergence est linaire
le calcul des gradients et leur projection est en O(n
2
)
la mise jour de et de est en temps constant
au nal lalgorithme une complexit en O(n
3
)
Complexit
2
)
3
)
Complexit
2
)
3
)
Complexit
2
)
3
)
Algorithme
1 function PHC1(M
1
) return une stratgie
pour lagent 1
2 for all i [1 . . . n] do
3 Q
i
0
4
i

1
n
5 end for
7 choisir une action
i effectuer suivant
la politique et le facteur dexploration e
8 communiquer
i lagent 2
9 Q
i
(1 )Q
i
+ M
1
(
i ,
j )
10 for all i [1 . . . n] do
11
i

i
+ D
i
avec
D
i
=
(
d
i
si i = argmax
i
Q
i
P
i
=i
d
i
sinon et
d
i
= min
i
,

n
12 end for
13 end while
15 end function
1 function PHC2(M
2
) return une stratgie
pour lagent 2
2 for all j [1 . . . n] do
3 Q
j
0
4
j

1
n
5 end for
7 choisir une action
j effectuer suivant
la politique et le facteur dexploration e
8 communiquer
j lagent 1
9 Q
j
(1 )Q
j
+ M
2
(
i ,
j )
10 for all j [1 . . . n] do
11
j

j
+ D
j
avec
D
j
=
(
d
j
si j = argmax
j
Q
j
P
j
=j
d
j
sinon
et
d
j
= min
j
,

n
12 end for
13 end while
15 end function
Tests
0
10
20
30
40
50
60
70
80
90
100
110
120
130
100 90 80 70 60 50 40 30 20 10 2
n
o
m
b
r
e

d
t
a
p
e
s

p
o
u
r

c
o
n
v
e
r
g
e
r
taille de la matrice
Paramtres :
moyenne sur 100000 tests
alatoires
taux dexploration
e =
1
nbetape
1/2
facteur descompte
=
1
nbetape
1/4
pas de dplacement
=
1
nbetape
1/4
critre darrt 10
9
Complexit
le choix de laction est linaire
la communication et la mise jour de la Q-valeur sont en temps
constant
la mise jour de la politique est linaire
au nal la complexit de lalgorithme est en O(n
2
)
Complexit
constant
2
)
Complexit
constant
2
)
Complexit
constant
2
)
Complexit
constant
2
)
Coordination
Comparatif
PHC ncessite moins de communication
PHC a une complexit plus faible
MONTEGRADIENT tient plus compte de la valeur des quilibres
dans sa convergence
Prolongement
Tester GIGA, version plus gnrale de MONTEGRADIENT au cas
n actions.
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res
Sommaire
1
Introdution
2
Bases thoriques
3
4
stochastique
5
Coordination
6
Motivation
Algorithme
Tests
7
Bilan
Recherche dcentralise dun quilibre de Nash non
Pareto domin dans un jeu stochastique
But
Proposer un algorithme de planication dcentralis dun quilibre de
Nash non domin au sens de Pareto dans un jeu stochastique
horizon ni.
Moyen
Faire coordonner les agents chaque tape pour chaque tat sur un
quilibre au moyen de la communication.
Algorithme
1 function FINITEVICOMMK(T) return un quilibre de Nash non domin au sens de Pareto du
jeu stochastique lhorizon T
2 Initialisation:
3 GM
1
M
1
[s]
4 GM
2
M
2
[s]
5 for all s S do
6
all
k
(s, 0) f
all
k
(GM
1
, GM
2
)
7
K
(s, 0) Coordination(
all
K
(s, 0))
8 end for
10 for t=1. . . T do
13 GM
k
(i , j ) M
k
[s](i , j ) +
P
s
P(s
| s, i , j )v
K
(
1
(s, t 1),
2
(s, t 1))
14 end for
15
all
k
(s, t ) f
all
k
(GM
1
, GM
2
)
16
K
(s, t ) Coordination(
all
K
(s, t ))
17 end for
18 end for
19 return
K
la politique de lagent K
20 end function
Coordination avec MONTEGRADIENT
(1') (1) (2') (3') (4') (5') (2) (3) (4) (5)
Pas de temps 4 H,G D,H H,G H,G H,G H,H D,H D,H D,H H,H
8,14 23,08 10,41 11,82 2,83 8,2 11,2 12,56 2,96 8,8
Pas de temps 3 D,G D,G D,G H,G H,H H,G D,G D,G H,H D,H
8,14 23,08 10,41 11,82 2,83 8,2 11,2 12,56 2,96 8,8
Pas de temps 2 D,H H,G H,H D,H D,G H,H H,G D,G
8,14 23,08 10,41 11,82 11,03 11,2 12,56 11,76
Pas de temps 1 H,H D,H H,G
31,22 33,27 35,51
Coordination avec PHC
(1') (1) (2') (3') (4') (5') (2) (3) (4) (5)
Pas de temps 4 H,G D,H H,G H,G H,G H,H D,H D,H D,H H,H
16,67 16,67 11,13 11,16 5,62 5,56 11,01 11,06 5,6 5,52
Pas de temps 3 D,G D,G D,G H,G H,H H,G D,G D,H H,H D,H
16,67 16,67 11,13 11,16 5,62 5,56 11,01 11,06 5,6 5,52
Pas de temps 2 D,H H,G H,H D,H D,G H,H H,G D,G
16,67 16,67 11,13 11,16 11,18 11,01 11,06 11,12
Pas de temps 1 H,H D,H H,G
33,34 33,47 33,19
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Prol.
Sommaire
1
Introdution
2
Bases thoriques
3
4
stochastique
5
Coordination
6
7
Bilan
Prolongements possibles
Bilan
voir si les prsents rsultats et algorithmes sont applicables au
cas n joueurs
faire la phase de communication en ligne
modier le contexte de jeux stochastiques pour pouvoir
dcentraliser la recherche de tous les quilibres
Bilan
cas n joueurs
Bilan
cas n joueurs
Bilan
Bilan
algorithme pouvant thoriquement et pratiquement chercher tous
les quilibres de Nash non domins au sens de Pareto dun jeu
stochastique horizon ni
algorithme dcentralis de planication dun quilibre de Nash
non domin au sens de Pareto dun jeu stochastique horizon
ni

Slides Mathieu

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Slides Mathieu

Transféré par

Droits d'auteur :

Formats disponibles

Intro Bases FiniteVI FiniteVIAll Coord.

) une fonction de transition donnant la probabilit

sachant quon est dans ltat s et quon

) une fonction de rcompense donnant la rcompense

en effectuant laction a (la rcompense ne dpend

dans le cas horizon inni

Vous aimerez peut-être aussi