Vous êtes sur la page 1sur 71

Intro Bases FiniteVI FiniteVIAll Coord.

FiniteVIComm Bilan
Soutenance de PFE
Mathieu Lefort
Dpartement dInformatique et de Gnie Logiciel
lefort@ensta.fr
http://damas.ift.ulaval.ca
31 aot 2007
Soutenance de PFE Mathieu Lefort 1 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan
Plan
1
Introdution
2
Bases thoriques
3
Recherche dun quilibre de Nash dans un jeu stochastique
4
Recherche des quilibres non Pareto domins dans un jeu
stochastique
5
Coordination
6
Recherche dcentralise dun quilibre de Nash non Pareto
domin dans un jeu stochastique
7
Bilan
Soutenance de PFE Mathieu Lefort 2 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art
Sommaire
1
Introdution
Environnement du stage
Objectifs
tat de lart
2
Bases thoriques
3
Recherche dun quilibre de Nash dans un jeu stochastique
4
Recherche des quilibres non Pareto domins dans un jeu
stochastique
5
Coordination
6
Recherche dcentralise dun quilibre de Nash non Pareto
domin dans un jeu stochastique
7
Bilan
Soutenance de PFE Mathieu Lefort 3 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art
laboratoire DAMAS
quipe
6 tudiants au doctorat
4 tudiants la matrise
1 stagiaire
sujets de recherche
Dialogue et Communication inter-agents
Ngociation et Coordination entre agents
Environnements multi-agents temps rel
Apprentissage dans les environnements multi-agents
Coopration et comptition entre agents
Soutenance de PFE Mathieu Lefort 4 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art
Objectifs
Objectifs
initiation la recherche
dvelopper un algorithme de planication dcentralis dans les
jeux stochastiques horizon ni
Plan
analyse et comprhension dun algorithme de planication dans
les jeux stochastiques horizon ni existant
modication de cet algorithme pour prparer la dcentralisation
adaptation notre problme dalgorithmes de synchronisation
existants
mis en commun de la partie planication et de la partie
communication pour obtenir lalgorithme complet
Soutenance de PFE Mathieu Lefort 5 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art
Objectifs
Objectifs
initiation la recherche
dvelopper un algorithme de planication dcentralis dans les
jeux stochastiques horizon ni
Plan
analyse et comprhension dun algorithme de planication dans
les jeux stochastiques horizon ni existant
modication de cet algorithme pour prparer la dcentralisation
adaptation notre problme dalgorithmes de synchronisation
existants
mis en commun de la partie planication et de la partie
communication pour obtenir lalgorithme complet
Soutenance de PFE Mathieu Lefort 5 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art
Objectifs
Objectifs
initiation la recherche
dvelopper un algorithme de planication dcentralis dans les
jeux stochastiques horizon ni
Plan
analyse et comprhension dun algorithme de planication dans
les jeux stochastiques horizon ni existant
modication de cet algorithme pour prparer la dcentralisation
adaptation notre problme dalgorithmes de synchronisation
existants
mis en commun de la partie planication et de la partie
communication pour obtenir lalgorithme complet
Soutenance de PFE Mathieu Lefort 5 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art
Objectifs
Objectifs
initiation la recherche
dvelopper un algorithme de planication dcentralis dans les
jeux stochastiques horizon ni
Plan
analyse et comprhension dun algorithme de planication dans
les jeux stochastiques horizon ni existant
modication de cet algorithme pour prparer la dcentralisation
adaptation notre problme dalgorithmes de synchronisation
existants
mis en commun de la partie planication et de la partie
communication pour obtenir lalgorithme complet
Soutenance de PFE Mathieu Lefort 5 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art
tat de lart
tat de lart de la planication dans les jeux stochastiques
Shapley (1953) a propos un algorithme centralis de recherche
dquilibre de Nash par planication dans les jeux stochastiques
somme nulle
Kearns et al. (2000) a propos une autre version pour les jeux
stochastiques horizon ni
Soutenance de PFE Mathieu Lefort 6 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Sommaire
1
Introdution
2
Bases thoriques
Thorie des jeux
Processus de Markov
Jeu stochastique
Recherche de politique optimale
3
Recherche dun quilibre de Nash dans un jeu stochastique
4
Recherche des quilibres non Pareto domins dans un jeu
stochastique
5
Coordination
6
Recherche dcentralise dun quilibre de Nash non Pareto
domin dans un jeu stochastique
7
Bilan
Soutenance de PFE Mathieu Lefort 7 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Dnitions
Jeu
Un ensemble de joueurs p
1
, . . . , p
n
Chaque agent p
k
a un ensemble dactions A
k
= {a
1
k
, . . . , a
n
k
k
}
Une fonction de gain r
k
donnant la rcompense pour le joueur p
k
de laction conjointe a
r
k
:

k[1...n]
A
k
IR
a = (a
1
, ..., a
n
) r
k
(a)
Stratgie
Chaque agent peut jouer une stratgie mixte

k
=
1
k
, . . . ,
n
k
k
(A
k
)
avec
i
k
la probabilit que p
k
"joue" a
i
k
et
n
k

i =1

i
k
= 1
Si i

k
= 1 alors p
k
joue une stratgie pure
Soutenance de PFE Mathieu Lefort 8 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Dnitions
quilibre de Nash
Un ensemble de stratgies (

1
, . . . ,

n
) est en quilibre de Nash si
r
k
(

1
, . . . ,

k
, . . . ,

n
) r
k
(

1
, . . . ,
k
, . . . ,

n
) ,
k
(A
k
)
Domination au sens de Pareto
Un ensemble de stratgies
_

1
1
, . . . ,
1
n
_
domine au sens de Pareto
_

2
1
, . . . ,
2
n
_
si
i , r
i
_

1
1
, . . . ,
1
n
_
> r
i
_

2
1
, . . . ,
2
n
_
;
k = i , r
k
_

1
1
, . . . ,
1
n
_
r
k
_

2
1
, . . . ,
2
n
_
Soutenance de PFE Mathieu Lefort 8 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Exemple
Dilemne du prisonnier
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
dilemne du prisonner
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(a
2
1
,a
2
2
) est un quilibre de Nash
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(a
1
1
,a
1
2
) Pareto domine (a
2
1
,a
2
2
)
Soutenance de PFE Mathieu Lefort 9 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Exemple
Dilemne du prisonnier
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
dilemne du prisonner
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(a
2
1
,a
2
2
) est un quilibre de Nash
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(a
1
1
,a
1
2
) Pareto domine (a
2
1
,a
2
2
)
Soutenance de PFE Mathieu Lefort 9 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Exemple
Dilemne du prisonnier
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
dilemne du prisonner
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(a
2
1
,a
2
2
) est un quilibre de Nash
(p
1
, p
2
) a
1
2
a
2
2
a
1
1
(1, 1) (10, 0)
a
2
1
(0, 10) (8, 8)
(a
1
1
,a
1
2
) Pareto domine (a
2
1
,a
2
2
)
Soutenance de PFE Mathieu Lefort 9 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Dnitions
Processus de Markov
Un processus de dcision markovien est dni par un quadruplet
S, A, T, R avec:
S un ensemble ni dtats (avec un tat initial et un(ou des)
tat(s) nal(ux));
A un ensemble dactions que peut effectuer lagent;
T(s, a, s

) une fonction de transition donnant la probabilit


daboutir dans ltat s

sachant quon est dans ltat s et quon


effectue laction a;
R(s, a, s

) une fonction de rcompense donnant la rcompense


de lagent sachant quon est dans ltat s et quon va aboutir
dans ltat s

en effectuant laction a (la rcompense ne dpend


gnralement que de ltat courant).
Soutenance de PFE Mathieu Lefort 10 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Dnitions
Horizon
On dnit la notion dhorizon T du PDM par le nombre maximum de
pas de temps possible.
Utilit
U

(s) = E
_

t =0

t
R(s
t
) | , s
0
= s

dans le cas horizon inni


U

(s) = E
_

T
t =0
R(s
t
) | , s
0
= s
_
dans le cas horizon ni
Soutenance de PFE Mathieu Lefort 10 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Dnitions
Jeu stochastique
Un jeu stochastique est dni par un quintuplet
Ag, S, {A
k
}
k=1...|Ag|
, {M
k
[s]}
k=1...|Ag|,sS
, T avec:
Ag un ensemble dagents agissants dans lenvironnement (|Ag|
est le nombre dagents du jeu stochastique);
S un ensemble ni dtats (tats conjoints, cad coordonnes des
deux agents) (avec un tat initial et un(des) tat(s) nal(ux));
un ensemble densemble daction A
k
que peut effectuer lagent k;
un ensemble de matrice de jeux M
k
[s] pour chaque agent k et
pour chaque tat s
T : S A
1
. . . A
|Ag|
S [0; 1] une fonction de transition
entre tats, dpendant de laction conjointe joue par les agents
Soutenance de PFE Mathieu Lefort 11 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Dnitions
Dnitions
Le jeu stochastique est dit ni quand S et {A
k
}
k=1...|Ag|
sont nis
La notion dhorizon est la mme que celle introduite
prcdemment dans les PDM.
quilibre de Nash
k,
k
, s
0
G
k
(s
0
,

1
, . . . ,

k
, . . . ,

n
) > G
k
(s
0
,

1
, . . . ,
k
, . . . ,

n
)
avec G
k
(s, ) la valeur pour lagent k du jeu commenant en s en
suivant la politique conjointe .
Domination au sens de Pareto
Un politique conjointe
1
domine au sens de Pareto
2
si
i , G
i
_
s
init
,
1
_
> G
i
_
s
init
,
2
_
;
k = i , G
k
_
s
init
,
1
_
G
k
_
s
init
,
2
_
Soutenance de PFE Mathieu Lefort 11 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Exemple / Jeu de test
Jeu de Hu et Wellman (2003)
Action possibles pour lagent 1 :
aller droite
aller en haut
rester sur place
Action possibles pour lagent 2 :
aller gauche
aller en haut
rester sur place
Soutenance de PFE Mathieu Lefort 12 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Paramtres
Version dterministe
les actions sont dterministes
les rcompenses sont les suivantes :
R
d

eter
(s
k
, a
k
) =
_
_
_
100 si s

k
est un tat but
1 si s

k
= s

et s

k
nest pas un tat but
0 sinon
avec s

k
ltat suivant de lagent k dans ltat s
k
jouant a
k
et
k

= 1 si k = 2 et inversement
Soutenance de PFE Mathieu Lefort 13 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Paramtres
Version stochastique
les actions sont stochastiques avec les probabilits :
_
_
_
p lagent se dplace dans la direction prvue
1p
2
lagent se dplace droite de la direction prvue
1p
2
lagent se dplace gauche de la direction prvue
Laction "ne rien faire" reste dterministe
les rcompenses sont les mmes que les prcdentes,
pondres par les probabilits de transition : R
stoch
(s, a) =
pR
d

eter
(s, a
pr

evue
)+
1p
2
R
d

eter
(s, a
gauche
)+
1p
2
R
d

eter
(s, a
droite
)
Soutenance de PFE Mathieu Lefort 13 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Recherche de politique optimale
Types dalgorithme
Objectif de lagent : maximiser son utilit
Moyens :
lapprentissage qui consiste apprendre la politique en faisant agir
lagent dans le monde (calcul en ligne (on line)), les donnes
pouvant servir soit calculer la politique directement, soit estimer
un modle du monde partir duquel on calculera ensuite la
politique;
la planication qui consiste calculer une squence dactions
conduisant un but. Le calcul de la politique optimale se fait hors
ligne (off line) partir dun modle du monde prconnu.
Soutenance de PFE Mathieu Lefort 14 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Recherche de politique optimale
Types dalgorithme
Objectif de lagent : maximiser son utilit
Moyens :
lapprentissage qui consiste apprendre la politique en faisant agir
lagent dans le monde (calcul en ligne (on line)), les donnes
pouvant servir soit calculer la politique directement, soit estimer
un modle du monde partir duquel on calculera ensuite la
politique;
la planication qui consiste calculer une squence dactions
conduisant un but. Le calcul de la politique optimale se fait hors
ligne (off line) partir dun modle du monde prconnu.
Soutenance de PFE Mathieu Lefort 14 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Recherche de politique optimale
Types dalgorithme
Objectif de lagent : maximiser son utilit
Moyens :
lapprentissage qui consiste apprendre la politique en faisant agir
lagent dans le monde (calcul en ligne (on line)), les donnes
pouvant servir soit calculer la politique directement, soit estimer
un modle du monde partir duquel on calculera ensuite la
politique;
la planication qui consiste calculer une squence dactions
conduisant un but. Le calcul de la politique optimale se fait hors
ligne (off line) partir dun modle du monde prconnu.
Soutenance de PFE Mathieu Lefort 14 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Recherche de politique optimale
Types dalgorithme
Objectif de lagent : maximiser son utilit
Moyens :
lapprentissage qui consiste apprendre la politique en faisant agir
lagent dans le monde (calcul en ligne (on line)), les donnes
pouvant servir soit calculer la politique directement, soit estimer
un modle du monde partir duquel on calculera ensuite la
politique;
la planication qui consiste calculer une squence dactions
conduisant un but. Le calcul de la politique optimale se fait hors
ligne (off line) partir dun modle du monde prconnu.
Soutenance de PFE Mathieu Lefort 14 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Algo Res
Sommaire
1
Introdution
2
Bases thoriques
3
Recherche dun quilibre de Nash dans un jeu stochastique
Algorithme
Tests
4
Recherche des quilibres non Pareto domins dans un jeu
stochastique
5
Coordination
6
Recherche dcentralise dun quilibre de Nash non Pareto
domin dans un jeu stochastique
7
Bilan
Soutenance de PFE Mathieu Lefort 15 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Algo Res
Recherche dun quilibre de Nash dans un jeu
stochastique horizon ni par planication
Algorithme de Kearns et al. (2000)
1 function FINITEVI(T) return un quilibre de Nash du jeu stochastique lhorizon T
2 Initialisation:
3 for all s S, k 1,2 do
4 Q
k
[s, 0] M
k
[s]
5
k
(s, 0) f
k
(M
1
[s], M
2
[s])
6 end for
7 Itration sur la taille de lhorizon :
8 for t=1. . . T do
9 for all s S, k 1,2 do
10 for all stratgie pure i, j do
11 Q
k
[s, t ](i , j ) M
k
[s](i , j ) +
P
s

P(s

| s, i , j )v
k
f
(Q
1
[s

, t 1], Q
2
[s

, t 1])
12 end for
13
k
(s, t ) f
k
(Q
1
[s, t ], Q
2
[s, t ])
14 end for
15 end for
16 return le couple de politique (
1
,
2
)
17 end function
Soutenance de PFE Mathieu Lefort 16 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Algo Res
Recherche dun quilibre de Nash dans un jeu
stochastique horizon ni par planication
Tests
Tests raliss sur les versions du jeu de Hu et Wellman:
dterministe
stochastique avec p = 0.8
Fonction de choix dquilibre de Nash
La fonction f choisie pour limplmentation est celle propose par
Lemke et Howson (1964), gnralement utilise pour trouver un
quilibre de Nash dans un jeu.
Soutenance de PFE Mathieu Lefort 17 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Algo Res
Recherche dun quilibre de Nash dans un jeu
stochastique horizon ni par planication
Rsultats sur le jeu de Hu et Wellman
Inuence de lhorizon sur les rsultats
dans le cas dterministe, aucune
dans le cas stochastique, si lhorizon est trop faible les agents
restent sur place
Soutenance de PFE Mathieu Lefort 17 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexit
Sommaire
1
Introdution
2
Bases thoriques
3
Recherche dun quilibre de Nash dans un jeu stochastique
4
Recherche des quilibres non Pareto domins dans un jeu
stochastique
Motivation
Algorithme
Tests
Preuve
Complexit
5
Coordination
6
Recherche dcentralise dun quilibre de Nash non Pareto
domin dans un jeu stochastique
7
Bilan
Soutenance de PFE Mathieu Lefort 18 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexit
Recherche des quilibres non Pareto domins dans
un jeu stochastique
But
Modier lalgorithme de Kearns et al. pour trouver tous les quilibres
non Pareto domins dans le but de dcentraliser lalgorithme.
Soutenance de PFE Mathieu Lefort 19 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexit
Recherche des quilibres non Pareto domins dans
un jeu stochastique
Algorithme
1 function FINITEVIALL(T) return lensemble
des quilibres de Nash non domins au
sens de Pareto du jeu stochastique
lhorizon T
2 Initialisation:
3 GM
1
M
1
[s]
4 GM
2
M
2
[s]
5 for all s S, k {1,2} do
6
k
(s, 0) f
all
k
(GM
1
, GM
2
)
7 Q
k
[s, 0] v
k
f
all
(GM
1
, GM
2
)
8 end for
9 Itration sur la taille de lhorizon :
10 for t=1. . . T do
11 for all s S, k {1,2} do
12 for all stratgie pure i, j do
13 for all s

S | P(s

| s, i , j ) =
0 do
14 S

{s

}
15 end for
16 end for
17 E[s]

Q[s

, t 1]
18 for all lment e E[s] do
19 for all stratgie pure i, j do
20 GM
k
(i , j ) M
k
[s](i , j ) +
P
s

P(s

| s, i , j )e
k
[s

]
21 end for
22
k
(s, t )
k
(s, t )
f
all
k
(GM
1
, GM
2
)
23 Q
k
[s, t ] Q
k
[s, t ]
v
k
f
all
(GM
1
, GM
2
)
24 end for
25 end for
26 end for
27 return lensemble des couples de poli-
tiques
28 end function
Soutenance de PFE Mathieu Lefort 20 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexit
Recherche des quilibres non Pareto domins dans
un jeu stochastique
Fonction de recherche de tous les quilibres de Nash non domins
au sens de Pareto
La fonction f
all
utilise est la version tendue de celle propose par
Lemke et Howson (1964), qui permet de trouver un nombre ni
dquilibres de Nash.
Les quilibres non Pareto domins sont slectionns par la suite.
Soutenance de PFE Mathieu Lefort 21 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexit
Recherche des quilibres non Pareto domins dans
un jeu stochastique
Rsultats sur le jeu de Hu et Wellman
Soutenance de PFE Mathieu Lefort 21 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexit
Recherche des quilibres non Pareto domins dans
un jeu stochastique
Rsultats
dans le cas dterministe: on trouve les 10 quilibres
dans le cas stochastique avec
p = 0.8 et p = 0.9 on trouve les quilibres (1) et (1)
p = 0.4 et p = 1/3 on ne trouve pas dquilibres
Soutenance de PFE Mathieu Lefort 21 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexit
Recherche des quilibres non Pareto domins dans
un jeu stochastique
Points cl de la preuve
Une politique est un quilibre de Nash non domin au sens de
Pareto dun jeu stochastique n joueurs horizon ni si et
seulement si elle est chaque pas de temps un quilibre de
Nash non domin au sens de Pareto de la matrice des
rcompenses espres.
Pour une matrice de jeu deux joueurs, le nombre de valeurs
distinctes des quilibres de Nash non domins au sens de
Pareto est nie.
La fonction f
all
existe (Mangasarian (1964), Kuhn (1961) et
Vorobev (1958))
Soutenance de PFE Mathieu Lefort 22 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexit
Recherche des quilibres non Pareto domins dans
un jeu stochastique
Points cl de la preuve
Une politique est un quilibre de Nash non domin au sens de
Pareto dun jeu stochastique n joueurs horizon ni si et
seulement si elle est chaque pas de temps un quilibre de
Nash non domin au sens de Pareto de la matrice des
rcompenses espres.
Pour une matrice de jeu deux joueurs, le nombre de valeurs
distinctes des quilibres de Nash non domins au sens de
Pareto est nie.
La fonction f
all
existe (Mangasarian (1964), Kuhn (1961) et
Vorobev (1958))
Soutenance de PFE Mathieu Lefort 22 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexit
Recherche des quilibres non Pareto domins dans
un jeu stochastique
Points cl de la preuve
Une politique est un quilibre de Nash non domin au sens de
Pareto dun jeu stochastique n joueurs horizon ni si et
seulement si elle est chaque pas de temps un quilibre de
Nash non domin au sens de Pareto de la matrice des
rcompenses espres.
Pour une matrice de jeu deux joueurs, le nombre de valeurs
distinctes des quilibres de Nash non domins au sens de
Pareto est nie.
La fonction f
all
existe (Mangasarian (1964), Kuhn (1961) et
Vorobev (1958))
Soutenance de PFE Mathieu Lefort 22 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexit
Recherche des quilibres non Pareto domins dans
un jeu stochastique
Complexit
0
250
500
750
1000
1250
1500
1750
2000
2250
2500
2750
3000
3250
3500
3750
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
t
e
m
p
s

c
o
m
p
u
t
a
t
i
o
n
n
e
l
horizon
taille 3
taille 4
taille 5
taille 6
Soutenance de PFE Mathieu Lefort 23 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexit
Recherche des quilibres non Pareto domins dans
un jeu stochastique
Complexit thorique au pire
C
FiniteVIAll
pire
= O
_
|S|
NMST
max
exp|A|
_
avec
max
compris entre

1
max
= 0.949
(1 +

2)
|A|
_
|A|
1 et
2
max
= 0.921
_
27
4
|A|
_
|A|
1
C
FiniteVIAll
pire
= O(|S||T| exp|A|) si
max
= 1
Complexit pratique dans ce cas
linaire en |S|
linaire en T
Soutenance de PFE Mathieu Lefort 23 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Sommaire
1
Introdution
2
Bases thoriques
3
Recherche dun quilibre de Nash dans un jeu stochastique
4
Recherche des quilibres non Pareto domins dans un jeu
stochastique
5
Coordination
Motivation
Adaptation du problme
Algorithme de Singh et al. (2000)
Algorithme de Bowling et Veloso (2002)
Comparatif
6
Recherche dcentralise dun quilibre de Nash non Pareto
domin dans un jeu stochastique
7
Bilan
Soutenance de PFE Mathieu Lefort 24 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Coordination
But
Proposer une mthode de coordination pour permettre aux agents de
choisir de manire dcentralis un des quilibres trouvs.
Moyen
Adaptation dalgorithmes de monte de gradient existants au
problme.
Soutenance de PFE Mathieu Lefort 25 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Coordination
Adaptation
Problme : coordination sur un des quilibres dune liste
Monte de gradient : trouve un quilibre de Nash dans un jeu
Adaptation : cration dun jeu de coordination partir des
quilibres
M
k
=
_
_
_
_
_
_
eq
k
1
0 . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0
0 . . . 0 eq
k
n
_
_
_
_
_
_
avec k {1, 2} et (eq
1
i
, eq
2
i
)
i [1...n]
la liste des quilibres
Soutenance de PFE Mathieu Lefort 26 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Coordination
Adaptation
Problme : coordination sur un des quilibres dune liste
Monte de gradient : trouve un quilibre de Nash dans un jeu
Adaptation : cration dun jeu de coordination partir des
quilibres
M
k
=
_
_
_
_
_
_
eq
k
1
0 . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0
0 . . . 0 eq
k
n
_
_
_
_
_
_
avec k {1, 2} et (eq
1
i
, eq
2
i
)
i [1...n]
la liste des quilibres
Soutenance de PFE Mathieu Lefort 26 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Coordination
Adaptation
Problme : coordination sur un des quilibres dune liste
Monte de gradient : trouve un quilibre de Nash dans un jeu
Adaptation : cration dun jeu de coordination partir des
quilibres
M
k
=
_
_
_
_
_
_
eq
k
1
0 . . . 0
0
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
0
0 . . . 0 eq
k
n
_
_
_
_
_
_
avec k {1, 2} et (eq
1
i
, eq
2
i
)
i [1...n]
la liste des quilibres
Soutenance de PFE Mathieu Lefort 26 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Singh et al. (2000)
Problme
Lalgorithme assure la convergence vers un quilibre de Nash ou vers
une valeur dquilibre de Nash dun jeu 2 joueurs et 2 actions.
Il faut ladapter au cas n actions.
Adaptation
On considre les actions par couple pour se ramener au cas 2
actions.
Soutenance de PFE Mathieu Lefort 27 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Singh et al. (2000)
Calcul du gradient
gradient 2 2
V
1
ij
(, )

i
=
i
eq
1
i

j
eq
1
j
=
V
1
ij
(, )

j
gradient dune action i
V
1
i
(, )

i
=

j =i
V
1
ij
(, )

i
= (n 1)
i
eq
1
i

j =i

j
eq
1
j
Soutenance de PFE Mathieu Lefort 27 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Singh et al. (2000)
Algorithme
1 function MONTEGRADIENTN1(M
1
) re-
turn une stratgie pour lagent 1
2 on initialise alatoirement
3 while na pas converg do
4 communiquer lagent 2
5 for all i [1 . . . n] do
6 calcul de
V
1
i
(,)

i
7
i

i
+
V
1
i
(,)

i
8 end for
9 end while
10 return la stratgie
11 end function
1 function MONTEGRADIENTN2(M
2
) re-
turn une stratgie pour lagent 2
2 on initialise alatoirement
3 while na pas converg do
4 communiquer lagent 1
5 for all i [1 . . . n] do
6 calcul de
V
2
i
(,)

i
7
i

i
+
V
2
i
(,)

i
8 end for
9 end while
10 return la stratgie
11 end function
Soutenance de PFE Mathieu Lefort 27 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Singh et al. (2000)
Tests
0
25
50
75
100
125
150
175
200
225
250
275
300
325
100 90 80 70 60 50 40 30 20 10 2
n
o
m
b
r
e

d

t
a
p
e
s

p
o
u
r

c
o
n
v
e
r
g
e
r
taille de la matrice
Paramtres :
moyenne sur 100000 tests
alatoires
pas de dplacement
=
1
nbetape
2/3
critre darrt de 10
9
Soutenance de PFE Mathieu Lefort 27 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Singh et al. (2000)
Complexit
le nombre dtapes ncessaire la convergence est linaire
le calcul des gradients et leur projection est en O(n
2
)
la mise jour de et de est en temps constant
au nal lalgorithme une complexit en O(n
3
)
Soutenance de PFE Mathieu Lefort 27 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Singh et al. (2000)
Complexit
le nombre dtapes ncessaire la convergence est linaire
le calcul des gradients et leur projection est en O(n
2
)
la mise jour de et de est en temps constant
au nal lalgorithme une complexit en O(n
3
)
Soutenance de PFE Mathieu Lefort 27 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Singh et al. (2000)
Complexit
le nombre dtapes ncessaire la convergence est linaire
le calcul des gradients et leur projection est en O(n
2
)
la mise jour de et de est en temps constant
au nal lalgorithme une complexit en O(n
3
)
Soutenance de PFE Mathieu Lefort 27 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Singh et al. (2000)
Complexit
le nombre dtapes ncessaire la convergence est linaire
le calcul des gradients et leur projection est en O(n
2
)
la mise jour de et de est en temps constant
au nal lalgorithme une complexit en O(n
3
)
Soutenance de PFE Mathieu Lefort 27 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Bowling et Veloso (2002)
Algorithme
1 function PHC1(M
1
) return une stratgie
pour lagent 1
2 for all i [1 . . . n] do
3 Q
i
0
4
i

1
n
5 end for
6 while na pas converg do
7 choisir une action

i effectuer suivant
la politique et le facteur dexploration e
8 communiquer

i lagent 2
9 Q

i
(1 )Q

i
+ M
1
(

i ,

j )
10 for all i [1 . . . n] do
11
i

i
+ D
i
avec
D
i
=
(
d
i
si i = argmax
i
Q
i

P
i

=i
d
i
sinon et
d
i
= min

i
,

n

12 end for
13 end while
14 return la stratgie
15 end function
1 function PHC2(M
2
) return une stratgie
pour lagent 2
2 for all j [1 . . . n] do
3 Q
j
0
4
j

1
n
5 end for
6 while na pas converg do
7 choisir une action

j effectuer suivant
la politique et le facteur dexploration e
8 communiquer

j lagent 1
9 Q

j
(1 )Q

j
+ M
2
(

i ,

j )
10 for all j [1 . . . n] do
11
j

j
+ D
j
avec
D
j
=
(
d
j
si j = argmax
j
Q
j

P
j

=j
d
j
sinon
et
d
j
= min

j
,

n

12 end for
13 end while
14 return la stratgie
15 end function
Soutenance de PFE Mathieu Lefort 28 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Bowling et Veloso (2002)
Tests
0
10
20
30
40
50
60
70
80
90
100
110
120
130
100 90 80 70 60 50 40 30 20 10 2
n
o
m
b
r
e

d

t
a
p
e
s

p
o
u
r

c
o
n
v
e
r
g
e
r
taille de la matrice
Paramtres :
moyenne sur 100000 tests
alatoires
taux dexploration
e =
1
nbetape
1/2
facteur descompte
=
1
nbetape
1/4
pas de dplacement
=
1
nbetape
1/4
critre darrt 10
9
Soutenance de PFE Mathieu Lefort 28 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Bowling et Veloso (2002)
Complexit
le nombre dtapes ncessaire la convergence est linaire
le choix de laction est linaire
la communication et la mise jour de la Q-valeur sont en temps
constant
la mise jour de la politique est linaire
au nal la complexit de lalgorithme est en O(n
2
)
Soutenance de PFE Mathieu Lefort 28 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Bowling et Veloso (2002)
Complexit
le nombre dtapes ncessaire la convergence est linaire
le choix de laction est linaire
la communication et la mise jour de la Q-valeur sont en temps
constant
la mise jour de la politique est linaire
au nal la complexit de lalgorithme est en O(n
2
)
Soutenance de PFE Mathieu Lefort 28 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Bowling et Veloso (2002)
Complexit
le nombre dtapes ncessaire la convergence est linaire
le choix de laction est linaire
la communication et la mise jour de la Q-valeur sont en temps
constant
la mise jour de la politique est linaire
au nal la complexit de lalgorithme est en O(n
2
)
Soutenance de PFE Mathieu Lefort 28 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Bowling et Veloso (2002)
Complexit
le nombre dtapes ncessaire la convergence est linaire
le choix de laction est linaire
la communication et la mise jour de la Q-valeur sont en temps
constant
la mise jour de la politique est linaire
au nal la complexit de lalgorithme est en O(n
2
)
Soutenance de PFE Mathieu Lefort 28 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Algorithme de Bowling et Veloso (2002)
Complexit
le nombre dtapes ncessaire la convergence est linaire
le choix de laction est linaire
la communication et la mise jour de la Q-valeur sont en temps
constant
la mise jour de la politique est linaire
au nal la complexit de lalgorithme est en O(n
2
)
Soutenance de PFE Mathieu Lefort 28 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Coordination
Comparatif
PHC ncessite moins de communication
PHC a une complexit plus faible
MONTEGRADIENT tient plus compte de la valeur des quilibres
dans sa convergence
Prolongement
Tester GIGA, version plus gnrale de MONTEGRADIENT au cas
n actions.
Soutenance de PFE Mathieu Lefort 29 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res
Sommaire
1
Introdution
2
Bases thoriques
3
Recherche dun quilibre de Nash dans un jeu stochastique
4
Recherche des quilibres non Pareto domins dans un jeu
stochastique
5
Coordination
6
Recherche dcentralise dun quilibre de Nash non Pareto
domin dans un jeu stochastique
Motivation
Algorithme
Tests
7
Bilan
Soutenance de PFE Mathieu Lefort 30 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res
Recherche dcentralise dun quilibre de Nash non
Pareto domin dans un jeu stochastique
But
Proposer un algorithme de planication dcentralis dun quilibre de
Nash non domin au sens de Pareto dans un jeu stochastique
horizon ni.
Moyen
Faire coordonner les agents chaque tape pour chaque tat sur un
quilibre au moyen de la communication.
Soutenance de PFE Mathieu Lefort 31 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res
Recherche dcentralise dun quilibre de Nash non
Pareto domin dans un jeu stochastique
Algorithme
1 function FINITEVICOMMK(T) return un quilibre de Nash non domin au sens de Pareto du
jeu stochastique lhorizon T
2 Initialisation:
3 GM
1
M
1
[s]
4 GM
2
M
2
[s]
5 for all s S do
6
all
k
(s, 0) f
all
k
(GM
1
, GM
2
)
7
K
(s, 0) Coordination(
all
K
(s, 0))
8 end for
9 Itration sur la taille de lhorizon :
10 for t=1. . . T do
11 for all s S, k {1,2} do
12 for all stratgie pure i, j do
13 GM
k
(i , j ) M
k
[s](i , j ) +
P
s

P(s

| s, i , j )v
K
(
1
(s, t 1),
2
(s, t 1))
14 end for
15
all
k
(s, t ) f
all
k
(GM
1
, GM
2
)
16
K
(s, t ) Coordination(
all
K
(s, t ))
17 end for
18 end for
19 return
K
la politique de lagent K
20 end function
Soutenance de PFE Mathieu Lefort 32 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res
Recherche dcentralise dun quilibre de Nash non
Pareto domin dans un jeu stochastique
Coordination avec MONTEGRADIENT
(1') (1) (2') (3') (4') (5') (2) (3) (4) (5)
Pas de temps 4 H,G D,H H,G H,G H,G H,H D,H D,H D,H H,H
8,14 23,08 10,41 11,82 2,83 8,2 11,2 12,56 2,96 8,8
Pas de temps 3 D,G D,G D,G H,G H,H H,G D,G D,G H,H D,H
8,14 23,08 10,41 11,82 2,83 8,2 11,2 12,56 2,96 8,8
Pas de temps 2 D,H H,G H,H D,H D,G H,H H,G D,G
8,14 23,08 10,41 11,82 11,03 11,2 12,56 11,76
Pas de temps 1 H,H D,H H,G
31,22 33,27 35,51
Coordination avec PHC
(1') (1) (2') (3') (4') (5') (2) (3) (4) (5)
Pas de temps 4 H,G D,H H,G H,G H,G H,H D,H D,H D,H H,H
16,67 16,67 11,13 11,16 5,62 5,56 11,01 11,06 5,6 5,52
Pas de temps 3 D,G D,G D,G H,G H,H H,G D,G D,H H,H D,H
16,67 16,67 11,13 11,16 5,62 5,56 11,01 11,06 5,6 5,52
Pas de temps 2 D,H H,G H,H D,H D,G H,H H,G D,G
16,67 16,67 11,13 11,16 11,18 11,01 11,06 11,12
Pas de temps 1 H,H D,H H,G
33,34 33,47 33,19
Soutenance de PFE Mathieu Lefort 33 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Prol.
Sommaire
1
Introdution
2
Bases thoriques
3
Recherche dun quilibre de Nash dans un jeu stochastique
4
Recherche des quilibres non Pareto domins dans un jeu
stochastique
5
Coordination
6
Recherche dcentralise dun quilibre de Nash non Pareto
domin dans un jeu stochastique
7
Bilan
Prolongements possibles
Soutenance de PFE Mathieu Lefort 34 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Prol.
Bilan
Prolongements possibles
voir si les prsents rsultats et algorithmes sont applicables au
cas n joueurs
faire la phase de communication en ligne
modier le contexte de jeux stochastiques pour pouvoir
dcentraliser la recherche de tous les quilibres
Soutenance de PFE Mathieu Lefort 35 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Prol.
Bilan
Prolongements possibles
voir si les prsents rsultats et algorithmes sont applicables au
cas n joueurs
faire la phase de communication en ligne
modier le contexte de jeux stochastiques pour pouvoir
dcentraliser la recherche de tous les quilibres
Soutenance de PFE Mathieu Lefort 35 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Prol.
Bilan
Prolongements possibles
voir si les prsents rsultats et algorithmes sont applicables au
cas n joueurs
faire la phase de communication en ligne
modier le contexte de jeux stochastiques pour pouvoir
dcentraliser la recherche de tous les quilibres
Soutenance de PFE Mathieu Lefort 35 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Prol.
Bilan
Bilan
algorithme pouvant thoriquement et pratiquement chercher tous
les quilibres de Nash non domins au sens de Pareto dun jeu
stochastique horizon ni
algorithme dcentralis de planication dun quilibre de Nash
non domin au sens de Pareto dun jeu stochastique horizon
ni
Soutenance de PFE Mathieu Lefort 35 / 35

Vous aimerez peut-être aussi