Académique Documents
Professionnel Documents
Culture Documents
FiniteVIComm Bilan
Soutenance de PFE
Mathieu Lefort
31 août 2007
DAMAS
www.damas.ift.ulaval.ca
Plan
1 Introdution
2 Bases théoriques
5 Coordination
7 Bilan
DAMAS
www.damas.ift.ulaval.ca
Sommaire
1 Introdution
Environnement du stage
Objectifs
État de l’art
2 Bases théoriques
5 Coordination
laboratoire DAMAS
Équipe
6 étudiants au doctorat
4 étudiants à la maîtrise
1 stagiaire
sujets de recherche
Dialogue et Communication inter-agents
Négociation et Coordination entre agents
Environnements multi-agents temps réel
Apprentissage dans les environnements multi-agents
Coopération et compétition entre agents
DAMAS
www.damas.ift.ulaval.ca
Objectifs
Objectifs
initiation à la recherche
développer un algorithme de planification décentralisé dans les
jeux stochastiques à horizon fini
Plan
analyse et compréhension d’un algorithme de planification dans
les jeux stochastiques à horizon fini existant
modification de cet algorithme pour préparer la décentralisation
adaptation à notre problème d’algorithmes de synchronisation
existants
mis en commun de la partie planification et de la partie
communication pour obtenir l’algorithme complet
DAMAS
www.damas.ift.ulaval.ca
Objectifs
Objectifs
initiation à la recherche
développer un algorithme de planification décentralisé dans les
jeux stochastiques à horizon fini
Plan
analyse et compréhension d’un algorithme de planification dans
les jeux stochastiques à horizon fini existant
modification de cet algorithme pour préparer la décentralisation
adaptation à notre problème d’algorithmes de synchronisation
existants
mis en commun de la partie planification et de la partie
communication pour obtenir l’algorithme complet
DAMAS
www.damas.ift.ulaval.ca
Objectifs
Objectifs
initiation à la recherche
développer un algorithme de planification décentralisé dans les
jeux stochastiques à horizon fini
Plan
analyse et compréhension d’un algorithme de planification dans
les jeux stochastiques à horizon fini existant
modification de cet algorithme pour préparer la décentralisation
adaptation à notre problème d’algorithmes de synchronisation
existants
mis en commun de la partie planification et de la partie
communication pour obtenir l’algorithme complet
DAMAS
www.damas.ift.ulaval.ca
Objectifs
Objectifs
initiation à la recherche
développer un algorithme de planification décentralisé dans les
jeux stochastiques à horizon fini
Plan
analyse et compréhension d’un algorithme de planification dans
les jeux stochastiques à horizon fini existant
modification de cet algorithme pour préparer la décentralisation
adaptation à notre problème d’algorithmes de synchronisation
existants
mis en commun de la partie planification et de la partie
communication pour obtenir l’algorithme complet
DAMAS
www.damas.ift.ulaval.ca
État de l’art
DAMAS
www.damas.ift.ulaval.ca
Sommaire
1 Introdution
2 Bases théoriques
Théorie des jeux
Processus de Markov
Jeu stochastique
Recherche de politique optimale
5 Coordination
Définitions
Jeu
Un ensemble de joueurs p1 , . . . , pn
Chaque agent pk a un ensemble d’actions Ak = {ak1 , . . . , aknk }
Une fonction de gain rk donnant la récompense pour le joueur pk
de l’action conjointe a
rk : ×
k ∈[1...n]
Ak → IR
Stratégie
Chaque agent peut jouer une stratégie mixte
θk = hθk1 , . . . , θknk i ∈ ∆(Ak )
nk
avec θki la probabilité que pk "joue" aki et θki = 1
P
i=1
0
å Si ∃i 0
DAMAS
θki = 1 alors pk joue une stratégie pure
www.damas.ift.ulaval.ca
Définitions
Équilibre de Nash
Un ensemble de stratégies (θ1∗ , . . . , θn∗ ) est en équilibre de Nash si
θ12 , . . . , θn2 si
DAMAS
www.damas.ift.ulaval.ca
Exemple
Dilemne du prisonnier
(p1 , p2 ) a21 a22
a11 (−1, −1) (−10, 0) dilemne du prisonner
a12 (0, −10) (−8, −8)
DAMAS
www.damas.ift.ulaval.ca
Exemple
Dilemne du prisonnier
(p1 , p2 ) a21 a22
a11 (−1, −1) (−10, 0) dilemne du prisonner
a12 (0, −10) (−8, −8)
DAMAS
www.damas.ift.ulaval.ca
Exemple
Dilemne du prisonnier
(p1 , p2 ) a21 a22
a11 (−1, −1) (−10, 0) dilemne du prisonner
a12 (0, −10) (−8, −8)
DAMAS
www.damas.ift.ulaval.ca
Définitions
Processus de Markov
Un processus de décision markovien est défini par un quadruplet
hS, A, T , Ri avec:
S un ensemble fini d’états (avec un état initial et un(ou des)
état(s) final(ux));
A un ensemble d’actions que peut effectuer l’agent;
T (s, a, s0 ) une fonction de transition donnant la probabilité
d’aboutir dans l’état s0 sachant qu’on est dans l’état s et qu’on
effectue l’action a;
R(s, a, s0 ) une fonction de récompense donnant la récompense
de l’agent sachant qu’on est dans l’état s et qu’on va aboutir
dans l’état s0 en effectuant l’action a (la récompense ne dépend
généralement que de l’état courant).
DAMAS
www.damas.ift.ulaval.ca
Définitions
Horizon
On définit la notion d’horizon T du PDM par le nombre maximum de
pas de temps possible.
Utilité
P∞
γ t R(st ) | Π, s0 = s dans le cas à horizon infini
U Π (s) = E t=0
hP i
T
U Π (s) = E t=0 R(s t ) | Π, s0 = s dans le cas à horizon fini
DAMAS
www.damas.ift.ulaval.ca
Définitions
Jeu stochastique
Un jeu stochastique est défini par un quintuplet
hAg, S, {Ak }k =1...|Ag| , {Mk [s]}k =1...|Ag|,s∈S , T i avec:
Ag un ensemble d’agents agissants dans l’environnement (|Ag|
est le nombre d’agents du jeu stochastique);
S un ensemble fini d’états (états conjoints, cad coordonnées des
deux agents) (avec un état initial et un(des) état(s) final(ux));
un ensemble d’ensemble d’action Ak que peut effectuer l’agent k ;
un ensemble de matrice de jeux Mk [s] pour chaque agent k et
pour chaque état s
T : S × A1 × . . . × A|Ag| × S 7→ [0; 1] une fonction de transition
entre états, dépendant de l’action conjointe jouée par les agents
DAMAS
www.damas.ift.ulaval.ca
Définitions
Définitions
Le jeu stochastique est dit fini quand S et {Ak }k =1...|Ag| sont finis
La notion d’horizon est la même que celle introduite
précédemment dans les PDM.
Équilibre de Nash
∀ k , ∀ πk , ∀ s0 Gk (s0 , π1∗ , . . . , πk∗ , . . . , πn∗ ) > Gk (s0 , π1∗ , . . . , πk , . . . , πn∗ )
avec Gk (s, π) la valeur pour l’agent k du jeu commençant en s en
suivant la politique conjointe π.
DAMAS
www.damas.ift.ulaval.ca
DAMAS
www.damas.ift.ulaval.ca
Paramètres
Version déterministe
les actions sont déterministes
les récompenses sont les suivantes :
DAMAS
www.damas.ift.ulaval.ca
Paramètres
Version stochastique
les actions sont stochastiques avec les probabilités :
p l’agent se déplace dans la direction prévue
1−p
2 l’agent se déplace à droite de la direction prévue
1−p
l’agent se déplace à gauche de la direction prévue
2
DAMAS
www.damas.ift.ulaval.ca
Types d’algorithme
Objectif de l’agent : maximiser son utilité
Moyens :
l’apprentissage qui consiste à apprendre la politique en faisant agir
l’agent dans le monde (calcul en ligne (on line)), les données
pouvant servir soit à calculer la politique directement, soit à estimer
un modèle du monde à partir duquel on calculera ensuite la
politique;
la planification qui consiste à calculer une séquence d’actions
conduisant à un but. Le calcul de la politique optimale se fait hors
ligne (off line) à partir d’un modèle du monde préconnu.
DAMAS
www.damas.ift.ulaval.ca
Types d’algorithme
Objectif de l’agent : maximiser son utilité
Moyens :
l’apprentissage qui consiste à apprendre la politique en faisant agir
l’agent dans le monde (calcul en ligne (on line)), les données
pouvant servir soit à calculer la politique directement, soit à estimer
un modèle du monde à partir duquel on calculera ensuite la
politique;
la planification qui consiste à calculer une séquence d’actions
conduisant à un but. Le calcul de la politique optimale se fait hors
ligne (off line) à partir d’un modèle du monde préconnu.
DAMAS
www.damas.ift.ulaval.ca
Types d’algorithme
Objectif de l’agent : maximiser son utilité
Moyens :
l’apprentissage qui consiste à apprendre la politique en faisant agir
l’agent dans le monde (calcul en ligne (on line)), les données
pouvant servir soit à calculer la politique directement, soit à estimer
un modèle du monde à partir duquel on calculera ensuite la
politique;
la planification qui consiste à calculer une séquence d’actions
conduisant à un but. Le calcul de la politique optimale se fait hors
ligne (off line) à partir d’un modèle du monde préconnu.
DAMAS
www.damas.ift.ulaval.ca
Types d’algorithme
Objectif de l’agent : maximiser son utilité
Moyens :
l’apprentissage qui consiste à apprendre la politique en faisant agir
l’agent dans le monde (calcul en ligne (on line)), les données
pouvant servir soit à calculer la politique directement, soit à estimer
un modèle du monde à partir duquel on calculera ensuite la
politique;
la planification qui consiste à calculer une séquence d’actions
conduisant à un but. Le calcul de la politique optimale se fait hors
ligne (off line) à partir d’un modèle du monde préconnu.
DAMAS
www.damas.ift.ulaval.ca
Sommaire
1 Introdution
2 Bases théoriques
5 Coordination
DAMAS
7
www.damas.ift.ulaval.ca Bilan
Soutenance de PFE Mathieu Lefort 15 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Algo Res
DAMAS
www.damas.ift.ulaval.ca
Tests
Tests réalisés sur les versions du jeu de Hu et Wellman:
déterministe
stochastique avec p = 0.8
DAMAS
www.damas.ift.ulaval.ca
DAMAS
www.damas.ift.ulaval.ca
Sommaire
1 Introdution
2 Bases théoriques
5 Coordination
DAMAS
6 Recherche décentralisée d’un équilibre de Nash non Pareto
www.damas.ift.ulaval.ca
But
Modifier l’algorithme de Kearns et al. pour trouver tous les équilibres
non Pareto dominés dans le but de décentraliser l’algorithme.
DAMAS
www.damas.ift.ulaval.ca
Algorithme
1 function F INITE VIA LL(T ) return l’ensemble
des équilibres de Nash non dominés au
17 E[s] ← × Q[s , t − 1]
s0 ∈S 0
0
DAMAS
www.damas.ift.ulaval.ca
DAMAS
www.damas.ift.ulaval.ca
Résultats
dans le cas déterministe: on trouve les 10 équilibres
dans le cas stochastique avec
p = 0.8 et p = 0.9 on trouve les équilibres (1) et (1’)
p = 0.4 et p = 1/3 on ne trouve pas d’équilibres
DAMAS
www.damas.ift.ulaval.ca
DAMAS
www.damas.ift.ulaval.ca
DAMAS
www.damas.ift.ulaval.ca
DAMAS
www.damas.ift.ulaval.ca
2500
2250
2000
1750
1500
1250
1000
750
500
250
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
horizon
DAMAS
www.damas.ift.ulaval.ca
DAMAS
www.damas.ift.ulaval.ca
Sommaire
1 Introdution
2 Bases théoriques
5 Coordination
Motivation
Adaptation du problème
Algorithme de Singh et al. (2000)
Algorithme de Bowling et Veloso (2002)
Comparatif
DAMAS
6
www.damas.ift.ulaval.ca
Recherche décentralisée d’un équilibre de Nash non Pareto
Soutenance de PFE Mathieu Lefort 24 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Coordination
But
Proposer une méthode de coordination pour permettre aux agents de
choisir de manière décentralisé un des équilibres trouvés.
Moyen
Adaptation d’algorithmes de montée de gradient existants au
problème.
DAMAS
www.damas.ift.ulaval.ca
Coordination
Adaptation
Problème : coordination sur un des équilibres d’une liste
Montée de gradient : trouve un équilibre de Nash dans un jeu
Adaptation : création d’un jeu de coordination à partir des
équilibres
eq1k 0 . . .
0
.. .. ..
0 . . .
Mk = .
.. . .. . ..
0
0 . . . 0 eqnk
avec k ∈ {1, 2} et (eqi1 , eqi2 )i∈[1...n] la liste des équilibres
DAMAS
www.damas.ift.ulaval.ca
Coordination
Adaptation
Problème : coordination sur un des équilibres d’une liste
Montée de gradient : trouve un équilibre de Nash dans un jeu
Adaptation : création d’un jeu de coordination à partir des
équilibres
eq1k 0 . . .
0
.. .. ..
0 . . .
Mk = .
.. . .. . ..
0
0 . . . 0 eqnk
avec k ∈ {1, 2} et (eqi1 , eqi2 )i∈[1...n] la liste des équilibres
DAMAS
www.damas.ift.ulaval.ca
Coordination
Adaptation
Problème : coordination sur un des équilibres d’une liste
Montée de gradient : trouve un équilibre de Nash dans un jeu
Adaptation : création d’un jeu de coordination à partir des
équilibres
eq1k 0 . . .
0
.. .. ..
0 . . .
Mk = .
.. . .. . ..
0
0 . . . 0 eqnk
avec k ∈ {1, 2} et (eqi1 , eqi2 )i∈[1...n] la liste des équilibres
DAMAS
www.damas.ift.ulaval.ca
Problème
L’algorithme assure la convergence vers un équilibre de Nash ou vers
une valeur d’équilibre de Nash d’un jeu à 2 joueurs et 2 actions.
Il faut l’adapter au cas à n actions.
Adaptation
On considère les actions par couple pour se ramener au cas à 2
actions.
DAMAS
www.damas.ift.ulaval.ca
Calcul du gradient
gradient 2 à 2
∂Vij1 (α, β)
= βi eqi1 − βj eqj1
∂αi
∂Vij1 (α, β)
= −
∂αj
DAMAS
www.damas.ift.ulaval.ca
Algorithme
1 function M ONTÉE G RADIENT N1(M1 ) re- 1 function M ONTÉE G RADIENT N2(M2 ) re-
turn une stratégie pour l’agent 1 turn une stratégie pour l’agent 2
2 on initialise α aléatoirement 2 on initialise β aléatoirement
3 while α n’a pas convergé do 3 while β n’a pas convergé do
4 communiquer α à l’agent 2 4 communiquer β à l’agent 1
5 for all i ∈ [1 . . . n] do 5 for all i ∈ [1 . . . n] do
∂V 1 (α,β) ∂V 2 (α,β)
6 calcul de i 6 calcul de i
∂αi ∂βi
∂V 1 (α,β) ∂V 2 (α,β)
7 αi ← αi + η i∂α 7 βi ← βi + η i∂β
i i
8 end for 8 end for
9 end while 9 end while
10 return la stratégie α 10 return la stratégie β
11 end function 11 end function
DAMAS
www.damas.ift.ulaval.ca
Tests
325
300
275 Paramètres :
nombre d’étapes pour converger
250
225 moyenne sur 100000 tests
200
175
aléatoires
150
125
pas de déplacement
1
100 η = nbetape 2/3
75
50
25
critère d’arrêt de 10−9
0
2 10 20 30 40 50 60 70 80 90 100
taille de la matrice
DAMAS
www.damas.ift.ulaval.ca
Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
DAMAS
www.damas.ift.ulaval.ca
Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le calcul des gradients et leur projection est en O(n2 )
DAMAS
www.damas.ift.ulaval.ca
Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le calcul des gradients et leur projection est en O(n2 )
la mise à jour de α et de β est en temps constant
DAMAS
www.damas.ift.ulaval.ca
Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le calcul des gradients et leur projection est en O(n2 )
la mise à jour de α et de β est en temps constant
au final l’algorithme à une complexité en O(n3 )
DAMAS
www.damas.ift.ulaval.ca
Algorithme
1 function PHC1(M1 ) return une stratégie 1 function PHC2(M2 ) return une stratégie
pour l’agent 1 pour l’agent 2
2 for all i ∈ [1 . . . n] do 2 for all j ∈ [1 . . . n] do
3 Qi ← 0 3 Qj ← 0
4 αi ← n1 4 βj ← n1
5 end for 5 end for
6 while α n’a pas convergé do 6 while β n’a pas convergé do
7 choisir une action î à effectuer suivant 7 choisir une action ĵ à effectuer suivant
la politique α et le facteur d’exploration e la politique β et le facteur d’exploration e
8 communiquer î à l’agent 2 8 communiquer ĵ à l’agent 1
9 Qî ← (1 − γ)Qî + γM1 (î, ĵ) 9 Qĵ ← (1 − γ)Qĵ + γM2 (î, ĵ)
10 for all i ∈ [1 . . . n] do 10 for all j ∈ [1 . . . n] do
11 α(i ← αi + Di avec 11 βj ← βj + Dj avec
−d
P i si i 6= argmaxi 0 Qi 0 −d
P j si j 6= argmaxj 0 Qj 0
(
Di = di 0 sinon et
0 Dj = dj 0 sinon et
„ i 6=« i
0
δ „ j 6=« j
di = min αi , δ
n dj = min βj ,
12 end for n
13 end while 12 end for
14 return la stratégie α 13 end while
15 end function 14 return la stratégie β
15 end function
DAMAS
www.damas.ift.ulaval.ca
Tests
Paramètres :
moyenne sur 100000 tests
130 aléatoires
120
110 taux d’exploration
nombre d’étapes pour converger
100
1
90 e=
80 nbetape1/2
70
60 facteur d’escompte
50
1
40 γ=
30 nbetape1/4
20
10 pas de déplacement
0
2 10 20 30 40 50 60 70 80 90 100 1
δ=
taille de la matrice nbetape1/4
critère d’arrêt 10−9
DAMAS
www.damas.ift.ulaval.ca
Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
DAMAS
www.damas.ift.ulaval.ca
Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le choix de l’action est linéaire
DAMAS
www.damas.ift.ulaval.ca
Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le choix de l’action est linéaire
la communication et la mise à jour de la Q-valeur sont en temps
constant
DAMAS
www.damas.ift.ulaval.ca
Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le choix de l’action est linéaire
la communication et la mise à jour de la Q-valeur sont en temps
constant
la mise à jour de la politique est linéaire
DAMAS
www.damas.ift.ulaval.ca
Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le choix de l’action est linéaire
la communication et la mise à jour de la Q-valeur sont en temps
constant
la mise à jour de la politique est linéaire
au final la complexité de l’algorithme est en O(n2 )
DAMAS
www.damas.ift.ulaval.ca
Coordination
Comparatif
PHC nécessite moins de communication
PHC a une complexité plus faible
M ONTÉE G RADIENT tient plus compte de la valeur des équilibres
dans sa convergence
Prolongement
Tester GIGA, version plus générale de M ONTÉE G RADIENT au cas à
n actions.
DAMAS
www.damas.ift.ulaval.ca
Sommaire
1 Introdution
2 Bases théoriques
5 Coordination
But
Proposer un algorithme de planification décentralisé d’un équilibre de
Nash non dominé au sens de Pareto dans un jeu stochastique à
horizon fini.
Moyen
Faire coordonner les agents à chaque étape pour chaque état sur un
équilibre au moyen de la communication.
DAMAS
www.damas.ift.ulaval.ca
Pas de temps 4 H,G D,H H,G H,G H,G H,H D,H D,H D,H H,H
8,14 23,08 10,41 11,82 2,83 8,2 11,2 12,56 2,96 8,8
Pas de temps 3 D,G D,G D,G H,G H,H H,G D,G D,G H,H D,H
8,14 23,08 10,41 11,82 2,83 8,2 11,2 12,56 2,96 8,8
Pas de temps 2 D,H H,G H,H D,H D,G H,H H,G D,G
8,14 23,08 10,41 11,82 11,03 11,2 12,56 11,76
Pas de temps 1 H,H D,H H,G
31,22 33,27 35,51
Pas de temps 4 H,G D,H H,G H,G H,G H,H D,H D,H D,H H,H
16,67 16,67 11,13 11,16 5,62 5,56 11,01 11,06 5,6 5,52
Pas de temps 3 D,G D,G D,G H,G H,H H,G D,G D,H H,H D,H
16,67 16,67 11,13 11,16 5,62 5,56 11,01 11,06 5,6 5,52
Pas de temps 2 D,H H,G H,H D,H D,G H,H H,G D,G
16,67 16,67 11,13 11,16 11,18 11,01 11,06 11,12
Pas de temps 1 H,H D,H H,G
33,34 33,47 33,19
DAMAS
www.damas.ift.ulaval.ca
Sommaire
1 Introdution
2 Bases théoriques
5 Coordination
7 Bilan
DAMAS Prolongements possibles
www.damas.ift.ulaval.ca
Bilan
Prolongements possibles
voir si les présents résultats et algorithmes sont applicables au
cas à n joueurs
faire la phase de communication en ligne
modifier le contexte de jeux stochastiques pour pouvoir
décentraliser la recherche de tous les équilibres
DAMAS
www.damas.ift.ulaval.ca
Bilan
Prolongements possibles
voir si les présents résultats et algorithmes sont applicables au
cas à n joueurs
faire la phase de communication en ligne
modifier le contexte de jeux stochastiques pour pouvoir
décentraliser la recherche de tous les équilibres
DAMAS
www.damas.ift.ulaval.ca
Bilan
Prolongements possibles
voir si les présents résultats et algorithmes sont applicables au
cas à n joueurs
faire la phase de communication en ligne
modifier le contexte de jeux stochastiques pour pouvoir
décentraliser la recherche de tous les équilibres
DAMAS
www.damas.ift.ulaval.ca
Bilan
Bilan
algorithme pouvant théoriquement et pratiquement chercher tous
les équilibres de Nash non dominés au sens de Pareto d’un jeu
stochastique à horizon fini
algorithme décentralisé de planification d’un équilibre de Nash
non dominé au sens de Pareto d’un jeu stochastique à horizon
fini
DAMAS
www.damas.ift.ulaval.ca