Slides Mathieu

Intro Bases FiniteVI FiniteVIAll Coord.
FiniteVIComm Bilan
Soutenance de PFE
Mathieu Lefort
Département d’Informatique et de Génie Logiciel

lefort@ensta.fr
http://damas.ift.ulaval.ca
31 août 2007
DAMAS
www.damas.ift.ulaval.ca
Soutenance de PFE Mathieu Lefort 1 / 35

Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan
Plan
1 Introdution
2 Bases théoriques
3 Recherche d’un équilibre de Nash dans un jeu stochastique
4 Recherche des équilibres non Pareto dominés dans un jeu

stochastique
5 Coordination
6 Recherche décentralisée d’un équilibre de Nash non Pareto

dominé dans un jeu stochastique
7 Bilan
DAMAS

Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art
Sommaire
1 Introdution
Environnement du stage
Objectifs
État de l’art
2 Bases théoriques

stochastique
5 Coordination

DAMAS

laboratoire DAMAS
Équipe
6 étudiants au doctorat
4 étudiants à la maîtrise
1 stagiaire
sujets de recherche
Dialogue et Communication inter-agents
Négociation et Coordination entre agents
Environnements multi-agents temps réel
Apprentissage dans les environnements multi-agents
Coopération et compétition entre agents
DAMAS

Objectifs
Objectifs
initiation à la recherche
développer un algorithme de planification décentralisé dans les
jeux stochastiques à horizon fini
Plan
analyse et compréhension d’un algorithme de planification dans
les jeux stochastiques à horizon fini existant
modification de cet algorithme pour préparer la décentralisation
adaptation à notre problème d’algorithmes de synchronisation
existants
mis en commun de la partie planification et de la partie
communication pour obtenir l’algorithme complet
DAMAS

Objectifs
Objectifs
Plan
existants
DAMAS

Objectifs
Objectifs
Plan
existants
DAMAS

Objectifs
Objectifs
Plan
existants
DAMAS

État de l’art
État de l’art de la planification dans les jeux stochastiques

Shapley (1953) a proposé un algorithme centralisé de recherche
d’équilibre de Nash par planification dans les jeux stochastiques
à somme nulle
Kearns et al. (2000) a proposé une autre version pour les jeux
stochastiques à horizon fini
DAMAS

Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.
Sommaire
1 Introdution
2 Bases théoriques
Théorie des jeux
Processus de Markov
Jeu stochastique
Recherche de politique optimale

stochastique
5 Coordination

DAMAS dominé dans un jeu stochastique

Définitions
Jeu
Un ensemble de joueurs p1 , . . . , pn
Chaque agent pk a un ensemble d’actions Ak = {ak1 , . . . , aknk }
Une fonction de gain rk donnant la récompense pour le joueur pk
de l’action conjointe a
rk : ×
k ∈[1...n]
Ak → IR
a = (a1 , ..., an ) 7→ rk (a)
Stratégie
Chaque agent peut jouer une stratégie mixte
θk = hθk1 , . . . , θknk i ∈ ∆(Ak )
nk
avec θki la probabilité que pk "joue" aki et θki = 1
P
i=1
0
å Si ∃i 0
DAMAS
θki = 1 alors pk joue une stratégie pure

Définitions
Équilibre de Nash
Un ensemble de stratégies (θ1∗ , . . . , θn∗ ) est en équilibre de Nash si
rk (θ1∗ , . . . , θk∗ , . . . , θn∗ ) > rk (θ1∗ , . . . , θk , . . . , θn∗ ) , ∀θk ∈ ∆(Ak )
Domination au sens de Pareto

Un ensemble de stratégies θ11 , . . . , θn1 domine au sens de Pareto

θ12 , . . . , θn2 si

ri θ11 , . . . , θn1 > ri θ12 , . . . , θn2 ;

∃i,
rk θ11 , . . . , θn1 > rk θ12 , . . . , θn2

∀k 6= i,
DAMAS

Exemple
Dilemne du prisonnier
(p1 , p2 ) a21 a22
a11 (−1, −1) (−10, 0) dilemne du prisonner
a12 (0, −10) (−8, −8)
DAMAS

Exemple
(p1 , p2 ) a21 a22
a12 (0, −10) (−8, −8)
(p1 , p2 ) a21 a22

a11 (−1, −1) (−10, 0) (a12 ,a22 ) est un équilibre de Nash
a12 (0, −10) (−8, −8)
DAMAS

Exemple
(p1 , p2 ) a21 a22
a12 (0, −10) (−8, −8)
(p1 , p2 ) a21 a22

a11 (−1, −1) (−10, 0) (a12 ,a22 ) est un équilibre de Nash
a12 (0, −10) (−8, −8)
(p1 , p2 ) a21 a22

a11 (−1, −1) (−10, 0) (a11 ,a21 ) Pareto domine (a12 ,a22 )
a12 (0, −10) (−8, −8)
DAMAS

Définitions
Processus de Markov
Un processus de décision markovien est défini par un quadruplet
hS, A, T , Ri avec:
S un ensemble fini d’états (avec un état initial et un(ou des)
état(s) final(ux));
A un ensemble d’actions que peut effectuer l’agent;
T (s, a, s0 ) une fonction de transition donnant la probabilité
d’aboutir dans l’état s0 sachant qu’on est dans l’état s et qu’on
effectue l’action a;
R(s, a, s0 ) une fonction de récompense donnant la récompense
de l’agent sachant qu’on est dans l’état s et qu’on va aboutir
dans l’état s0 en effectuant l’action a (la récompense ne dépend
généralement que de l’état courant).
DAMAS

Définitions
Horizon
On définit la notion d’horizon T du PDM par le nombre maximum de
pas de temps possible.
Utilité
P∞
γ t R(st ) | Π, s0 = s dans le cas à horizon infini

U Π (s) = E t=0
hP i
T
U Π (s) = E t=0 R(s t ) | Π, s0 = s dans le cas à horizon fini
DAMAS

Définitions
Jeu stochastique
Un jeu stochastique est défini par un quintuplet
hAg, S, {Ak }k =1...|Ag| , {Mk [s]}k =1...|Ag|,s∈S , T i avec:
Ag un ensemble d’agents agissants dans l’environnement (|Ag|
est le nombre d’agents du jeu stochastique);
S un ensemble fini d’états (états conjoints, cad coordonnées des
deux agents) (avec un état initial et un(des) état(s) final(ux));
un ensemble d’ensemble d’action Ak que peut effectuer l’agent k ;
un ensemble de matrice de jeux Mk [s] pour chaque agent k et
pour chaque état s
T : S × A1 × . . . × A|Ag| × S 7→ [0; 1] une fonction de transition
entre états, dépendant de l’action conjointe jouée par les agents
DAMAS

Définitions
Définitions
Le jeu stochastique est dit fini quand S et {Ak }k =1...|Ag| sont finis
La notion d’horizon est la même que celle introduite
précédemment dans les PDM.
Équilibre de Nash
∀ k , ∀ πk , ∀ s0 Gk (s0 , π1∗ , . . . , πk∗ , . . . , πn∗ ) > Gk (s0 , π1∗ , . . . , πk , . . . , πn∗ )
avec Gk (s, π) la valeur pour l’agent k du jeu commençant en s en
suivant la politique conjointe π.
Domination au sens de Pareto

Un politique conjointe π 1 domine au sens de Pareto π 2 si
∃i, Gi sinit , π 1 > Gi sinit , π 2 ;

∀k 6= i, Gk sinit , π 1 > Gk sinit , π 2

DAMAS

Exemple / Jeu de test
Jeu de Hu et Wellman (2003)
Action possibles pour l’agent 1 :

aller à droite
aller en haut
rester sur place
Action possibles pour l’agent 2 :
aller à gauche
aller en haut
rester sur place
DAMAS

Paramètres
Version déterministe
les actions sont déterministes
les récompenses sont les suivantes :
 100 si sk0 est un état but


Rd éter (sk , ak ) = −1 si sk0 = sk0 0 et sk0 n’est pas un état but

0 sinon

avec sk0 l’état suivant de l’agent k dans l’état sk jouant ak et

k 0 = 1 si k = 2 et inversement
DAMAS

Paramètres
Version stochastique
les actions sont stochastiques avec les probabilités :

 p l’agent se déplace dans la direction prévue
1−p
2 l’agent se déplace à droite de la direction prévue
1−p
l’agent se déplace à gauche de la direction prévue

2
L’action "ne rien faire" reste déterministe

les récompenses sont les mêmes que les précédentes,
pondérées par les probabilités de transition : Rstoch (s, a) =
p ∗Rd éter (s, apr évue )+ 1−p 1−p
2 ∗Rd éter (s, agauche )+ 2 ∗Rd éter (s, adroite )
DAMAS

Types d’algorithme
Objectif de l’agent : maximiser son utilité
Moyens :
l’apprentissage qui consiste à apprendre la politique en faisant agir
l’agent dans le monde (calcul en ligne (on line)), les données
pouvant servir soit à calculer la politique directement, soit à estimer
un modèle du monde à partir duquel on calculera ensuite la
politique;
la planification qui consiste à calculer une séquence d’actions
conduisant à un but. Le calcul de la politique optimale se fait hors
ligne (off line) à partir d’un modèle du monde préconnu.
DAMAS

Moyens :
politique;
DAMAS

Moyens :
politique;
DAMAS

Moyens :
politique;
DAMAS

Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Algo Res
Sommaire
1 Introdution
2 Bases théoriques

Algorithme
Tests

stochastique
5 Coordination

DAMAS
7
www.damas.ift.ulaval.ca Bilan
Recherche d’un équilibre de Nash dans un jeu

stochastique à horizon fini par planification
Algorithme de Kearns et al. (2000)

1 function F INITE VI(T ) return un équilibre de Nash du jeu stochastique à l’horizon T
2 Initialisation:
3 for all s ∈ S, k ∈ 1,2 do
4 Qk [s, 0] ← Mk [s]
5 πk (s, 0) ← fk (M1 [s], M2 [s])
6 end for
7 Itération sur la taille de l’horizon :
8 for t=1. . . T do
9 for all s ∈ S, k ∈ 1,2 do
10 for all stratégie pure i, j do
P(s0 | s, i, j)vfk (Q1 [s0 , t − 1], Q2 [s0 , t − 1])
P
11 Qk [s, t](i, j) ← Mk [s](i, j) +
s0
12 end for
13 πk (s, t) ← fk (Q1 [s, t], Q2 [s, t])
14 end for
15 end for
16 return le couple de politique (π1 ,π2 )
17 end function
DAMAS


Tests
Tests réalisés sur les versions du jeu de Hu et Wellman:
déterministe
stochastique avec p = 0.8
Fonction de choix d’équilibre de Nash

La fonction f choisie pour l’implémentation est celle proposée par
Lemke et Howson (1964), généralement utilisée pour trouver un
équilibre de Nash dans un jeu.
DAMAS


Résultats sur le jeu de Hu et Wellman
Influence de l’horizon sur les résultats

dans le cas déterministe, aucune
dans le cas stochastique, si l’horizon est trop faible les agents
restent sur place
DAMAS

Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexité
Sommaire
1 Introdution
2 Bases théoriques

stochastique
Motivation
Algorithme
Tests
Preuve
Complexité
5 Coordination
DAMAS
dominé dans un jeuSoutenance

stochastique
de PFE Mathieu Lefort 18 / 35
Recherche des équilibres non Pareto dominés dans

un jeu stochastique
But
Modifier l’algorithme de Kearns et al. pour trouver tous les équilibres
non Pareto dominés dans le but de décentraliser l’algorithme.
DAMAS


un jeu stochastique
Algorithme
1 function F INITE VIA LL(T ) return l’ensemble
des équilibres de Nash non dominés au
17 E[s] ← × Q[s , t − 1]
s0 ∈S 0
0
sens de Pareto du jeu stochastique à 18 for all élément e ∈ E[s] do

l’horizon T 19 for all stratégie pure i, j do
2 Initialisation: 20 GMk (i, j) ← Mk [s](i, j) +
P(s | s, i, j)ek [s0 ]
0
P
3 GM1 ← M1 [s]
s0
4 GM2 ← M2 [s]
21 end for
5 for all s ∈ S, k ∈ {1,2} do
22 πk (s, t) ← πk (s, t) ∪
6 πk (s, 0) ← fkall (GM1 , GM2 )
fkall (GM1 , GM2 )
7 Qk [s, 0] ← vfkall (GM1 , GM2 )
23 Qk [s, t] ← Qk [s, t] ∪
8 end for
vfkall (GM1 , GM2 )
10 for t=1. . . T do 24 end for
11 for all s ∈ S, k ∈ {1,2} do 25 end for
12 for all stratégie pure i, j do 26 end for
13 for all s0 ∈ S | P(s0 | s, i, j) 6= 27 return π l’ensemble des couples de poli-
0 do tiques
14 S 0 ← S 0 ∪ {s0 } 28 end function
15 end for
16 end for
DAMAS


un jeu stochastique
Fonction de recherche de tous les équilibres de Nash non dominés

au sens de Pareto
La fonction f all utilisée est la version étendue de celle proposée par
Lemke et Howson (1964), qui permet de trouver un nombre fini
d’équilibres de Nash.
Les équilibres non Pareto dominés sont sélectionnés par la suite.
DAMAS


un jeu stochastique
Résultats sur le jeu de Hu et Wellman
DAMAS


un jeu stochastique
Résultats
dans le cas déterministe: on trouve les 10 équilibres
dans le cas stochastique avec
p = 0.8 et p = 0.9 on trouve les équilibres (1) et (1’)
p = 0.4 et p = 1/3 on ne trouve pas d’équilibres
DAMAS


un jeu stochastique
Points clé de la preuve

Une politique est un équilibre de Nash non dominé au sens de
Pareto d’un jeu stochastique à n joueurs à horizon fini si et
seulement si elle est à chaque pas de temps un équilibre de
Nash non dominé au sens de Pareto de la matrice des
récompenses espérées.
Pour une matrice de jeu à deux joueurs, le nombre de valeurs
distinctes des équilibres de Nash non dominés au sens de
Pareto est finie.
La fonction f all existe (Mangasarian (1964), Kuhn (1961) et
Vorob’ev (1958))
DAMAS


un jeu stochastique

Pareto est finie.
Vorob’ev (1958))
DAMAS


un jeu stochastique

Pareto est finie.
Vorob’ev (1958))
DAMAS


un jeu stochastique
Complexité
3750
taille 3
3500 taille 4
3250 taille 5
3000 taille 6
2750
temps computationnel
2500
2250
2000
1750
1500
1250
1000
750
500
250
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
horizon
DAMAS


un jeu stochastique
Complexité théorique au pire

FiniteVIAll
= O |S|φNMS∗T

Cpire max exp |A| avec φmax compris entre
r |A|
√ |A| 27
(1 + 2)
φ1max = 0.949 p − 1 et φ2max = 0.921 p4 −1
|A| |A|
FiniteVIAll
Cpire = O (|S||T | exp |A|) si φmax = 1
Complexité pratique dans ce cas

linéaire en |S|
linéaire en T
DAMAS

Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.
Sommaire
1 Introdution
2 Bases théoriques

stochastique
5 Coordination
Motivation
Adaptation du problème
Algorithme de Singh et al. (2000)
Algorithme de Bowling et Veloso (2002)
Comparatif
DAMAS
6
Recherche décentralisée d’un équilibre de Nash non Pareto
Coordination
But
Proposer une méthode de coordination pour permettre aux agents de
choisir de manière décentralisé un des équilibres trouvés.
Moyen
Adaptation d’algorithmes de montée de gradient existants au
problème.
DAMAS

Coordination
Adaptation
Problème : coordination sur un des équilibres d’une liste
Montée de gradient : trouve un équilibre de Nash dans un jeu
Adaptation : création d’un jeu de coordination à partir des
équilibres
eq1k 0 . . .
 
0
 .. .. .. 
 0 . . . 
Mk =  .
 
 .. . .. . ..

0 
0 . . . 0 eqnk
avec k ∈ {1, 2} et (eqi1 , eqi2 )i∈[1...n] la liste des équilibres
DAMAS

Coordination
Adaptation
équilibres
eq1k 0 . . .
 
0
 .. .. .. 
 0 . . . 
Mk =  .
 
 .. . .. . ..

0 
0 . . . 0 eqnk
DAMAS

Coordination
Adaptation
équilibres
eq1k 0 . . .
 
0
 .. .. .. 
 0 . . . 
Mk =  .
 
 .. . .. . ..

0 
0 . . . 0 eqnk
DAMAS

Problème
L’algorithme assure la convergence vers un équilibre de Nash ou vers
une valeur d’équilibre de Nash d’un jeu à 2 joueurs et 2 actions.
Il faut l’adapter au cas à n actions.
Adaptation
On considère les actions par couple pour se ramener au cas à 2
actions.
DAMAS

Calcul du gradient
gradient 2 à 2
∂Vij1 (α, β)
= βi eqi1 − βj eqj1
∂αi
∂Vij1 (α, β)
= −
∂αj
gradient d’une action i
∂Vi1 (α, β) X ∂Vij1 (α, β)

=
∂αi ∂αi
j6=i
X
= (n − 1)βi eqi1 − βj eqj1
j6=i
DAMAS

Algorithme
1 function M ONTÉE G RADIENT N1(M1 ) re- 1 function M ONTÉE G RADIENT N2(M2 ) re-
turn une stratégie pour l’agent 1 turn une stratégie pour l’agent 2
2 on initialise α aléatoirement 2 on initialise β aléatoirement
3 while α n’a pas convergé do 3 while β n’a pas convergé do
4 communiquer α à l’agent 2 4 communiquer β à l’agent 1
5 for all i ∈ [1 . . . n] do 5 for all i ∈ [1 . . . n] do
∂V 1 (α,β) ∂V 2 (α,β)
6 calcul de i 6 calcul de i
∂αi ∂βi
∂V 1 (α,β) ∂V 2 (α,β)
7 αi ← αi + η i∂α 7 βi ← βi + η i∂β
i i
8 end for 8 end for
9 end while 9 end while
10 return la stratégie α 10 return la stratégie β
11 end function 11 end function
DAMAS

Tests
325
300
275 Paramètres :
nombre d’étapes pour converger
250
225 moyenne sur 100000 tests
200
175
aléatoires
150
125
pas de déplacement
1
100 η = nbetape 2/3
75
50
25
critère d’arrêt de 10−9
0
2 10 20 30 40 50 60 70 80 90 100
taille de la matrice
DAMAS

Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
DAMAS

Complexité
le calcul des gradients et leur projection est en O(n2 )
DAMAS

Complexité
la mise à jour de α et de β est en temps constant
DAMAS

Complexité
la mise à jour de α et de β est en temps constant
au final l’algorithme à une complexité en O(n3 )
DAMAS

Algorithme
1 function PHC1(M1 ) return une stratégie 1 function PHC2(M2 ) return une stratégie
pour l’agent 1 pour l’agent 2
2 for all i ∈ [1 . . . n] do 2 for all j ∈ [1 . . . n] do
3 Qi ← 0 3 Qj ← 0
4 αi ← n1 4 βj ← n1
5 end for 5 end for
6 while α n’a pas convergé do 6 while β n’a pas convergé do
7 choisir une action î à effectuer suivant 7 choisir une action ĵ à effectuer suivant
la politique α et le facteur d’exploration e la politique β et le facteur d’exploration e
8 communiquer î à l’agent 2 8 communiquer ĵ à l’agent 1
9 Qî ← (1 − γ)Qî + γM1 (î, ĵ) 9 Qĵ ← (1 − γ)Qĵ + γM2 (î, ĵ)
10 for all i ∈ [1 . . . n] do 10 for all j ∈ [1 . . . n] do
11 α(i ← αi + Di avec 11 βj ← βj + Dj avec
−d
P i si i 6= argmaxi 0 Qi 0 −d
P j si j 6= argmaxj 0 Qj 0
(
Di = di 0 sinon et
0 Dj = dj 0 sinon et
„ i 6=« i
0
δ „ j 6=« j
di = min αi , δ
n dj = min βj ,
12 end for n
13 end while 12 end for
14 return la stratégie α 13 end while
15 end function 14 return la stratégie β
15 end function
DAMAS

Tests
Paramètres :
moyenne sur 100000 tests
130 aléatoires
120
110 taux d’exploration
nombre d’étapes pour converger
100
1
90 e=
80 nbetape1/2
70
60 facteur d’escompte
50
1
40 γ=
30 nbetape1/4
20
10 pas de déplacement
0
2 10 20 30 40 50 60 70 80 90 100 1
δ=
taille de la matrice nbetape1/4
critère d’arrêt 10−9
DAMAS

Complexité
DAMAS

Complexité
le choix de l’action est linéaire
DAMAS

Complexité
la communication et la mise à jour de la Q-valeur sont en temps
constant
DAMAS

Complexité
constant
la mise à jour de la politique est linéaire
DAMAS

Complexité
constant
la mise à jour de la politique est linéaire
au final la complexité de l’algorithme est en O(n2 )
DAMAS

Coordination
Comparatif
PHC nécessite moins de communication
PHC a une complexité plus faible
M ONTÉE G RADIENT tient plus compte de la valeur des équilibres
dans sa convergence
Prolongement
Tester GIGA, version plus générale de M ONTÉE G RADIENT au cas à
n actions.
DAMAS

Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res
Sommaire
1 Introdution
2 Bases théoriques

stochastique
5 Coordination

Motivation
Algorithme
Tests
DAMAS

Recherche décentralisée d’un équilibre de Nash non

Pareto dominé dans un jeu stochastique
But
Proposer un algorithme de planification décentralisé d’un équilibre de
Nash non dominé au sens de Pareto dans un jeu stochastique à
horizon fini.
Moyen
Faire coordonner les agents à chaque étape pour chaque état sur un
équilibre au moyen de la communication.
DAMAS


Algorithme
1 function F INITE VIC OMM K(T ) return un équilibre de Nash non dominé au sens de Pareto du
jeu stochastique à l’horizon T
2 Initialisation:
3 GM1 ← M1 [s]
4 GM2 ← M2 [s]
5 for all s ∈ S do
6 πkall (s, 0) ← fkall (GM1 , GM2 )
7 πK (s, 0) ← Coordination(πKall (s, 0))
8 end for
10 for t=1. . . T do
11 for all s ∈ S, k ∈ {1,2} do
12 for all stratégie pure i, j do
P(s0 | s, i, j)v K (π1 (s, t − 1), π2 (s, t − 1))
P
13 GMk (i, j) ← Mk [s](i, j) +
s0
end for 14
15 πkall (s, t) ← fkall (GM1 , GM2 )
16 πK (s, t) ← Coordination(πKall (s, t))
17 end for
18 end for
19 return πK la politique de l’agent K
DAMAS
20 end function


Coordination avec M ONTÉE G RADIENT

(1') (1) (2') (3') (4') (5') (2) (3) (4) (5)
Pas de temps 4 H,G D,H H,G H,G H,G H,H D,H D,H D,H H,H
8,14 23,08 10,41 11,82 2,83 8,2 11,2 12,56 2,96 8,8
Pas de temps 3 D,G D,G D,G H,G H,H H,G D,G D,G H,H D,H
8,14 23,08 10,41 11,82 2,83 8,2 11,2 12,56 2,96 8,8
Pas de temps 2 D,H H,G H,H D,H D,G H,H H,G D,G
8,14 23,08 10,41 11,82 11,03 11,2 12,56 11,76
Pas de temps 1 H,H D,H H,G
31,22 33,27 35,51
Coordination avec PHC

(1') (1) (2') (3') (4') (5') (2) (3) (4) (5)
Pas de temps 4 H,G D,H H,G H,G H,G H,H D,H D,H D,H H,H
16,67 16,67 11,13 11,16 5,62 5,56 11,01 11,06 5,6 5,52
Pas de temps 3 D,G D,G D,G H,G H,H H,G D,G D,H H,H D,H
16,67 16,67 11,13 11,16 5,62 5,56 11,01 11,06 5,6 5,52
Pas de temps 2 D,H H,G H,H D,H D,G H,H H,G D,G
16,67 16,67 11,13 11,16 11,18 11,01 11,06 11,12
Pas de temps 1 H,H D,H H,G
33,34 33,47 33,19
DAMAS

Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Prol.
Sommaire
1 Introdution
2 Bases théoriques

stochastique
5 Coordination

7 Bilan
DAMAS Prolongements possibles

Bilan
Prolongements possibles
voir si les présents résultats et algorithmes sont applicables au
cas à n joueurs
faire la phase de communication en ligne
modifier le contexte de jeux stochastiques pour pouvoir
décentraliser la recherche de tous les équilibres
DAMAS

Bilan
cas à n joueurs
DAMAS

Bilan
cas à n joueurs
DAMAS

Bilan
Bilan
algorithme pouvant théoriquement et pratiquement chercher tous
les équilibres de Nash non dominés au sens de Pareto d’un jeu
stochastique à horizon fini
algorithme décentralisé de planification d’un équilibre de Nash
non dominé au sens de Pareto d’un jeu stochastique à horizon
fini
DAMAS

Slides Mathieu

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Slides Mathieu

Transféré par

Droits d'auteur :

Formats disponibles

Intro Bases FiniteVI FiniteVIAll Coord.

Département d’Informatique et de Génie Logiciel

Soutenance de PFE Mathieu Lefort 1 / 35

3 Recherche d’un équilibre de Nash dans un jeu stochastique

4 Recherche des équilibres non Pareto dominés dans un jeu

6 Recherche décentralisée d’un équilibre de Nash non Pareto

Soutenance de PFE Mathieu Lefort 2 / 35

3 Recherche d’un équilibre de Nash dans un jeu stochastique

4 Recherche des équilibres non Pareto dominés dans un jeu

6 Recherche décentralisée d’un équilibre de Nash non Pareto

Soutenance de PFE Mathieu Lefort 3 / 35

Soutenance de PFE Mathieu Lefort 4 / 35

Soutenance de PFE Mathieu Lefort 5 / 35

Soutenance de PFE Mathieu Lefort 5 / 35

Soutenance de PFE Mathieu Lefort 5 / 35

Soutenance de PFE Mathieu Lefort 5 / 35

État de l’art de la planification dans les jeux stochastiques

Soutenance de PFE Mathieu Lefort 6 / 35

3 Recherche d’un équilibre de Nash dans un jeu stochastique

4 Recherche des équilibres non Pareto dominés dans un jeu

6 Recherche décentralisée d’un équilibre de Nash non Pareto

Soutenance de PFE Mathieu Lefort 7 / 35

a = (a1 , ..., an ) 7→ rk (a)

Soutenance de PFE Mathieu Lefort 8 / 35

rk (θ1∗ , . . . , θk∗ , . . . , θn∗ ) > rk (θ1∗ , . . . , θk , . . . , θn∗ ) , ∀θk ∈ ∆(Ak )

Domination au sens de Pareto

ri θ11 , . . . , θn1 > ri θ12 , . . . , θn2 ;

rk θ11 , . . . , θn1 > rk θ12 , . . . , θn2

Soutenance de PFE Mathieu Lefort 8 / 35

Soutenance de PFE Mathieu Lefort 9 / 35

(p1 , p2 ) a21 a22

Soutenance de PFE Mathieu Lefort 9 / 35

(p1 , p2 ) a21 a22

(p1 , p2 ) a21 a22

Soutenance de PFE Mathieu Lefort 9 / 35

Soutenance de PFE Mathieu Lefort 10 / 35

Soutenance de PFE Mathieu Lefort 10 / 35

Soutenance de PFE Mathieu Lefort 11 / 35

Domination au sens de Pareto

∀k 6= i, Gk sinit , π 1 > Gk sinit , π 2

Soutenance de PFE Mathieu Lefort 11 / 35

Exemple / Jeu de test

Jeu de Hu et Wellman (2003)

Action possibles pour l’agent 1 :

Soutenance de PFE Mathieu Lefort 12 / 35

 100 si sk0 est un état but

Rd éter (sk , ak ) = −1 si sk0 = sk0 0 et sk0 n’est pas un état but

avec sk0 l’état suivant de l’agent k dans l’état sk jouant ak et

Soutenance de PFE Mathieu Lefort 13 / 35

L’action "ne rien faire" reste déterministe

Soutenance de PFE Mathieu Lefort 13 / 35

Recherche de politique optimale

Soutenance de PFE Mathieu Lefort 14 / 35

Recherche de politique optimale

Soutenance de PFE Mathieu Lefort 14 / 35

Recherche de politique optimale

Soutenance de PFE Mathieu Lefort 14 / 35

Recherche de politique optimale

Soutenance de PFE Mathieu Lefort 14 / 35

3 Recherche d’un équilibre de Nash dans un jeu stochastique

4 Recherche des équilibres non Pareto dominés dans un jeu

6 Recherche décentralisée d’un équilibre de Nash non Pareto

Recherche d’un équilibre de Nash dans un jeu