Vous êtes sur la page 1sur 71

Intro Bases FiniteVI FiniteVIAll Coord.

FiniteVIComm Bilan

Soutenance de PFE

Mathieu Lefort

Département d’Informatique et de Génie Logiciel


lefort@ensta.fr
http://damas.ift.ulaval.ca

31 août 2007

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 1 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan

Plan

1 Introdution

2 Bases théoriques

3 Recherche d’un équilibre de Nash dans un jeu stochastique

4 Recherche des équilibres non Pareto dominés dans un jeu


stochastique

5 Coordination

6 Recherche décentralisée d’un équilibre de Nash non Pareto


dominé dans un jeu stochastique

7 Bilan
DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 2 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art

Sommaire

1 Introdution
Environnement du stage
Objectifs
État de l’art

2 Bases théoriques

3 Recherche d’un équilibre de Nash dans un jeu stochastique

4 Recherche des équilibres non Pareto dominés dans un jeu


stochastique

5 Coordination

6 Recherche décentralisée d’un équilibre de Nash non Pareto


dominé dans un jeu stochastique
DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 3 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art

laboratoire DAMAS

Équipe
6 étudiants au doctorat
4 étudiants à la maîtrise
1 stagiaire

sujets de recherche
Dialogue et Communication inter-agents
Négociation et Coordination entre agents
Environnements multi-agents temps réel
Apprentissage dans les environnements multi-agents
Coopération et compétition entre agents

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 4 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art

Objectifs

Objectifs
initiation à la recherche
développer un algorithme de planification décentralisé dans les
jeux stochastiques à horizon fini

Plan
analyse et compréhension d’un algorithme de planification dans
les jeux stochastiques à horizon fini existant
modification de cet algorithme pour préparer la décentralisation
adaptation à notre problème d’algorithmes de synchronisation
existants
mis en commun de la partie planification et de la partie
communication pour obtenir l’algorithme complet

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 5 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art

Objectifs

Objectifs
initiation à la recherche
développer un algorithme de planification décentralisé dans les
jeux stochastiques à horizon fini

Plan
analyse et compréhension d’un algorithme de planification dans
les jeux stochastiques à horizon fini existant
modification de cet algorithme pour préparer la décentralisation
adaptation à notre problème d’algorithmes de synchronisation
existants
mis en commun de la partie planification et de la partie
communication pour obtenir l’algorithme complet

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 5 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art

Objectifs

Objectifs
initiation à la recherche
développer un algorithme de planification décentralisé dans les
jeux stochastiques à horizon fini

Plan
analyse et compréhension d’un algorithme de planification dans
les jeux stochastiques à horizon fini existant
modification de cet algorithme pour préparer la décentralisation
adaptation à notre problème d’algorithmes de synchronisation
existants
mis en commun de la partie planification et de la partie
communication pour obtenir l’algorithme complet

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 5 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art

Objectifs

Objectifs
initiation à la recherche
développer un algorithme de planification décentralisé dans les
jeux stochastiques à horizon fini

Plan
analyse et compréhension d’un algorithme de planification dans
les jeux stochastiques à horizon fini existant
modification de cet algorithme pour préparer la décentralisation
adaptation à notre problème d’algorithmes de synchronisation
existants
mis en commun de la partie planification et de la partie
communication pour obtenir l’algorithme complet

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 5 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Labo Obj Art

État de l’art

État de l’art de la planification dans les jeux stochastiques


Shapley (1953) a proposé un algorithme centralisé de recherche
d’équilibre de Nash par planification dans les jeux stochastiques
à somme nulle
Kearns et al. (2000) a proposé une autre version pour les jeux
stochastiques à horizon fini

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 6 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Sommaire

1 Introdution

2 Bases théoriques
Théorie des jeux
Processus de Markov
Jeu stochastique
Recherche de politique optimale

3 Recherche d’un équilibre de Nash dans un jeu stochastique

4 Recherche des équilibres non Pareto dominés dans un jeu


stochastique

5 Coordination

6 Recherche décentralisée d’un équilibre de Nash non Pareto


DAMAS dominé dans un jeu stochastique
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 7 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Définitions
Jeu
Un ensemble de joueurs p1 , . . . , pn
Chaque agent pk a un ensemble d’actions Ak = {ak1 , . . . , aknk }
Une fonction de gain rk donnant la récompense pour le joueur pk
de l’action conjointe a

rk : ×
k ∈[1...n]
Ak → IR

a = (a1 , ..., an ) 7→ rk (a)

Stratégie
Chaque agent peut jouer une stratégie mixte
θk = hθk1 , . . . , θknk i ∈ ∆(Ak )
nk
avec θki la probabilité que pk "joue" aki et θki = 1
P
i=1
0
å Si ∃i 0
DAMAS
θki = 1 alors pk joue une stratégie pure
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 8 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Définitions

Équilibre de Nash
Un ensemble de stratégies (θ1∗ , . . . , θn∗ ) est en équilibre de Nash si

rk (θ1∗ , . . . , θk∗ , . . . , θn∗ ) > rk (θ1∗ , . . . , θk , . . . , θn∗ ) , ∀θk ∈ ∆(Ak )

Domination au sens de Pareto


Un ensemble de stratégies θ11 , . . . , θn1 domine au sens de Pareto


θ12 , . . . , θn2 si


ri θ11 , . . . , θn1 > ri θ12 , . . . , θn2 ;


 
∃i,

rk θ11 , . . . , θn1 > rk θ12 , . . . , θn2


 
∀k 6= i,

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 8 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Exemple

Dilemne du prisonnier
(p1 , p2 ) a21 a22
a11 (−1, −1) (−10, 0) dilemne du prisonner
a12 (0, −10) (−8, −8)

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 9 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Exemple

Dilemne du prisonnier
(p1 , p2 ) a21 a22
a11 (−1, −1) (−10, 0) dilemne du prisonner
a12 (0, −10) (−8, −8)

(p1 , p2 ) a21 a22


a11 (−1, −1) (−10, 0) (a12 ,a22 ) est un équilibre de Nash
a12 (0, −10) (−8, −8)

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 9 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Exemple

Dilemne du prisonnier
(p1 , p2 ) a21 a22
a11 (−1, −1) (−10, 0) dilemne du prisonner
a12 (0, −10) (−8, −8)

(p1 , p2 ) a21 a22


a11 (−1, −1) (−10, 0) (a12 ,a22 ) est un équilibre de Nash
a12 (0, −10) (−8, −8)

(p1 , p2 ) a21 a22


a11 (−1, −1) (−10, 0) (a11 ,a21 ) Pareto domine (a12 ,a22 )
a12 (0, −10) (−8, −8)

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 9 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Définitions

Processus de Markov
Un processus de décision markovien est défini par un quadruplet
hS, A, T , Ri avec:
S un ensemble fini d’états (avec un état initial et un(ou des)
état(s) final(ux));
A un ensemble d’actions que peut effectuer l’agent;
T (s, a, s0 ) une fonction de transition donnant la probabilité
d’aboutir dans l’état s0 sachant qu’on est dans l’état s et qu’on
effectue l’action a;
R(s, a, s0 ) une fonction de récompense donnant la récompense
de l’agent sachant qu’on est dans l’état s et qu’on va aboutir
dans l’état s0 en effectuant l’action a (la récompense ne dépend
généralement que de l’état courant).

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 10 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Définitions

Horizon
On définit la notion d’horizon T du PDM par le nombre maximum de
pas de temps possible.

Utilité
P∞
γ t R(st ) | Π, s0 = s dans le cas à horizon infini

U Π (s) = E t=0
hP i
T
U Π (s) = E t=0 R(s t ) | Π, s0 = s dans le cas à horizon fini

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 10 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Définitions

Jeu stochastique
Un jeu stochastique est défini par un quintuplet
hAg, S, {Ak }k =1...|Ag| , {Mk [s]}k =1...|Ag|,s∈S , T i avec:
Ag un ensemble d’agents agissants dans l’environnement (|Ag|
est le nombre d’agents du jeu stochastique);
S un ensemble fini d’états (états conjoints, cad coordonnées des
deux agents) (avec un état initial et un(des) état(s) final(ux));
un ensemble d’ensemble d’action Ak que peut effectuer l’agent k ;
un ensemble de matrice de jeux Mk [s] pour chaque agent k et
pour chaque état s
T : S × A1 × . . . × A|Ag| × S 7→ [0; 1] une fonction de transition
entre états, dépendant de l’action conjointe jouée par les agents

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 11 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Définitions

Définitions
Le jeu stochastique est dit fini quand S et {Ak }k =1...|Ag| sont finis
La notion d’horizon est la même que celle introduite
précédemment dans les PDM.

Équilibre de Nash
∀ k , ∀ πk , ∀ s0 Gk (s0 , π1∗ , . . . , πk∗ , . . . , πn∗ ) > Gk (s0 , π1∗ , . . . , πk , . . . , πn∗ )
avec Gk (s, π) la valeur pour l’agent k du jeu commençant en s en
suivant la politique conjointe π.

Domination au sens de Pareto


Un politique conjointe π 1 domine au sens de Pareto π 2 si
∃i, Gi sinit , π 1 > Gi sinit , π 2 ;
 

∀k 6= i, Gk sinit , π 1 > Gk sinit , π 2


 

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 11 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Exemple / Jeu de test

Jeu de Hu et Wellman (2003)

Action possibles pour l’agent 1 :


aller à droite
aller en haut
rester sur place
Action possibles pour l’agent 2 :
aller à gauche
aller en haut
rester sur place

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 12 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Paramètres

Version déterministe
les actions sont déterministes
les récompenses sont les suivantes :

 100 si sk0 est un état but


Rd éter (sk , ak ) = −1 si sk0 = sk0 0 et sk0 n’est pas un état but


0 sinon

avec sk0 l’état suivant de l’agent k dans l’état sk jouant ak et


k 0 = 1 si k = 2 et inversement

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 13 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Paramètres

Version stochastique
les actions sont stochastiques avec les probabilités :


 p l’agent se déplace dans la direction prévue
1−p
2 l’agent se déplace à droite de la direction prévue
1−p
l’agent se déplace à gauche de la direction prévue

2

L’action "ne rien faire" reste déterministe


les récompenses sont les mêmes que les précédentes,
pondérées par les probabilités de transition : Rstoch (s, a) =
p ∗Rd éter (s, apr évue )+ 1−p 1−p
2 ∗Rd éter (s, agauche )+ 2 ∗Rd éter (s, adroite )

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 13 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Recherche de politique optimale

Types d’algorithme
Objectif de l’agent : maximiser son utilité
Moyens :
l’apprentissage qui consiste à apprendre la politique en faisant agir
l’agent dans le monde (calcul en ligne (on line)), les données
pouvant servir soit à calculer la politique directement, soit à estimer
un modèle du monde à partir duquel on calculera ensuite la
politique;
la planification qui consiste à calculer une séquence d’actions
conduisant à un but. Le calcul de la politique optimale se fait hors
ligne (off line) à partir d’un modèle du monde préconnu.

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 14 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Recherche de politique optimale

Types d’algorithme
Objectif de l’agent : maximiser son utilité
Moyens :
l’apprentissage qui consiste à apprendre la politique en faisant agir
l’agent dans le monde (calcul en ligne (on line)), les données
pouvant servir soit à calculer la politique directement, soit à estimer
un modèle du monde à partir duquel on calculera ensuite la
politique;
la planification qui consiste à calculer une séquence d’actions
conduisant à un but. Le calcul de la politique optimale se fait hors
ligne (off line) à partir d’un modèle du monde préconnu.

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 14 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Recherche de politique optimale

Types d’algorithme
Objectif de l’agent : maximiser son utilité
Moyens :
l’apprentissage qui consiste à apprendre la politique en faisant agir
l’agent dans le monde (calcul en ligne (on line)), les données
pouvant servir soit à calculer la politique directement, soit à estimer
un modèle du monde à partir duquel on calculera ensuite la
politique;
la planification qui consiste à calculer une séquence d’actions
conduisant à un but. Le calcul de la politique optimale se fait hors
ligne (off line) à partir d’un modèle du monde préconnu.

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 14 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan TDJ PDM SG App./Planif.

Recherche de politique optimale

Types d’algorithme
Objectif de l’agent : maximiser son utilité
Moyens :
l’apprentissage qui consiste à apprendre la politique en faisant agir
l’agent dans le monde (calcul en ligne (on line)), les données
pouvant servir soit à calculer la politique directement, soit à estimer
un modèle du monde à partir duquel on calculera ensuite la
politique;
la planification qui consiste à calculer une séquence d’actions
conduisant à un but. Le calcul de la politique optimale se fait hors
ligne (off line) à partir d’un modèle du monde préconnu.

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 14 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Algo Res

Sommaire

1 Introdution

2 Bases théoriques

3 Recherche d’un équilibre de Nash dans un jeu stochastique


Algorithme
Tests

4 Recherche des équilibres non Pareto dominés dans un jeu


stochastique

5 Coordination

6 Recherche décentralisée d’un équilibre de Nash non Pareto


dominé dans un jeu stochastique

DAMAS
7
www.damas.ift.ulaval.ca Bilan
Soutenance de PFE Mathieu Lefort 15 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Algo Res

Recherche d’un équilibre de Nash dans un jeu


stochastique à horizon fini par planification

Algorithme de Kearns et al. (2000)


1 function F INITE VI(T ) return un équilibre de Nash du jeu stochastique à l’horizon T
2 Initialisation:
3 for all s ∈ S, k ∈ 1,2 do
4 Qk [s, 0] ← Mk [s]
5 πk (s, 0) ← fk (M1 [s], M2 [s])
6 end for
7 Itération sur la taille de l’horizon :
8 for t=1. . . T do
9 for all s ∈ S, k ∈ 1,2 do
10 for all stratégie pure i, j do
P(s0 | s, i, j)vfk (Q1 [s0 , t − 1], Q2 [s0 , t − 1])
P
11 Qk [s, t](i, j) ← Mk [s](i, j) +
s0
12 end for
13 πk (s, t) ← fk (Q1 [s, t], Q2 [s, t])
14 end for
15 end for
16 return le couple de politique (π1 ,π2 )
17 end function

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 16 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Algo Res

Recherche d’un équilibre de Nash dans un jeu


stochastique à horizon fini par planification

Tests
Tests réalisés sur les versions du jeu de Hu et Wellman:
déterministe
stochastique avec p = 0.8

Fonction de choix d’équilibre de Nash


La fonction f choisie pour l’implémentation est celle proposée par
Lemke et Howson (1964), généralement utilisée pour trouver un
équilibre de Nash dans un jeu.

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 17 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Algo Res

Recherche d’un équilibre de Nash dans un jeu


stochastique à horizon fini par planification

Résultats sur le jeu de Hu et Wellman

Influence de l’horizon sur les résultats


dans le cas déterministe, aucune
dans le cas stochastique, si l’horizon est trop faible les agents
restent sur place

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 17 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexité

Sommaire

1 Introdution

2 Bases théoriques

3 Recherche d’un équilibre de Nash dans un jeu stochastique

4 Recherche des équilibres non Pareto dominés dans un jeu


stochastique
Motivation
Algorithme
Tests
Preuve
Complexité

5 Coordination

DAMAS
6 Recherche décentralisée d’un équilibre de Nash non Pareto
www.damas.ift.ulaval.ca

dominé dans un jeuSoutenance


stochastique
de PFE Mathieu Lefort 18 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexité

Recherche des équilibres non Pareto dominés dans


un jeu stochastique

But
Modifier l’algorithme de Kearns et al. pour trouver tous les équilibres
non Pareto dominés dans le but de décentraliser l’algorithme.

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 19 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexité

Recherche des équilibres non Pareto dominés dans


un jeu stochastique

Algorithme
1 function F INITE VIA LL(T ) return l’ensemble
des équilibres de Nash non dominés au
17 E[s] ← × Q[s , t − 1]
s0 ∈S 0
0

sens de Pareto du jeu stochastique à 18 for all élément e ∈ E[s] do


l’horizon T 19 for all stratégie pure i, j do
2 Initialisation: 20 GMk (i, j) ← Mk [s](i, j) +
P(s | s, i, j)ek [s0 ]
0
P
3 GM1 ← M1 [s]
s0
4 GM2 ← M2 [s]
21 end for
5 for all s ∈ S, k ∈ {1,2} do
22 πk (s, t) ← πk (s, t) ∪
6 πk (s, 0) ← fkall (GM1 , GM2 )
fkall (GM1 , GM2 )
7 Qk [s, 0] ← vfkall (GM1 , GM2 )
23 Qk [s, t] ← Qk [s, t] ∪
8 end for
vfkall (GM1 , GM2 )
9 Itération sur la taille de l’horizon :
10 for t=1. . . T do 24 end for
11 for all s ∈ S, k ∈ {1,2} do 25 end for
12 for all stratégie pure i, j do 26 end for
13 for all s0 ∈ S | P(s0 | s, i, j) 6= 27 return π l’ensemble des couples de poli-
0 do tiques
14 S 0 ← S 0 ∪ {s0 } 28 end function
15 end for
16 end for
DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 20 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexité

Recherche des équilibres non Pareto dominés dans


un jeu stochastique

Fonction de recherche de tous les équilibres de Nash non dominés


au sens de Pareto
La fonction f all utilisée est la version étendue de celle proposée par
Lemke et Howson (1964), qui permet de trouver un nombre fini
d’équilibres de Nash.
Les équilibres non Pareto dominés sont sélectionnés par la suite.

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 21 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexité

Recherche des équilibres non Pareto dominés dans


un jeu stochastique

Résultats sur le jeu de Hu et Wellman

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 21 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexité

Recherche des équilibres non Pareto dominés dans


un jeu stochastique

Résultats
dans le cas déterministe: on trouve les 10 équilibres
dans le cas stochastique avec
p = 0.8 et p = 0.9 on trouve les équilibres (1) et (1’)
p = 0.4 et p = 1/3 on ne trouve pas d’équilibres

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 21 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexité

Recherche des équilibres non Pareto dominés dans


un jeu stochastique

Points clé de la preuve


Une politique est un équilibre de Nash non dominé au sens de
Pareto d’un jeu stochastique à n joueurs à horizon fini si et
seulement si elle est à chaque pas de temps un équilibre de
Nash non dominé au sens de Pareto de la matrice des
récompenses espérées.
Pour une matrice de jeu à deux joueurs, le nombre de valeurs
distinctes des équilibres de Nash non dominés au sens de
Pareto est finie.
La fonction f all existe (Mangasarian (1964), Kuhn (1961) et
Vorob’ev (1958))

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 22 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexité

Recherche des équilibres non Pareto dominés dans


un jeu stochastique

Points clé de la preuve


Une politique est un équilibre de Nash non dominé au sens de
Pareto d’un jeu stochastique à n joueurs à horizon fini si et
seulement si elle est à chaque pas de temps un équilibre de
Nash non dominé au sens de Pareto de la matrice des
récompenses espérées.
Pour une matrice de jeu à deux joueurs, le nombre de valeurs
distinctes des équilibres de Nash non dominés au sens de
Pareto est finie.
La fonction f all existe (Mangasarian (1964), Kuhn (1961) et
Vorob’ev (1958))

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 22 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexité

Recherche des équilibres non Pareto dominés dans


un jeu stochastique

Points clé de la preuve


Une politique est un équilibre de Nash non dominé au sens de
Pareto d’un jeu stochastique à n joueurs à horizon fini si et
seulement si elle est à chaque pas de temps un équilibre de
Nash non dominé au sens de Pareto de la matrice des
récompenses espérées.
Pour une matrice de jeu à deux joueurs, le nombre de valeurs
distinctes des équilibres de Nash non dominés au sens de
Pareto est finie.
La fonction f all existe (Mangasarian (1964), Kuhn (1961) et
Vorob’ev (1958))

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 22 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexité

Recherche des équilibres non Pareto dominés dans


un jeu stochastique
Complexité
3750
taille 3
3500 taille 4
3250 taille 5
3000 taille 6
2750
temps computationnel

2500
2250
2000
1750
1500
1250
1000
750
500
250
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
horizon
DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 23 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res Preuve Complexité

Recherche des équilibres non Pareto dominés dans


un jeu stochastique

Complexité théorique au pire


FiniteVIAll
= O |S|φNMS∗T

Cpire max exp |A| avec φmax compris entre
r |A|
√ |A| 27
(1 + 2)
φ1max = 0.949 p − 1 et φ2max = 0.921 p4 −1
|A| |A|
FiniteVIAll
Cpire = O (|S||T | exp |A|) si φmax = 1

Complexité pratique dans ce cas


linéaire en |S|
linéaire en T

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 23 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Sommaire

1 Introdution

2 Bases théoriques

3 Recherche d’un équilibre de Nash dans un jeu stochastique

4 Recherche des équilibres non Pareto dominés dans un jeu


stochastique

5 Coordination
Motivation
Adaptation du problème
Algorithme de Singh et al. (2000)
Algorithme de Bowling et Veloso (2002)
Comparatif

DAMAS
6
www.damas.ift.ulaval.ca
Recherche décentralisée d’un équilibre de Nash non Pareto
Soutenance de PFE Mathieu Lefort 24 / 35
Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Coordination

But
Proposer une méthode de coordination pour permettre aux agents de
choisir de manière décentralisé un des équilibres trouvés.

Moyen
Adaptation d’algorithmes de montée de gradient existants au
problème.

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 25 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Coordination

Adaptation
Problème : coordination sur un des équilibres d’une liste
Montée de gradient : trouve un équilibre de Nash dans un jeu
Adaptation : création d’un jeu de coordination à partir des
équilibres
eq1k 0 . . .
 
0
 .. .. .. 
 0 . . . 
Mk =  .
 
 .. . .. . ..

0 
0 . . . 0 eqnk
avec k ∈ {1, 2} et (eqi1 , eqi2 )i∈[1...n] la liste des équilibres

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 26 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Coordination

Adaptation
Problème : coordination sur un des équilibres d’une liste
Montée de gradient : trouve un équilibre de Nash dans un jeu
Adaptation : création d’un jeu de coordination à partir des
équilibres
eq1k 0 . . .
 
0
 .. .. .. 
 0 . . . 
Mk =  .
 
 .. . .. . ..

0 
0 . . . 0 eqnk
avec k ∈ {1, 2} et (eqi1 , eqi2 )i∈[1...n] la liste des équilibres

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 26 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Coordination

Adaptation
Problème : coordination sur un des équilibres d’une liste
Montée de gradient : trouve un équilibre de Nash dans un jeu
Adaptation : création d’un jeu de coordination à partir des
équilibres
eq1k 0 . . .
 
0
 .. .. .. 
 0 . . . 
Mk =  .
 
 .. . .. . ..

0 
0 . . . 0 eqnk
avec k ∈ {1, 2} et (eqi1 , eqi2 )i∈[1...n] la liste des équilibres

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 26 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Singh et al. (2000)

Problème
L’algorithme assure la convergence vers un équilibre de Nash ou vers
une valeur d’équilibre de Nash d’un jeu à 2 joueurs et 2 actions.
Il faut l’adapter au cas à n actions.

Adaptation
On considère les actions par couple pour se ramener au cas à 2
actions.

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 27 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Singh et al. (2000)

Calcul du gradient
gradient 2 à 2

∂Vij1 (α, β)
= βi eqi1 − βj eqj1
∂αi
∂Vij1 (α, β)
= −
∂αj

gradient d’une action i

∂Vi1 (α, β) X ∂Vij1 (α, β)


=
∂αi ∂αi
j6=i
X
= (n − 1)βi eqi1 − βj eqj1
j6=i

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 27 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Singh et al. (2000)

Algorithme
1 function M ONTÉE G RADIENT N1(M1 ) re- 1 function M ONTÉE G RADIENT N2(M2 ) re-
turn une stratégie pour l’agent 1 turn une stratégie pour l’agent 2
2 on initialise α aléatoirement 2 on initialise β aléatoirement
3 while α n’a pas convergé do 3 while β n’a pas convergé do
4 communiquer α à l’agent 2 4 communiquer β à l’agent 1
5 for all i ∈ [1 . . . n] do 5 for all i ∈ [1 . . . n] do
∂V 1 (α,β) ∂V 2 (α,β)
6 calcul de i 6 calcul de i
∂αi ∂βi
∂V 1 (α,β) ∂V 2 (α,β)
7 αi ← αi + η i∂α 7 βi ← βi + η i∂β
i i
8 end for 8 end for
9 end while 9 end while
10 return la stratégie α 10 return la stratégie β
11 end function 11 end function

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 27 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Singh et al. (2000)

Tests

325
300
275 Paramètres :
nombre d’étapes pour converger

250
225 moyenne sur 100000 tests
200
175
aléatoires
150
125
pas de déplacement
1
100 η = nbetape 2/3
75
50
25
critère d’arrêt de 10−9
0
2 10 20 30 40 50 60 70 80 90 100
taille de la matrice

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 27 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Singh et al. (2000)

Complexité
le nombre d’étapes nécessaire à la convergence est linéaire

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 27 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Singh et al. (2000)

Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le calcul des gradients et leur projection est en O(n2 )

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 27 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Singh et al. (2000)

Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le calcul des gradients et leur projection est en O(n2 )
la mise à jour de α et de β est en temps constant

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 27 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Singh et al. (2000)

Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le calcul des gradients et leur projection est en O(n2 )
la mise à jour de α et de β est en temps constant
au final l’algorithme à une complexité en O(n3 )

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 27 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Bowling et Veloso (2002)

Algorithme
1 function PHC1(M1 ) return une stratégie 1 function PHC2(M2 ) return une stratégie
pour l’agent 1 pour l’agent 2
2 for all i ∈ [1 . . . n] do 2 for all j ∈ [1 . . . n] do
3 Qi ← 0 3 Qj ← 0
4 αi ← n1 4 βj ← n1
5 end for 5 end for
6 while α n’a pas convergé do 6 while β n’a pas convergé do
7 choisir une action î à effectuer suivant 7 choisir une action ĵ à effectuer suivant
la politique α et le facteur d’exploration e la politique β et le facteur d’exploration e
8 communiquer î à l’agent 2 8 communiquer ĵ à l’agent 1
9 Qî ← (1 − γ)Qî + γM1 (î, ĵ) 9 Qĵ ← (1 − γ)Qĵ + γM2 (î, ĵ)
10 for all i ∈ [1 . . . n] do 10 for all j ∈ [1 . . . n] do
11 α(i ← αi + Di avec 11 βj ← βj + Dj avec
−d
P i si i 6= argmaxi 0 Qi 0 −d
P j si j 6= argmaxj 0 Qj 0
(
Di = di 0 sinon et
0 Dj = dj 0 sinon et
„ i 6=« i
0
δ „ j 6=« j
di = min αi , δ
n dj = min βj ,
12 end for n
13 end while 12 end for
14 return la stratégie α 13 end while
15 end function 14 return la stratégie β
15 end function
DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 28 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Bowling et Veloso (2002)

Tests
Paramètres :
moyenne sur 100000 tests
130 aléatoires
120
110 taux d’exploration
nombre d’étapes pour converger

100
1
90 e=
80 nbetape1/2
70
60 facteur d’escompte
50
1
40 γ=
30 nbetape1/4
20
10 pas de déplacement
0
2 10 20 30 40 50 60 70 80 90 100 1
δ=
taille de la matrice nbetape1/4
critère d’arrêt 10−9

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 28 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Bowling et Veloso (2002)

Complexité
le nombre d’étapes nécessaire à la convergence est linéaire

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 28 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Bowling et Veloso (2002)

Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le choix de l’action est linéaire

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 28 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Bowling et Veloso (2002)

Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le choix de l’action est linéaire
la communication et la mise à jour de la Q-valeur sont en temps
constant

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 28 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Bowling et Veloso (2002)

Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le choix de l’action est linéaire
la communication et la mise à jour de la Q-valeur sont en temps
constant
la mise à jour de la politique est linéaire

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 28 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Algorithme de Bowling et Veloso (2002)

Complexité
le nombre d’étapes nécessaire à la convergence est linéaire
le choix de l’action est linéaire
la communication et la mise à jour de la Q-valeur sont en temps
constant
la mise à jour de la politique est linéaire
au final la complexité de l’algorithme est en O(n2 )

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 28 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Adapt. IGA PHC Comp.

Coordination

Comparatif
PHC nécessite moins de communication
PHC a une complexité plus faible
M ONTÉE G RADIENT tient plus compte de la valeur des équilibres
dans sa convergence

Prolongement
Tester GIGA, version plus générale de M ONTÉE G RADIENT au cas à
n actions.

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 29 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res

Sommaire

1 Introdution

2 Bases théoriques

3 Recherche d’un équilibre de Nash dans un jeu stochastique

4 Recherche des équilibres non Pareto dominés dans un jeu


stochastique

5 Coordination

6 Recherche décentralisée d’un équilibre de Nash non Pareto


dominé dans un jeu stochastique
Motivation
Algorithme
Tests
DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 30 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res

Recherche décentralisée d’un équilibre de Nash non


Pareto dominé dans un jeu stochastique

But
Proposer un algorithme de planification décentralisé d’un équilibre de
Nash non dominé au sens de Pareto dans un jeu stochastique à
horizon fini.

Moyen
Faire coordonner les agents à chaque étape pour chaque état sur un
équilibre au moyen de la communication.

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 31 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res

Recherche décentralisée d’un équilibre de Nash non


Pareto dominé dans un jeu stochastique
Algorithme
1 function F INITE VIC OMM K(T ) return un équilibre de Nash non dominé au sens de Pareto du
jeu stochastique à l’horizon T
2 Initialisation:
3 GM1 ← M1 [s]
4 GM2 ← M2 [s]
5 for all s ∈ S do
6 πkall (s, 0) ← fkall (GM1 , GM2 )
7 πK (s, 0) ← Coordination(πKall (s, 0))
8 end for
9 Itération sur la taille de l’horizon :
10 for t=1. . . T do
11 for all s ∈ S, k ∈ {1,2} do
12 for all stratégie pure i, j do
P(s0 | s, i, j)v K (π1 (s, t − 1), π2 (s, t − 1))
P
13 GMk (i, j) ← Mk [s](i, j) +
s0
end for 14
15 πkall (s, t) ← fkall (GM1 , GM2 )
16 πK (s, t) ← Coordination(πKall (s, t))
17 end for
18 end for
19 return πK la politique de l’agent K
DAMAS
20 end function
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 32 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan But Algo Res

Recherche décentralisée d’un équilibre de Nash non


Pareto dominé dans un jeu stochastique

Coordination avec M ONTÉE G RADIENT


(1') (1) (2') (3') (4') (5') (2) (3) (4) (5)

Pas de temps 4 H,G D,H H,G H,G H,G H,H D,H D,H D,H H,H
8,14 23,08 10,41 11,82 2,83 8,2 11,2 12,56 2,96 8,8
Pas de temps 3 D,G D,G D,G H,G H,H H,G D,G D,G H,H D,H
8,14 23,08 10,41 11,82 2,83 8,2 11,2 12,56 2,96 8,8
Pas de temps 2 D,H H,G H,H D,H D,G H,H H,G D,G
8,14 23,08 10,41 11,82 11,03 11,2 12,56 11,76
Pas de temps 1 H,H D,H H,G
31,22 33,27 35,51

Coordination avec PHC


(1') (1) (2') (3') (4') (5') (2) (3) (4) (5)

Pas de temps 4 H,G D,H H,G H,G H,G H,H D,H D,H D,H H,H
16,67 16,67 11,13 11,16 5,62 5,56 11,01 11,06 5,6 5,52
Pas de temps 3 D,G D,G D,G H,G H,H H,G D,G D,H H,H D,H
16,67 16,67 11,13 11,16 5,62 5,56 11,01 11,06 5,6 5,52
Pas de temps 2 D,H H,G H,H D,H D,G H,H H,G D,G
16,67 16,67 11,13 11,16 11,18 11,01 11,06 11,12
Pas de temps 1 H,H D,H H,G
33,34 33,47 33,19

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 33 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Prol.

Sommaire

1 Introdution

2 Bases théoriques

3 Recherche d’un équilibre de Nash dans un jeu stochastique

4 Recherche des équilibres non Pareto dominés dans un jeu


stochastique

5 Coordination

6 Recherche décentralisée d’un équilibre de Nash non Pareto


dominé dans un jeu stochastique

7 Bilan
DAMAS Prolongements possibles
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 34 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Prol.

Bilan

Prolongements possibles
voir si les présents résultats et algorithmes sont applicables au
cas à n joueurs
faire la phase de communication en ligne
modifier le contexte de jeux stochastiques pour pouvoir
décentraliser la recherche de tous les équilibres

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 35 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Prol.

Bilan

Prolongements possibles
voir si les présents résultats et algorithmes sont applicables au
cas à n joueurs
faire la phase de communication en ligne
modifier le contexte de jeux stochastiques pour pouvoir
décentraliser la recherche de tous les équilibres

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 35 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Prol.

Bilan

Prolongements possibles
voir si les présents résultats et algorithmes sont applicables au
cas à n joueurs
faire la phase de communication en ligne
modifier le contexte de jeux stochastiques pour pouvoir
décentraliser la recherche de tous les équilibres

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 35 / 35


Intro Bases FiniteVI FiniteVIAll Coord. FiniteVIComm Bilan Prol.

Bilan

Bilan
algorithme pouvant théoriquement et pratiquement chercher tous
les équilibres de Nash non dominés au sens de Pareto d’un jeu
stochastique à horizon fini
algorithme décentralisé de planification d’un équilibre de Nash
non dominé au sens de Pareto d’un jeu stochastique à horizon
fini

DAMAS
www.damas.ift.ulaval.ca

Soutenance de PFE Mathieu Lefort 35 / 35

Vous aimerez peut-être aussi