Académique Documents
Professionnel Documents
Culture Documents
1
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 1/83
/83
Cadre théorique
Programmation dynamique
Conclusion
2
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 2/83
/83
Introduction
Apprentissage automatique
Branche de l’informatique et des mathématiques qui porte sur la construction de modèles
paramétriques à partir de données. Modèles: déterministe ou aléatoire:
y = fθ (x ), Pθ (y | x )
Type d’apprentissage:
Supervisé: on connaı̂t un certain nombre de couple entrée/sortie
((x , y )1 , ..., (x , y )n ) et on les utilise pour ajuster le modèle.
Non supervisé: On ne connaı̂t pas d’exemples des sorties y . L’apprentissage est
fait à partir de l’analyse des données (x1 , .., xn ).
Par renforcement: Apprentissage par un agent autonome à travers un processus:
essai-erreur + récompense.
Applications
Robotique, véhicules autonomes, optimisatio de production, de traitement médical,
IA pour les jeux: échec, Go et récemment Starcraft.
EDP/physique ? Nouveau modèle de turbulence: paper (Nature machine intelligence).
3
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 3/83
/83
Cadre théorique
4
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 4/83
/83
Principe
Plan
Partie I: problèmes de petites tailles, espace des états/actions finis et pas trop grand.
Partie II: problèmes de grandes tailles, espace des états/actions finis et grand où
infinis.
5
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 5/83
/83
Cadre théorique: processus de décision Markovien I
Processus de décision
Un Processus de décision est définit par le quadruplet (S, A, P(.), r (.)):
S est l’espace d’états dans lequel évolue le processus ;
A est l’espace des actions qui contrôlent la dynamique de l’état ;
P(. | ., .) : S × A × S → [0, 1] sont les probabilités de transition entre les états;
r (., .) : S × A → R est la fonction de récompense sur les transitions entre les états.
Enjeu central (en robotique): Trouver des méthodes qui ne connaissance pas le
modèle mais interargissent avec.
En pratique P est donc une loi de probabilité des états s 0 atteignable en partant de s
avec l’action a.
6
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 6/83
/83
Cadre théorique: processus de décision Markovien II
7
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 7/83
/83
Processus de décision Markovien: exemples
Maintenance de stock: Le responsable d’un entrepôt dispose d’un stock st de
marchandise. Il doit satisfaire la demande Dt des clients (Processus de Poisson).
Action: quantité at supplémentaire commandée à son fournisseur. L’entrepôt a une
capacité limite M donc A = {0, 1, ...M − st }.
La dynamique est donnée par
st+1 = [st + at − Dt ]+
avec coût de stock h(s), un coût de commande C (a) et une fonction de revenu f (q)
qui dépend du stock vendu. Critère:
"T −1 #
X
E rt + g(sT )
i=1
8
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 8/83
/83
Processus de décision Markovien: exemples II
Optimisation de traitement du cancer Traitement multi-modalités (chirurgie,
radiothérapie ou chimiothérapie). L’articulation de ces modalités très dépendante du
praticien.
But: automatiser la construction de ces traitements? Ici, il est considéré trois types de
traitements:
Modalité 1 (M1): fort risque d’effets secondaires sur les tissus sains, efficacité
importante (fréquence d’utilisation limitée)
Modalité 2 (M2): faible risque d’effets sécondaires sur les tissus sains, efficacité
modéré,
Modalité 3 (M3) :pas de traitement, baisse de la probabilité d’effets secondaires,
progression de la tumeur plus importante.
Etat: st = (ht , φt , τt ) avec:
ht ∈ {0, 1} qui définit l’utilisation de la modalité de TYPE 1 (ht = 1 la modalité a
déjà été utilisée).
φt = {0, .., m} représente l’effet sur les tissus sains (0 pas d’effet, m beaucoup
d’effet),
τt = {0, .., n} représente la progression de la tumeur (0 rémission, n décès du
patient).
L’espace des action est donné par at ∈ {M1 , M2 , M3 }.
µt (st ) : S → A
qui connaissant un état renvoie une action. On nomme une régle de décision stochastique
Markovienne une loi de probabilité:
πt (at | st ) : A × S → [0, 1]
P
tel que a∈A
π t (a | s t ) = 1 qui connaissant un état renvoie les probabilités des actions.
µt (ht ) : S × A × ... × S × A → A
qui connaissant l’historique ht des états/actions renvoie une action. On nomme une régle
de décision stochastique Histoire-dépendante une loi de probabilité:
π = (π0 , π1 , ...πt )
0 0
X
Pπ (st+1 = s | st = s) = π(a | s)P(s | a, s)
a∈A
La fonction valeur
La fonction valeur associée à une politique π est une fonction S → R qui estime le cumul
espéré suivant la politique π:
V π (s) = E[Gt | st = s; π]
La Q fonction
La Q fonction associée à une politique π est une fonction S × A → R qui estime le cumul
espéré avec a comme première action puis suivant la politique π:
Q π (s, a) = E[Gt | st = s, at = a; π]
P
Lien entre V et Q: V (s) = a
Q(s, a)π(a | s) (cas déterministe Q(s, µ(s)) = V (s)).
Les fonctions V et Q permettent d’évaluer les politiques. Elles permettent donc de
construire la notion de politique optimale.
13
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 13/83
/83
Politique optimale I
Soit ΠAH /ΠAM l’espace des politiques aléatoires histoire-dépendante/Markovienne.
Soit D AM /D M l’espace des politiques aléatoires/déterministes stationnaires
Markoviennes.
Afin de définir une politique optimale. On définit une relation d’ordre: soit
0
π, π ∈ ΠAM on dit que
0 0
π <π si ∀s ∈ S, V π (s) < V π (s)
Politique optimale
Une politique π ∗ est optimale si la fonction valeur associée est optimale au sens
∗
V π (s) = V ∗ (s) = maxπ∈ΠAH V π (s) ∀s ∈ S
Remarques:
On peut définir la Q fonction optimale aussi:
Cela revient à déterminer la meilleure trajectoire (la meilleure action =1ère action).
Comment la déterminer? on peut voir le problème comme un arbre (stochastique ou
déterministe) avec comme poids les récompenses.
Meilleure action: recherche du chemin à poids maximum (algorithme de Dijkstra,
algorithme par recherche avant avec horizon).
Problème: l’arbre peut rapidement devenir très très large. Coût: O((Smax | A |)T )
avec Smax le nombre max de successeur et T le nombre de temps.
16
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 16/83
/83
Programmation dynamique
17
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 17/83
/83
Caractérisation des fonctions valeur
Définition
On se place dans le cadre horizon infini amorti. On définit l’opérateur Lπ sur les fonctions
valeurs V ∈ R|S| définies par
Lπ V = rπ + γPπ V
avec
0 0
X X
Pπ (st+1 = s | st = s) = π(a | s)P(s | a, s), r π (s) = π(a | s)r (s, a)
a∈A a∈A
dans le cas stochastique et
0 0
Pπ (st+1 = s | st = s) = P(s | µ(s), s), rπ = (s, µ(s))
dans le cas déterministe.
Théorème: Caractérisation
Soient γ < 1 et π ∈ D AM une politique stationnaire aléatoire Markovienne. Alors la
fonction valeur V π est l’unique solution de l’équation V π = Lπ V π , ce qui équivaut à
0 0
X
V π (s) = E[rt + γV π (st+1 ) | st = s] = r π (s) + γ Pπ (s | s)V π (s )
0
s ∈S
0 0
X
Q π (s, a) = E[rt + γQ π (st+1 , at+1 ) | st = s, at = a] = r (s, a) + γ P(s | s, a)V π (s )
0
s ∈S
18
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 18/83
/83
Preuve de la caractérisation
Cas stochastique. On considère la fonction valeur au temps initial:
" ∞
#
X
V π (s) = Eπ γ k rt+1 | s0 = s = Eπ [r1 + γr2 + γ2 r3 + ... | s0 = s]
t=0
V ∗ (s) = LV ∗ (s), ∀s ∈ S
avec l’opérateur
!
0 0
X
LV (s) = maxa r (s, a) + γ P(s |s, a)V (s )
0
s
Notation vectorielle:
maxµ∈D M (rµ + γPµ V ), ∀V
On a aussi
Q ∗ (s, a) = LQ Q ∗ (s, a), ∀s ∈ S, ∀a ∈ A
avec l’opérateur
!
0 0 0
X
LQ Q(s, a) = r (s, a) + γ P(s |s, a) maxa0 Q(s , a )
0
s
20
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 20/83
/83
Preuve Bellman I
Equivalence déterministe/aléatoire
∀V on a
LV = maxµ∈D M (rµ + γPµ V ) = maxπ∈D MA (rπ + γPπ V )
Début preuve
Premier sens immédiat: D M ⊂ D AM
Autre sens: Soit π ∈ D AM . On considère
!
0 0
X X
Lπ V (s) = π(s, a) r (s, a) + γ P(s |s, a)V (s ) , ∀s ∈ S
a 0
s
!
0 0 0 0
X X
Lπ V (s) ≤ π(s, a) maxa0 r (s, a ) + γ P(s |s, a )V (s ) = LV (s), ∀s ∈ S
a 0
s
donc
Lπ V = (rπ + γPπ V ) ≤ LV = maxµ∈D M (rµ + γPµ V )
ce qui donne
maxπ∈D MA (rπ + γPπ V ) ≤ maxµ∈D M (rµ + γPµ V )
fin preuve.
On peut donc considérer l’ensemble des politiques déterministes.
21
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 21/83
/83
Preuve Bellman II
Caractérisation:
Si µ∗ existe par définition de la politique optimale déterministe, on a:
∗
V = maxµ∈Π V µ = maxµ (rµ + γPµ V µ ) .
0
Toutes politiques s’écrit µ = (µ0 , µ1 , ...µn , ...) = (µ0 , µ ). Dans ce cas on obtient :
∗
V = maxµ V µ = max(µ 0 V µ = max(a,µ0 ) V µ
0 ,µ )
On a donc
0
0 0
max(a,µ0 ) V µ = max(a,µ0 ) r (s, a) + γP(s | s, a)V µ (s )
0
0 0
max(a,µ0 ) V µ = maxa r (s, a) + γP(s | s, a) maxµ0 V µ (s )
0 0
max(a,µ0 ) V µ = maxa r (s, a) + γP(s | s, a)V ∗ (s )
22
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 22/83
/83
Preuve Bellman III
Justification de la dernière égalité:
1ère inégalité
0 0
0 0 0 0
X X
maxµ0 P(s | s, a)Vγµ (s ) ≤ P(s | s, a) maxµ0 V µ (s )
0 0
s s
0
Soit µ̄ = argmaxµ0 V µ donc
X 0 0
X 0 0 0
(∗) = P(s | s, a)Vγµ̄ (s ) ≤ maxµ0 P(s | s, a)V µ (s )
0 0
s s
! !
0 0 0 0
X X
A ≤ maxa r (s, a) + γ P(s |s, a)V (s ) − r (s, a) + γ P(s |s, a)U(s )
0 0
s s
X
0 0 0
| LV (s) − LU(s) |≤ γ maxa P(s |s, a) V (s ) − U(s )
0
s
Puisque la fonction valeur ne dépend pas de l’action on a:
0 0 0
X
| V (s) − U(s) |≤ γ maxa P(s |s, a) | V (s ) − U(s ) |≤ γ k V − U k∞
0
s
Début Preuve.
1) (1) vers optimalité:
L’équation (1) équivaut à LV ∗ = Lπ V ∗ car L correspond à Lπ quand
π = argmaxπ V ∗ .
On suppose que π satisfait (1) donc
V ∗ = LV ∗ = Lπ V ∗ = V ∗
Amélioration de la politique
2γ
k V ∗ − V µn k∞ ≤ k V ∗ − Vn k∞
1−γ
log−1
Convergence asymptotique: O logγ −1
itérations pour avoir une erreur ≈ .
26
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 26/83
/83
Algorithme basé sur les valeurs II
Preuve:
n
On part donc de k V ∗ − V µ k∞ et on développe:
n n
k V ∗ − V µ k∞ =k V ∗ − Lµn Vn + Lµn Vn − V µ k∞
n
≤k V ∗ − Lµn Vn k + k Lµn Vn − V µ k∞
n
≤k LV ∗ − Lµn Vn k + k Lµn Vn − Lµn V µ k∞
on a donc n
(1 − γ) k V ∗ − V µ k∞ ≤ 2γ k Vn − V ∗ k∞
27
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 27/83
/83
Algorithme basé sur la politique
Algorithme précédent: politique calculée à la fin.
Idée: processus d’évaluation/amélioration:
e a e a a e
π0 −
→ V0 −
→ π1 −
→ v1 −
→ π2 .... −
→ π∗ −
→ v∗
Algorithme:
Initialiser V0 la fonction valeur initiale,
n=0
Tant que | µn+1 − µn |> ε:
On résoud
!
0 0
X
Vn = r (s, µn (s)) + γ P(s |s, µn (s))Vn (s ) , ∀s ∈ S
0
s
P 0 0
Pour tout s ∈ S: µn+1 (s) = argmaxa r (s, a) + γ s
0 P(s |s, a)Vn (s )
28
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 28/83
/83
Méthodes avec/sans modèles
Avec ou sans modèle ?
Un algorithme est dit avec modèle s’ il utilise les lois de probabilité P(. | ., .) et r (., .).
Il est dit sans modèle si il utilise des transitions (st , at , rt , st+1 ) sans connaı̂tre les lois
de probabilités.
29
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 29/83
/83
Méthodes Stochastiques I: Monte-Carlo
30
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 30/83
/83
Rappel sur Monte-carlo
Estimateur
Soit (Xn )n≥0 une suite de variable aléatoire idd de loi Pθ . Un estimateur de θ est une
variable aléatoire θ̂n telle qu’il existe une fonction Fn : E n → Θ, θ̂n = Fn (X1 , ..., Xn ). Il est
p.s.
dit, consistant si θ̂n −−→ θ par rapport à Pθ quand n → +∞
Théorème
Sous hypothèses, l’algorithme converge:
1
vers E[g(X )]. αn = n+1
donne exactement Monte-Carlo.
31
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 31/83
/83
Échantillonnage préférentiel
L’erreur commise à Monte-Carlo dépend de la variance de X .
Modification de la variance: Échantillonnage préférentiel.
Cas discret:
m m
g(xi )p(xi ) g(Y )p(Y )
X X h i
E[g(X )] = g(xi )p(xi ) = p̃(xi ) = E
p̃(xi ) p̃(Y )
i=1 i=1
g(Y )p(Y )
h i
V ≤ V[g(X )]
p̃(Y )
32
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 32/83
/83
Application aux MDP: 1er algorithme I
On rappelle les fonctions valeurs [Rlin2020]:
e a e a a e
π0 −
→ V0 −
→ π1 −
→ v1 −
→ π2 .... −
→ π∗ −
→ v∗
Calcul de Q (évaluation):
" T
# n T n T
X 1 X X 1 X X
Q(s, a) = E rπ (sk ) | s0 = s, a0 = a ≈ r (sk , ak ) ≈ r (sk , ak )
n Ns
k i=1 k i=1 k
Version ”1ère visite de l’algorithme”: on ne compte un état qu’une fois par transition.
Avantage MC vs DP: Méthodes MC utilisent des estimations indépendantes les unes
des autres. DP: utilise les fonctions valeurs associées aux autres états. MC plus
adaptées au sous ensemble d’état.
34
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 34/83
/83
Application aus MDP: MC soft
Défaut: Convergence globale = explorer toutes les paires (s, a). Exploration aléatoire
avec la 1er action, pas suffisant. Ex : environnement comme les jeux.
|A(s )|
si a 6= argmaxa Qk (st , a)
t
X X X
Vπk+1 (s) ≥ Qπl (s, a) − Qπk (s, a) + πk (a | s)Qπk (s, a)
| A(s) | | A(s) |
a a a
Avantages: plus souple pour l’exploration. On peut brasser les trajectoires (on y
reviendra). Etc
Construction de la méthode Monte-Carlo ”off-policy”:
Condition de couverture: pour évaluer π avec les trajectoires générées par b il faut:
37
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 37/83
/83
Méthode ”Off-policy”, échantillonnage préférentiel II
On remarque rapidement que
−1
P(at , st+1 , at+1 , ..., sT | st , π) = ΠT
k=t
π(ak | sk )P(sk+1 | sk , ak )
ce qui donne
−1
ΠT π(ak | sk )P(sk+1 | sk , ak ) −1 π(ak | sk )
ρt:T −1 = k=t
−1
= ΠT
k=t
ΠT
k=t
b(ak | sk )P(sk+1 | sk , ak ) b(ak | sk )
38
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 38/83
/83
Méthodes Stochastiques II: Différences temporelles
39
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 39/83
/83
Principe des différences temporelles et TD(0)
Résumé
On doit calculer V (s) = E[Gt | s0 = s, a0 = a] ∀s ∈ S. Solutions:
Recherche exhaustive: calcul total de l’espérance.
0
Programmation dynamique: relation de récurrence entre V (s) et V (s) et calcul total
de l’espérance.
Monte-Carlo: estimation empirique de l’espérance.
Différence temporelle
Combiner DP et MC: relation de récurrence et estimation empirique de l’espérance.
π π
Qn+1 (st , at ) = Qn+1 (st , at ) + αn (r (st , at ) + γQnπ (st+1 , at+1 ) − Qnπ (st , at ))
Algorithme (SARSA):
Initialisation de Q(., .) arbitraire avec Q(sterminal , .) = 0
pour tout épisode k ≤ n:
initialiser s0 de façon aléatoire
choisir a0 selon la politique π (dépendante de Q) à partir de s0
pour tout t ∈ {0, ..., T }
calculer st+1 et rt+1 en utilisant l’environnement et (st , at )
choisir at+1 selon la politique π à partir de st+1
Q(st , at ) = Q(st , at ) + α(rt+1 + γQ(st+1 , at+1 ) − Q(st , at ))
on met à jour la politique π (si dépend de Q)
st = st+1 , at = at+1
41
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 41/83
/83
Algorithme Q Learning
SARSA est un algorithme ”on-policy”.
Version ”off-policy” appélée Q-learning (algo star). Preuve de convergence.
On applique MC (incrémentale) sur la caractérisation du Q optimal:
0
Q(s, a) = E[r (st , at ) + γ maxa0 Q(st+1 , a ) | st = s, at = a; b]
On génère les trajectoires du MC avec une politique d’exploration stochastique b(. | .).
Algorithme (Q-learning):
Initialisation de Q(., .) arbitraire avec Q(sterminal , .) = 0
pour tout épisode k ≤ n:
initialiser s0 de façon aléatoire;
pour tout t ∈ {0, ..., T } :
calculer st+1 et rt+1 en utilisant l’environnement et (st , at ):
0
Q(st , at ) = Q(st , at ) + α(rt+1 + γmax 0 Q(st+1 , a ) − Q(st , at )):
a
on met à jour la politique b(. | .) (si dépend de Q):
st = st+1 .
42
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 42/83
/83
Exploration vs exploitation I
Dilemme
Les algorithmes précédents cherchent un optimum global. Pour pouvoir converger vers cet
optimum il faut passer par l’ensemble des transitions possibles. Conséquences:
Exploration Gloutonne
On utilise b(a | s) = argmaxa0 Q(s, a). On risque de rater l’optimum global.
Exploration stochastique
Politique aléatoire: loi uniforme sur les actions possibles. Convergence très lente.
43
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 43/83
/83
Exploration vs exploitation II
Exploration Stochastique
-gloutonne: politique gloutonne avec une probabilité et aléatoire avec une
probabilité 1 − . Très utilisée surtout avec ε0 = 1 et εt décroissante.
Politique de Boltzmann (soft):
1
exp β
Q(s, a)
b(a | s) = .
1
Q(s, a0 )
P
0 exp
a β
! !
X1 0
Q(st , at ) = Q(st , at ) + α rt+1 + γβ ln exp(Q(st+1 , a )) − Q(st , at )
β
0
a
avec
1
exp β
Q(s, a)
π(a | s) =
1
Q(s, a0 )
P
0 exp
a β
Double Q learning
0 0
Soit Q(st+1 , a ) = Q ∗ (st+1 , a ) + ea0 avec e > 0. Si Q estimateur sans biais de
0 0 0 0
Q ∗ et maxa Q(s, a ) estimateur biaisé de maxa Q ∗ (s, a ).
Conséquence: on surestime Q dans les zones très stochastiques même si Q petit.
DQL: 2 Q-fonctions, politique moyenne. Incrément du DQL:
0
Q1,2 (st , at ) = Q1,2 (st , at )+α(rt+1 +γQ1,2 (st+1 , argmaxa0 Q2,1 (st+1 , a ))−Q1,2 (st , at )
45
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 45/83
/83
Méthodes TD(n)
TD(0)/MC: utilise une/toutes les transitions de l’épisode pour construire Q. On peut
construire des méthodes intermédiaires.
Monte Carlo calcule l’espérance empirique associée à:
Q π (s, a) = E[Gt , st = s, at = a, π]
et SARSA calcule l’espérance empirique de
−1 µ(a |s )
avec ρt:h = ΠT k k
k=t π(a |s )
.
k k
”On/Off policy” pour incrément de SARSA-TD(n): on calcule l’espérance empirique
de
Q(s, a) = E[rt+1 + ... + γ n−1 rt+n + γ n Q(st+n , at+n ) | st = s, at = a, π]
vs
48
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 48/83
/83
Modèles paramétriques et gradient stochastique
Modèles paramétriques
Problèmes ou S est grand/indénombrable. On ne peut plus construire V (s) un
vecteur.
Idée: construire les fonctions V (s)/Q(s, a). On prendra des représentations
paramétriques: m X
Qθ (s, a) = θi wi (s, a)
i=1
avec wi (., .) des fonctions de bases (affines, polynomiales, ondelettes etc).
On peut utiliser des petits ANN (plus compliqués pour les réseaux profonds).
Comment ajuster ces modèles sachant que les (s, a)i sont générés aléatoirement.
Gradient stochastique (GS):
On pose la fonctionnelle:
J(θ) = E[j(θ, W )]
avec W une variable aléatoire.
On écrit le gradient:
∇θ J(θ) = E[∇θ j(θ, W )]
Une descente de gradient s’écrit :
V n+1 = LV n
On le remplace par (IVA)
V n+1 = Πp LV n
avec Πp le projecteur sur un espace F de fonction représentable.
Exemple: ( )
d
X
F= Vθ = θi φi (s), θ ∈ Rd
i=1
La projection se fait sur un ensemble d’état (s1 , ...sn ) tirés aléatoirement à chaque
itération. La projection s’écrit donc
n d
X X
Πp LV n = argminθ∈Rd k θi φi (sk ) − LV (sk ) kpp
k=1 i=1
Est ce que ça marche ? But : démontrer ?
n
limn→∞ k V ∗ − V π kp < C limn→∞ k Πp LVn − LVn kp
k V ∗ − Vn+1 k∞ ≤ γ k V ∗ − Vn k∞ +
k V ∗ − VN k∞ ≤ γ n k V ∗ − V0 k∞ +(1 + γ + ..γ N )
1 n 2γ
On utilise (1 + γ + ..γ N ) < 1−γ
et k V ∗ − V µ k∞ ≤ (1−γ)
k V ∗ − Vn k∞ (slide 22).
On a
N 2γ 2γ N+1
k V ∗ − V µ k∞ ≤ 2
+ k V ∗ − V0 k∞
(1 − γ) (1 − γ)2
On conclut en prenant la limite.
51
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 51/83
/83
Programmation dynamique avec approximation III
1
= O k f − Π∞ f k∞ + √
n
Itération sur la politique: on peut construire des méthodes IPA et obtenir le même
genre de résultat (plus technique).
En pratique
Le cas p = ∞ n’est pas utilisé en pratique.
On utilise p = 1 ou p = 2 pas p = ∞. Dans ce cas on perd le caractère contractant de
πp . Il existe des résultats (plus complexe) dans ce cadre. Voir [PDMIA08]
Avec des approches similaires on peut étendre les algorithmes de renforcement aux
fonctions paramétriques.
52
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 52/83
/83
MC/TD avec approximation I
argminθ Eπ [(Qπref − Qθ )2 ]
53
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 53/83
/83
MC/TD avec approximation II
L’algorithme (Q-learning) avec approximation:
Initialisation de Q(., .) arbitraire avec Q(sterminal , .) = 0
pour tout épisode k ≤ n:
initialiser s0 de façon aléatoire
pour tout t ∈ {0, ..., T }
calculer st+1 et rt+1 en utilisant l’environnement et (st , at )
choisir at+1 selon la politique b à partir de st+1
calcul de l’incrément
0
∆θ = (rt+1 + γmaxa0 Qθ (st+1 , a ) − Qθ (st , at ))∇θ Qθ (st , at )
θ = θ − α∆θ
on met à jour la politique b(. | .) (si dépend de Q)
st = st+1
Même principe pour MC/SARSA etc.
56
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 56/83
/83
Principe
Principe
Construire des méthodes principalement basées sur une politique paramétrique et non sur
les fonctions valeurs. On souhaite minimiser une fonction. Pas de optimum global.
57
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 57/83
/83
Théorème de Gradient de politique I
lemme
La fonctionnelle à maximiser peut se réécrire sous la forme:
Z !
X
πθ
J (θ) = ρ (s) πθ (a | s)r (s, a) ds
s a
preuve:
On commence par écrire la fonctionnelle avec le retour amorti:
∞ ∞ Z !
X X X
J (θ) = γ t E [r (st , at ) | πθ ] = γt d(s, t) π(a | s)r (s, a) ds
t=0 t=0 S a
avec d une distribution des états au temps t. La distribution peut être réécrite comme
Z
d(s, t) = p(s0 )P(s0 → s, t, πθ )ds0
S
P la probabilité d’atteindre s à partir de s0 en suivant la politique πθ au temps t. 58
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 58/83
/83
Théorème de Gradient de politique II
On utilise que:
∞ Z Z X !!
X
t
J (θ) = γ p(s0 )P(s0 → s, t, πθ )ds0 π(a | s)r (s, a) ds
t=0 S S a
Z ∞
Z X ! !!
X
J (θ) = γ t p(s0 )P(s0 → s, t, πθ )ds0 π(a | s)r (s, a) ds
S S t=0 a
On définit la distribution des états amortis: ρπ (s) pour conclure la preuve.
fin preuve.
Eπθ l’espérance ou: les états sont distribués selon ρπθ les actions générées par πθ (. | .).
59
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 59/83
/83
Théorème de Gradient de politique III
preuve:
On considère la fonctionnelle (on note p0 (s0 ) = p0 et Qπθ = Q:
Z Z !
X
J (θ) = p0 Vπθ (s0 )ds0 = p0 πθ (a0 | s0 )Qπθ (s0 , a0 ) ds0
S S a
puisque une récompense sur une étape en temps ne dépend pas de la politique. 60
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 60/83
/83
Théorème de Gradient de politique IV
C’est pareil pour les probabilités donc on a:
Z X Z !
A2 = p0 (s0 ) πθ (a0 | s0 )∇θ γ P(s1 | s0 , a0 )∇θ V (s1 )ds1 ds0
S a S
Preuve:
On considère le résultat du théorème de gradient de politique:
" # " #
X X ∇θ πθ (a | s)
∇J (θ) = Eπθ Q(s, a)∇θ πθ (a | s) = Eπθ πθ (a | s)Q πθ (s, a)
πθ (a | s)
a a
Puisque la trajectoire est générée par la politique, l’action a est donnée par la politique
0 0 0 0
πθ . Par définition π(a | s) = 1 avec a = a et π(a | s) = 0 avec a 6= a. On a donc
∇θ πθ (a | s)
h i
∇J (θ) = Eπθ Q πθ (s, a)
πθ (a | s)
En utilisant la dérivée du logarithme on obtient le résultat.
fin preuve
Rappel: Q(s, a) = E[Gt | st = s, at = a]. Estimateur sans biais:
m
1 X
Q(s, a) ≈ Gk
M
k=1
avec le retour Gk est calculer à partir de trajectoire commençant par le couple (s, a) 62
/
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès
83
62/83
Algorithme Reinforce II
On remplace pour obtenir:
" m
! #
1 X ∇θ πθ (a | s)
∇J (θ) = Eπθ Gk
M πθ (a | s)
k=1
Jθ = Jθ + Q ω (st , at )∇ ln πθ (at | st )
θ = θ + ηJθ
ω = ω + αJω
”Reinforce” et” Q acteur-critique” sont ”on policy”. Variante ”off policy” par
échantillonnage préférentielle:
π(a | s)
h i
∇Joff (θ) = Eπθ Q(s, a)∇θ ln πθ (a | s)
b(a | s)
Théorie un peu différente: ce gradient est une approximation. L’ensemble des
minimum locaux du vrai gradient inclus dans l’ensemble associé a ∇Joff (θ).
Utile: pour utiliser ”experience replay”. Utile pour les réseaux de neurones.
65
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 65/83
/83
Q-acteur critique III
Algorithme:
Fonction avantage sur une transition:
66
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 66/83
/83
Cas déterministe: théorème de gradient
Espace des actions
Pour le moment on a considéré un espace d’action A discret. Comment étendre au cas
continu ?
Il est difficile de construire une loi de probabilité continue π(a | s) avec des réseaux
profonds (possible).
Possibilités:
Politique Gaussienne: π(a | s) = G(µθ (s), Σθ (s)) une gaussienne avec µ et Σ des
modèles paramétriques qui servent de moyenne et écart-type.
Politique déterministe: µθ (s) modèle paramétrique type ANN. Dans ce cas Th.
gradient de politique ?
Fonctionnelle à minimiser:
Z Z
J (θ) = p0 (s)V µ (s) = p0 (s)Q µ (s, µ(s))
S S
On peut donc construire des algorithmes type Acteur-Critique. Le plus connu (code de
V. Vigon à Strasbourg) est le DDPG.
67
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 67/83
/83
CAs déterministe: DDPG
69
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 69/83
/83
Différences avec l’approche précédente
Renforcement
Jusqu’à présent on apprend à contrôler en interaction avec l’environnement. Implicitement
on un modèle et un contrôle.
Remarque
approches plus supervisé. On apprend le modèle avec les transitions. On peut apprendre
la politique avec des trajectoires optimales.
70
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 70/83
/83
Dyna Q
71
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 71/83
/83
MPC
Planification immédiate: calcul de la trajectoire (détaillé après)
Apprentissage naı̈f du modèle + planification:
Avec un politique aléatoire π(. | .) on génère une série de trajectoires et on stocke
0
D = (s, a, s )i et R = {ri },
Ajuster le modèle avec les données de D et R. Cas déterministe: minimiser
0
k si − f (si , ai ) k2
On applique une planification immédiate avec f (s, a) (ou p(s | s, a)) pour
déterminer une trajectoire optimale.
Défaut immédiat: Pour des gros problèmes, le modèle peut passer, lors du calcul de la
trajectoire optimale, par une zone mal apprise et générer un contrôle faux.
73
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 73/83
/83
Méthode de politique guidée: calcul de la politique
Type de politique:
πθ (at | st ) = G(µθ (st ), Σ) avec G une loi Gaussienne mD de moyenne µθ (st )
(ANN) et Σ une variance fixée.
πθ (at | st ) un réseau de neurones de type softmax.
Trajectoires issues de la politique globale/locale:
πθ (τ ), ∗
πloc (τ ) = (s0 , a0∗ , s1 ...., aT −1 , sT )
Problème: il peut arriver que la trajectoire de référence (politique locale) soit fausse
car elle s’éloigne de la région de validité du modèle.
Modèle étant généré par les transitions de πθ (at | st ) cela équivaut à: les trajectoires
locales ne doivent pas trop s’éloigner de celle générées par la politique globale.
Solution:
On cherche πloc (τ ) solution de
T
X
minπloc E[ fc (st , ar )], sous contrainte d(πloc (τ ), πθ (τ )) ≤
t=1
On optimise les poids de la politique globale en minimisant:
minθ d(πloc (τ ), πθ (τ ))
-
Cas particulier: Tθ est linéaire et Cθ = −Rθ le coût est quadratique (LQR). On a des
formules explicites (on résout dans le sens du temps et dans le sens inverse).
Cas non linéaire: On utilise la méthode ILQR: on applique LQR sur le linéarisé dans le
sens inverse du temps et la dynamique non linéaire dans le sens du temps et on itère.
76
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 76/83
/83
Modèles locaux ou globaux
Naturellement pour décrire les transitions on souhaite utiliser un modèle dit global. Il
s’agit de représenter l’ensemble des transitions par un modèle paramétrique:
Processus Gaussien/ Mélange Gaussien.
Réseaux de neurones (MDP, RNN, Réseaux à densité de mélange etc).
Modèles Locaux
L’idée est d’utiliser des modèles locaux:
Approche populaire
Modèles locaux linéaire/quadratique + planification immédiate par la méthode LQR ou
une variante stochastique:
77
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 77/83
/83
Apprentissage par imitation et distillation
On voit que les approches basées sur le modèle on utilise des solutions obtenues par
contrôle optimal du modèle appris pour construire la politique.
Peut t’on coupler cette approche avec du renforcement ? Oui, apprentissage par
imitation.
On a des données (ŝ1 , â1 ).....(ŝn , ân ) issue du contrôle optimal ou autre. Comment les
utiliser ?
Algo 1: P
Initialiser πθ tel on résolve max θ π (â | ŝi )
i θ i
On utilise un algorithme de renforcement.
On peut oublier les données de référence.
Algo 2:
On fait du renforcement avec
X
Jˆθ = Jθ + λ πθ (âi | ŝi )
i
Algo 3: distillation
On fait du renforcement avec
X
Jˆθ , sous contrainte d(πθ (âi | ŝi ), π(âi | ŝi )) ≤
i
78
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 78/83
/83
Modèles du monde
Idée: parfois pas besoin de l’ensemble de l’état pour le contrôle. Renforcement avec
modèles + réduction de dimension [WM18]. ”Dreamer” de google.
Représentation en petite dimension de l’état st appelée zt . Auto Encodeur: deux
ANN φ(st ) et φ+ (zt ) tel qu’on minimise:
min k s − φ+ ◦ φ(s) k
P(zt+1 | zt , at , ht )
https://worldmodels.github.io/
Analogie entre le ”modèle du monde” et ”EDP+base réduite + contrôle sur modèle
réduit”.
79
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 79/83
/83
Conclusion
80
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 80/83
/83
Papier EDP + RL
”Reinforcement Learning with Function-Valued Action Spaces”. Contrôle de l’équation
de la chaleur. Méthode DDPG et variante.
”Reinforcement Learning-based Model Reduction for Partial Differential Equations”.
Construction du fermeture pour une méthode de réduction POD. Application à
Burgers.
”Automating turbulence modelling by multi-agent reinforcement learning”.
Construction d’une fermeture de Turbulence en comparant à des solutions DNS.
Version multi-agent du renforcement (un agent par maille). Méthode: ”Off-Policy”
gradient de politique.
”learning to discretize: solving 1D scalar conservation laws via deep reinforcement
learning”. Construction d’un flux WENO pour Burgers en renforcement. Méthode
DDPG.
”Towards model discovery with reinforcement learning”. Trouver les coefficients d’une
edp à partir de simulation. Méthode DDPG.
”Personalized Cancer Chemotherapy Schedule: a numerical comparison of performance
and robustness in model-based and model-free scheduling méthodologies”. Contrôle
optimal d’une EDO pour la chimiothérapie. Comparaison du PMP, DDPG et DQN.
”A review on Deep Reinforcement Learning for Fluid Mechanics”. Liste des
applications du RL en mécaflu. Principalement du contrôle optimal de fluide.
81
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 81/83
/83
Applications dans MOCO
Projets en cours dans MOCO:
Stabilisation d’oscillations de schémas numériques pour les EDP:
83
Emmanuel Franck avec l’aide de : L. Navoret, V. Vigon, L. Bois, Y. Privat et C. Courtès 83/83
/83