Académique Documents
Professionnel Documents
Culture Documents
A. Cornuéjols
Antoine Cornuéjols
(antoine@lri.fr)
I.I.E.
&
L.R.I., Université d’Orsay
2
A. Cornuéjols
Plan du
Apprentissage par renforcement
cours
• 1- Introduction : motivation, problèmes, notions et principes
• 2- La notion d'utilité
• 7- Exemples d’applications
• 8- Bilan et perspectives
Apprentissage par renforcement 3
A. Cornuéjols
Environnement
Action
Perception
Récompense
Apprentissage par renforcement 4
A. Cornuéjols
• États : st S
• Actions : at A(st)
• Récompenses : rt R(st)
• L’agent : st at
• Fonction de renforcement :
Définit implicitement le but poursuivi
Une fonction : (état, action) récompense
• Modèle de l’environnement :
Fonctions T et R : (état(t), action) (état(t+1), récompense)
Apprentissage par renforcement 6
A. Cornuéjols
2- La notion
d'utilité
Principe :
X X X X X O X X O X
X O X O X O X O X O X O X
O O O O X
...
x
V(s2) x
} o’s coup
x o
... ... o
x
... o x
x
} x’s coup
... ... ... ... ...
} o’s coup
Q(s,a)
• La valeur d’un état est l’espérance de gain en partant de cet état. Elle
dépend de la politique de l’agent :
State - value function for policy π :
⎧∞ k ⎫
V (s) = Eπ {Rt st = s} = Eπ ⎨∑ γ rt +k +1 st = s⎬
π
⎩k =0 ⎭
⎩k = 0 ⎭
Apprentissage par renforcement 9
A. Cornuéjols
Vπ(s) s
r
s’
Vπ(s’)
10
A. Cornuéjols
optimale
• Pour les MDPs finis, ! relation d’ordre partiel sur les politiques:
π π′
π ≥ π ′ if and only if V (s) ≥ V (s) for all s ∈S
• Il existe toujours au moins une politique (et peut-être plusieurs) meilleure ou égale à
toute autre politique. Une telle politique est optimale et notée *.
• Les politiques optimales partagent la même fonction d’utilité optimale sur les états :
∗ π
V (s) = max V (s) for all s ∈S
π
• Les politiques optimales partagent aussi la même fonction d’utilité optimale sur les
(état-action) :
∗ π
Q (s,a) = max Q (s, a) for all s ∈S and a ∈A(s)
π
Apprentissage par renforcement 11
A. Cornuéjols
€
• Une politique stationnaire optimale existe :
Apprentissage par renforcement 12
A. Cornuéjols
• Théorème :
⎩k =0 ⎭
π
Bellman equation for V :
V π (s) = ∑ π (s,a)∑ Psas′ [ Rsas′ + γ V π ( s′ )]
a s′
π
V0 → V1 → L → Vk → Vk +1 → L → V
une “propagation”
Apprentissage par renforcement 15
A. Cornuéjols
1
Oui : Qk +1 = Qk + [ rk +1 − Qk ]
k +1
Évaluation de politique :
π
pour une politique donnée , calculer la fonction d’utilité V
T
T T TT T T
TT T TT T TT
Apprentissage par renforcement 19
A. Cornuéjols
T TT TT T T
T T
T TT T TT
Apprentissage par renforcement 20
A. Cornuéjols
rt +1
st +1
T TT T T T
TT T T T T
Apprentissage par renforcement 21
A. Cornuéjols
Initialisation :
politique à évaluer
V une fonction arbitraire d’évaluation
3-3. PD : Amélioration de
politique
π
Supposons fait le calcul de V pour une politique déterministe .
Il suffit de faire cela pour tous les états pour obtenir une nouvelle
politique ’ qui est gloutonne par rapport à V :
Alors V ≥ V
Apprentissage par renforcement 25
A. Cornuéjols
What if V π ′ = V π ?
i.e., for all s ∈S, V π ′ (s) = max ∑ Psas′ [Rsas′ + γ V π (s ′ )] ?
a
s′
3-3. PD : Itération de
politique
E A E A E A
π0 π1 * * *
π0 → V → π1 → V → L π → V → π
politique
Initialisation arbitraire de
Faire
calcul de la fonction de valeur avec
3-3. PD : Policy
Iteration
29
A. Cornuéjols
politique
Generalized Policy Iteration (GPI):
Toute interaction d’étape d’évaluation de politique et d’étape
d’amélioration de politique indépendamment de leur granularité :
4-2. TD learning : Q-
Learning
Bras A1 Bras A2
Jeto n
2 4
*
at = a = arg max Qt (a)
t
a
-gloutonne :
Softmax
• Softmax action selection methods grade action probs. by estimated
values.
where τ is the
“computational temperature”
Apprentissage par renforcement 35
A. Cornuéjols
⎛ ⎞
Q(s, a ) ← (1−α ) Q (s,a) + α ⎜r + γ maxQ (s',a')⎟
⎝ a' ⎠
4-3. Exemple
Apprentissage par renforcement
(1/4)
r(s,a)
r(s,a) récompense
récompenseimmédiate
immédiate
0 100
But
0 0
0 0
0 0 100
0 0
0 0
4-3. Exemple
Apprentissage par renforcement
(2/4)
∞
•
On définit la récompense cumulée V (st) = ∑γ r
t =0
t
t
v
π
• Le problème: trouver π * = argmax( (s))
π
90 100
But
0
81 90 100
V*(s)=V*(s)
V*(s)=V*(s) récompense
récompensecumulée
cumuléeoptimale
optimale
38
A. Cornuéjols
4-3. Exemple
Apprentissage par renforcement
(3/4)
• La fonction Q est définit comme étant LA fonction qui résume en
UN nombre toute l’info nécessaire sur le gain cumulé d’une
action a, prise dans l’état s.
Q(s,a)
Q(s,a)
90 100
But
81 0
72 81
81 90 100
81 90
72 81
39
A. Cornuéjols
4-3. Exemple
Apprentissage par renforcement
(4/4)
^
On Prend =1. 72
Q(s,a)
100
63
81
∧ ∧
Q(s,a )← r + γ maxQ(δ (s,
a),
a'))
a'
adroite
← 0 + 0.9 max{63,81,100}} 90
^
Q(s,a)
90 100
← 90 63
81
40
A. Cornuéjols
5. Apprentissage avec
Apprentissage par renforcement
généralisation
• Si l’espace S (ou S x A) est trop important pour l’utilisation d’une
table mémorisant les prédictions
• Deux options :
Utilisation d’une technique de généralisation dans l’espace S ou l’espace
SxA (e.g. réseau de neurones, ...)
Mais avant, les fonctions d’utilité étaient stockées dans des tables.
As a training example:
{description of s t , rt +1 + γ V (st+1 )}
• En principe, oui :
Réseaux de neurones artificiels
Arbres de décision
Méthodes de régression multivariées
etc.
6. Some Notable RL
Apprentissage par renforcement
Applications
• TD-Gammon: Tesauro
– world’s best backgammon program
6. TD-
Apprentissage par renforcement
Gammon
Tesauro, 1992–1995
TD error
V t+1 −Vt
6. Réalisations : TD
Gammon
• Hitting
• Doubling
• 30 pieces, 24 locations implies
enormous number of configurations
6. Réalisations : A Few
Details
• Use of afterstates
• Learning during self-play
Apprentissage par renforcement 48
A. Cornuéjols
7. Bilan : Frontier
Dimensions
• Prove convergence for bootstrapping control methods.
• Trajectory sampling
• Non-Markov case:
Partially Observable MDPs (POMDPs)
– Bayesian approach: belief states
– construct state from sequence of observations
Try to do the best you can with non-Markov states
Sources
Apprentissage par renforcement
documentaires
• Ouvrages / articles
Sutton & Barto (98) : Reinforcement Learning : an introduction. MIT Press,
1998.
Kaelbling L.P. (93) : Learning in embedded systems. MIT Press, 1993.
Kaelbling, Littman & Moore (96) : Reinforcement learning : A survey. Journal
of Artificial Intelligence Research, 4:237-285.
• Sites web
http://http://www-anw.cs.umass.edu/~rich/RL-FAQ.html
(FAQ maintenue par Rich Sutton et point d’entrée pour de nombreux sites)