Académique Documents
Professionnel Documents
Culture Documents
Sylvain Lamprier
2020
|τ |−1
X
= ∇θ log πθ (at |st )
t=1
U
U
Somme de gradients de log-probabilités
Plus de problème d’arrondis à 0
On a alors :
|τ |−1
X
∇θ J(θ) = Eτ ∼πθ (τ ) R(τ ) ∇θ log πθ (at |st )
t=1
1 X h i
∇θ J(θ) ≈ R(τ (i) )∇θ log πθ (τ (i) )
M (i)
τ ∼πθ
Intuition :
I Renforcement de la probabilité des trajectoires associées à des
fortes récompenses
Preuve ?
|τP |−1
1 P
avec b(st ) = Rt (τ ) et Rt (τ ) = rt0 .
N τ t 0 =t
On a le droit de faire çà car ∀t ∈ {0..T − 1}, b(st ) ne dépend pas de πθ (at |st ) :
dVAR ∇θ log πθt (τ )(Rt (τ ) − b(st )) dE (∇θ log πθt (τ )(Rt (τ ) − b(st )))2
=
db db
t
2
dE (∇θ log πθ (τ )(Rt (τ ) − b(st )))
car : = 0 (estimateur sans biais)
db
Mais on peut aussi intégrer un facteur de discount comme dans les méthodes
|τP
|−1
Value-based : R(τ ) = γ t rt
t=0
On a alors :
|τ (i) |−1 |τ (i) |−1
1 X X (i) (i)
X 0
−t (i)
∇θ J(θ) ≈ ∇θ log πθ (at |st )γ t γt rt 0 − b(st )
M
τ (i) ∼πθ t=0 t 0 =t
(i)
1 P |τ P|−1 t 0 −t
avec b(st ) = γ rt 0
M τ (i) t 0 =t
I c’est juste un scale qui ne change pas les rapports entre actions selon un
état (du moins dans la version tabulaire)
Sylvain Lamprier Apprentissage par renforcement
Algorithme Vanilla REINFORCE
Version deep :
I b(st ) = Vφ (st ), avec Vφ un réseau de neurones
I Descente de gradient plutôt que minimisation à chaque
itération : (i) |−1
X |τX (i) (i) (i)
φ←φ+ (Rt − Vφ (st ))∇φ Vφ (st )
τ (i) t=0
Sylvain Lamprier Apprentissage par renforcement
Actor-Critic
Actor = π
Critic = récompenses estimées - baseline
(source : [Mni+16])
Comment choisir k ?
2 (3)
GAE(γ,λ) (1) (2)
Ât := (1 − λ) Ât + λÂt + λ Ât + . . .
2 2 V
V V V V V
= (1 − λ) δt + λ δt + γδt+1 + λ δt + γδt+1 + γ δt+2 + . . .
2 2 3
V V
= (1 − λ) δt 1 + λ + λ + . . . + γδt+1 λ + λ + λ + . . .
2 V 2 3 4
+γ δt+2 λ + λ + λ + . . . + . . .
λ2
! !
1 λ
V V 2 V
= (1 − λ) δt + γδt+1 + γ δt+2 + ...
1−λ 1−λ 1−λ
∞
l V
X
= (γλ) δt+l
l=0
Comment choisir k ? ∞
GAE (γ,λ)
X
Ât = (γλ)l δt+l
V
l=0
I Similaire à TD(λ)
I λ est un hyper-paramètre à régler
I Décroissance exponentielle du poids des δ V
GAE (γ,λ)
⇒ λ = 1 : Ât = Â∞
t (Monte-Carlo)
GAE (γ,λ)
⇒ λ = 0 : Ât = Â1t (TD(0))
Comme pour TD(λ), on peut définir des traces d’éligibilité pour faire les mises
à jour de θ au fur et à mesure du processus :
e0 ← 0
θ ← θ + αδt et
Possible de faire la même chose pour φ :
(i)
|τ |−1
1 X X GAE (γ,λ) 2
φ←φ+α ∇φ (Ât )
M (i) t=0
τ
⇒ Objectifs :
I Utilisation de la structure de l’espace d’états
I Réduction de la variance