Vous êtes sur la page 1sur 15

IFT-4201 / IFT-7201

Apprentissage par Renforcement


Reinforcement Learning

Audrey Durand
Évaluer la performance :
Le regret


Rappel : Les bandits stochastiques
Action 1 Action 2 Action K

Ensemble de K actions

(arms, machines)

Chaque action k est associée à



un paramètre μk tel que Xk,t ∼ ν(μk)
Rappel : La dynamique de jeu
Historique
k1, r1
k2, r2

Agent Action kt ∈ {1,2,…, K} Environnement


Maximiser

[rt] Récompense rt ← Xkt,t ∼ ν(μkt,t)


𝔼
Maximiser les récompenses (en espérance)

Horizon ni T (inconnu de l’agent) → t = 1,2,…, T

t = 1 : action k1 récompense r1 [r1] = μk1



t = 2 : action k2 récompense r2 [r2] = μk2

⋮

t = T : action kT récompense rT [rT ] = μkT

T T

∑ [∑ ]
But : Maximiser [rt] = rt = μk1 + μk2 + … + μkT
t=1 t=1

Espérance de valeur générée par l’action k1


𝔼
𝔼
𝔼
𝔼
𝔼
fi
Maximiser les gains / Minimiser le regret

[∑ ]
Maximiser l’espérance des récompenses cumulées : rt = μk1 + μk2 + … + μkT

t=1

μ⋆ := max μk k⋆ := arg max μk


k k

Minimiser le pseudo-regret cumulatif :


T T

∑ [∑ ]
R(T) := μ⋆ − rt
t=1 t=1
𝔼
𝔼
Décomposition du pseudo-regret cumulatif

T T T T

∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
𝔼
𝔼
Parenthèse : μkt est une variable aléatoire
Exemple politique déterministe Action 1
 Action 2

(μ1 = 0.4) (μ2 = 0.7)
• Nk(t − 1) : nombre de tirages de l’action k jusqu’au
temps t − 1 (inclusivement)

• Sk(t − 1) : somme des récompenses obtenues avec


l’action k jusqu’au temps t − 1 (inclusivement)

• Jouer chaque action une fois (initialisation)


0
 1

0
 1

1
 0

Si t ≤ K : kt = t
⇒ Nk(K) = 1 ∀k ∈ {1,2,…, K}
⋮ ⋮
• Jouer l’action d’espérance estimée la plus élevée

k1 = 1 k2 = 2 k3 = 2

Sk(t − 1)
Si t > K : kt = arg max
k Nk(t − 1) μk1 = 0.4 μk2 = 0.7 μk3 = 0.7
Parenthèse : μkt est une variable aléatoire
Exemple politique déterministe Action 1
 Action 2

(μ1 = 0.4) (μ2 = 0.7)
• Nk(t − 1) : nombre de tirages de l’action k jusqu’au
temps t − 1 (inclusivement)

• Sk(t − 1) : somme des récompenses obtenues avec


l’action k jusqu’au temps t − 1 (inclusivement)

• Jouer chaque action une fois (initialisation)


0
 1
 1
 1

0
 0
 1
 0

1
 1
 0
 1

Si t ≤ K : kt = t
⇒ Nk(K) = 1 ∀k ∈ {1,2,…, K}
⋮ ⋮ ⋮ ⋮
• Jouer l’action d’espérance estimée la plus élevée
1
k1 = 1 k2 = 2 k3 = 2

Sk(t − 1) 0.4
Si t > K : kt = arg max
k Nk(t − 1) μk1 = 0.4 μk2 = 0.7 μk3 = 0.7
Décomposition du pseudo-regret cumulatif

T T T T

∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T Pseudo-regret instantané : Δkt

[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝔼
𝔼
Décomposition du pseudo-regret cumulatif

T T T T

∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T

[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝕀
T K

∑ ( ∑ )
= (μ⋆ − μkt) [kt = k]
t=1 k=1
𝔼
{0 sinon
K
1 si la condition est réalisée

Fonction indicatrice : [condition] = ⇒ [kt = k] = 1
𝔼
𝔼
𝕀
𝕀
k=1
Décomposition du pseudo-regret cumulatif

T T T T

∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T

[∑ ]
= (μ⋆ − μkt)
t=1 Gap de sous-optimalité : Δk
𝔼
𝕀
T K

[∑ ∑ ]
= (μ⋆ − μk) [kt = k]
t=1 k=1
𝔼
{0 sinon
K
1 si la condition est réalisée

Fonction indicatrice : [condition] = ⇒ [kt = k] = 1
𝔼
𝔼
𝕀
𝕀
k=1
Décomposition du pseudo-regret cumulatif

T T T T

∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T

[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝕀
K T

[∑ ∑ ]
= (μ⋆ − μk) [kt = k]
k=1 t=1
𝔼
{0 sinon
K
1 si la condition est réalisée

Fonction indicatrice : [condition] = ⇒ [kt = k] = 1
𝔼
𝔼
𝕀
𝕀
k=1
Décomposition du pseudo-regret cumulatif

T T T T

∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T

[∑ ]
= (μ⋆ − μkt)
t=1

𝔼
𝕀
K T

∑ [∑ ]
= (μ⋆ − μk) [kt = k]
k=1 t=1
𝔼
Nk(T)

{0 sinon
K
1 si la condition est réalisée

Fonction indicatrice : [condition] = ⇒ [kt = k] = 1
𝔼
𝔼
𝕀
𝕀
k=1
Décomposition du pseudo-regret cumulatif

T T T T

∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T

[∑ ]
= (μ⋆ − μkt)
t=1

𝔼
𝕀
𝔼
K T K

∑ [∑ ] ∑
= (μ⋆ − μk) [kt = k] = Δk [Nk(T)]
k=1 t=1 k=1
𝔼
{0 sinon
K
1 si la condition est réalisée

Fonction indicatrice : [condition] = ⇒ [kt = k] = 1
𝔼
𝔼
𝕀
𝕀
k=1

Vous aimerez peut-être aussi