2 Regret 1

IFT-4201 / IFT-7201
Apprentissage par Renforcement

Reinforcement Learning
Audrey Durand
Évaluer la performance :
Le regret
 
Rappel : Les bandits stochastiques
Action 1 Action 2 Action K
Ensemble de K actions 
(arms, machines)
Chaque action k est associée à 

un paramètre μk tel que Xk,t ∼ ν(μk)
Rappel : La dynamique de jeu
Historique
k1, r1
k2, r2
⋮
Agent Action kt ∈ {1,2,…, K} Environnement
…
Maximiser
[rt] Récompense rt ← Xkt,t ∼ ν(μkt,t)

𝔼
Maximiser les récompenses (en espérance)
Horizon ni T (inconnu de l’agent) → t = 1,2,…, T
t = 1 : action k1 récompense r1 [r1] = μk1 

t = 2 : action k2 récompense r2 [r2] = μk2 
⋮ 
t = T : action kT récompense rT [rT ] = μkT
T T
∑ [∑ ]
But : Maximiser [rt] = rt = μk1 + μk2 + … + μkT
t=1 t=1
Espérance de valeur générée par l’action k1

𝔼
𝔼
𝔼
𝔼
𝔼
fi
Maximiser les gains / Minimiser le regret
[∑ ]
Maximiser l’espérance des récompenses cumulées : rt = μk1 + μk2 + … + μkT
t=1
μ⋆ := max μk k⋆ := arg max μk

k k
Minimiser le pseudo-regret cumulatif :

T T
∑ [∑ ]
R(T) := μ⋆ − rt
t=1 t=1
𝔼
𝔼
Décomposition du pseudo-regret cumulatif
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
𝔼
𝔼
Parenthèse : μkt est une variable aléatoire
Exemple politique déterministe Action 1  Action 2 
(μ1 = 0.4) (μ2 = 0.7)
• Nk(t − 1) : nombre de tirages de l’action k jusqu’au
temps t − 1 (inclusivement)
• Sk(t − 1) : somme des récompenses obtenues avec

l’action k jusqu’au temps t − 1 (inclusivement)
• Jouer chaque action une fois (initialisation)

0  1 
0  1 
1  0 
Si t ≤ K : kt = t
⇒ Nk(K) = 1 ∀k ∈ {1,2,…, K}
⋮ ⋮
• Jouer l’action d’espérance estimée la plus élevée
k1 = 1 k2 = 2 k3 = 2
Sk(t − 1)
Si t > K : kt = arg max
k Nk(t − 1) μk1 = 0.4 μk2 = 0.7 μk3 = 0.7
Parenthèse : μkt est une variable aléatoire
Exemple politique déterministe Action 1  Action 2 
(μ1 = 0.4) (μ2 = 0.7)
• Nk(t − 1) : nombre de tirages de l’action k jusqu’au
temps t − 1 (inclusivement)
• Sk(t − 1) : somme des récompenses obtenues avec

l’action k jusqu’au temps t − 1 (inclusivement)
• Jouer chaque action une fois (initialisation)

0  1  1  1 
0  0  1  0 
1  1  0  1 
Si t ≤ K : kt = t
⇒ Nk(K) = 1 ∀k ∈ {1,2,…, K}
⋮ ⋮ ⋮ ⋮
• Jouer l’action d’espérance estimée la plus élevée
1
k1 = 1 k2 = 2 k3 = 2
Sk(t − 1) 0.4
Si t > K : kt = arg max
k Nk(t − 1) μk1 = 0.4 μk2 = 0.7 μk3 = 0.7
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T Pseudo-regret instantané : Δkt
[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝔼
𝔼
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T
[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝕀
T K
∑ ( ∑ )
= (μ⋆ − μkt) [kt = k]
t=1 k=1
𝔼
{0 sinon
K
1 si la condition est réalisée
∑
Fonction indicatrice : [condition] = ⇒ [kt = k] = 1
𝔼
𝔼
𝕀
𝕀
k=1
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T
[∑ ]
= (μ⋆ − μkt)
t=1 Gap de sous-optimalité : Δk
𝔼
𝕀
T K
[∑ ∑ ]
= (μ⋆ − μk) [kt = k]
t=1 k=1
𝔼
{0 sinon
K
∑
𝔼
𝔼
𝕀
𝕀
k=1
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T
[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝕀
K T
[∑ ∑ ]
= (μ⋆ − μk) [kt = k]
k=1 t=1
𝔼
{0 sinon
K
∑
𝔼
𝔼
𝕀
𝕀
k=1
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T
[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝕀
K T
∑ [∑ ]
= (μ⋆ − μk) [kt = k]
k=1 t=1
𝔼
Nk(T)
{0 sinon
K
∑
𝔼
𝔼
𝕀
𝕀
k=1
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T
[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝕀
𝔼
K T K
∑ [∑ ] ∑
= (μ⋆ − μk) [kt = k] = Δk [Nk(T)]
k=1 t=1 k=1
𝔼
{0 sinon
K
∑
𝔼
𝔼
𝕀
𝕀
k=1

2 Regret 1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

2 Regret 1

Transféré par

Droits d'auteur :

Formats disponibles

IFT-4201 / IFT-7201

Apprentissage par Renforcement

Chaque action k est associée à

[rt] Récompense rt ← Xkt,t ∼ ν(μkt,t)

Horizon ni T (inconnu de l’agent) → t = 1,2,…, T

t = 1 : action k1 récompense r1 [r1] = μk1

Espérance de valeur générée par l’action k1

μ⋆ := max μk k⋆ := arg max μk

Minimiser le pseudo-regret cumulatif :

• Sk(t − 1) : somme des récompenses obtenues avec

• Jouer chaque action une fois (initialisation)

• Sk(t − 1) : somme des récompenses obtenues avec

• Jouer chaque action une fois (initialisation)

Vous aimerez peut-être aussi