Académique Documents
Professionnel Documents
Culture Documents
Audrey Durand
Évaluer la performance :
Le regret
Rappel : Les bandits stochastiques
Action 1 Action 2 Action K
Ensemble de K actions
(arms, machines)
…
Maximiser
T T
∑ [∑ ]
But : Maximiser [rt] = rt = μk1 + μk2 + … + μkT
t=1 t=1
[∑ ]
Maximiser l’espérance des récompenses cumulées : rt = μk1 + μk2 + … + μkT
t=1
∑ [∑ ]
R(T) := μ⋆ − rt
t=1 t=1
𝔼
𝔼
Décomposition du pseudo-regret cumulatif
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
𝔼
𝔼
Parenthèse : μkt est une variable aléatoire
Exemple politique déterministe Action 1
Action 2
(μ1 = 0.4) (μ2 = 0.7)
• Nk(t − 1) : nombre de tirages de l’action k jusqu’au
temps t − 1 (inclusivement)
k1 = 1 k2 = 2 k3 = 2
Sk(t − 1)
Si t > K : kt = arg max
k Nk(t − 1) μk1 = 0.4 μk2 = 0.7 μk3 = 0.7
Parenthèse : μkt est une variable aléatoire
Exemple politique déterministe Action 1
Action 2
(μ1 = 0.4) (μ2 = 0.7)
• Nk(t − 1) : nombre de tirages de l’action k jusqu’au
temps t − 1 (inclusivement)
Sk(t − 1) 0.4
Si t > K : kt = arg max
k Nk(t − 1) μk1 = 0.4 μk2 = 0.7 μk3 = 0.7
Décomposition du pseudo-regret cumulatif
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T Pseudo-regret instantané : Δkt
[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝔼
𝔼
Décomposition du pseudo-regret cumulatif
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T
[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝕀
T K
∑ ( ∑ )
= (μ⋆ − μkt) [kt = k]
t=1 k=1
𝔼
{0 sinon
K
1 si la condition est réalisée
∑
Fonction indicatrice : [condition] = ⇒ [kt = k] = 1
𝔼
𝔼
𝕀
𝕀
k=1
Décomposition du pseudo-regret cumulatif
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T
[∑ ]
= (μ⋆ − μkt)
t=1 Gap de sous-optimalité : Δk
𝔼
𝕀
T K
[∑ ∑ ]
= (μ⋆ − μk) [kt = k]
t=1 k=1
𝔼
{0 sinon
K
1 si la condition est réalisée
∑
Fonction indicatrice : [condition] = ⇒ [kt = k] = 1
𝔼
𝔼
𝕀
𝕀
k=1
Décomposition du pseudo-regret cumulatif
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T
[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝕀
K T
[∑ ∑ ]
= (μ⋆ − μk) [kt = k]
k=1 t=1
𝔼
{0 sinon
K
1 si la condition est réalisée
∑
Fonction indicatrice : [condition] = ⇒ [kt = k] = 1
𝔼
𝔼
𝕀
𝕀
k=1
Décomposition du pseudo-regret cumulatif
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T
[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝕀
K T
∑ [∑ ]
= (μ⋆ − μk) [kt = k]
k=1 t=1
𝔼
Nk(T)
{0 sinon
K
1 si la condition est réalisée
∑
Fonction indicatrice : [condition] = ⇒ [kt = k] = 1
𝔼
𝔼
𝕀
𝕀
k=1
Décomposition du pseudo-regret cumulatif
T T T T
∑ [∑ ] ∑ [∑ ]
R(T) = μ⋆ − rt = μ⋆ − μkt
t=1 t=1 t=1 t=1
T
[∑ ]
= (μ⋆ − μkt)
t=1
𝔼
𝕀
𝔼
K T K
∑ [∑ ] ∑
= (μ⋆ − μk) [kt = k] = Δk [Nk(T)]
k=1 t=1 k=1
𝔼
{0 sinon
K
1 si la condition est réalisée
∑
Fonction indicatrice : [condition] = ⇒ [kt = k] = 1
𝔼
𝔼
𝕀
𝕀
k=1