Académique Documents
Professionnel Documents
Culture Documents
1. Cas générale :
∗
𝑉𝑛∗ (𝐼) = max [𝜌(𝐼, 𝑎) + 𝛾 ∑ Pr(𝑜|𝐼, 𝑎)𝑉𝑛−1 (𝜏(𝐼, 𝑜, 𝑎))]
𝑎𝜖𝐴
𝑜𝜖𝜔
∗
𝜇𝑛∗ (𝐼) = argmax [𝜌(𝐼, 𝑎) + 𝛾 ∑ Pr(𝑜|𝐼, 𝑎)𝑉𝑛−1 (𝜏(𝐼, 𝑜, 𝑎))]
𝑎𝜖𝐴
𝑜𝜖𝜔
Croyance
L’agent représente les états des mondes par des états des croyances.
la décision est prise sur la base de l’espace des croyances qui est une
distribution de probabilité a posteriori sur les états.
Figure II. 1 Présentation des fonctions de valeurs par des fonctions linéaire par
morceaux.
Les récompenses :
Récompense :
Pour les problèmes du PDM, la récompense dépend de l’état. Mais
dans le cas d’un POMDP, l’état n’est pas exactement connu.
𝑅 (𝑏, 𝑠) = ∫ 𝑟(𝑥, 𝑠). 𝑝(𝑥 )𝑑𝑥 . pour notre exemple : r(b,u)=Pr1 . r(x1, u)
+ Pr2. r(x2, u)
Si l’agent est certain d’être dans l’état x1 et qu’il exécute l’action u1, il
reçoit une récompense de -100. S’il sait qu’il est dans l’état x2 et qu’il
exécute l’action u1, il reçoit une récompense de +100.
R(b,u3) = -1
Politique optimale :
Dans la section précédant. On a vu comment représenter une
politique dans un POMDP. Notre but maintenant est de trouver une
politique optimale. Une politique optimale est celle qui maximise le
profit de l’agent.
Pour un PDM la fonction de valeur pour une politique donnée est une
fonction défini par
𝑉 𝜋 ∶ 𝑆 → 𝐼𝑅 qui définit la gain totale on utilisons la politique π en
commençons par l’état s .
∗
𝑉𝑛∗ (𝐼) = max [𝜌(𝐼, 𝑎) + 𝛾 ∑ Pr(𝑜|𝐼, 𝑎)𝑉𝑛−1 (𝜏(𝐼, 𝑜, 𝑎))]
𝑎𝜖𝐴
𝑜𝜖𝜔
𝑜. 7 𝑝1 𝑜. 3(1 − 𝑝1 )
−100. + 100.
𝑝(𝑧1 ) 𝑝(𝑧1 )
𝑉1 (𝑏) = max
𝑜. 7 𝑝1 𝑜. 3(1 − 𝑝1 )
100 − 50
{ 𝑝(𝑧1 ) 𝑝(𝑧1 )
1 −70 𝑝1 + 30 (1 − 𝑝1 )
= max {
𝑝(𝑧1 ) 70 𝑝1 − 15 (1 − 𝑝1 )
= ∑ 𝑝(𝑧𝑖 ) 𝑉1 (𝑏 |𝑧𝑖 )
𝑖=1
−70 𝑝1 + 30 (1 − 𝑝1 ) −30 𝑝1 + 70 (1 − 𝑝1 )
= max { + max {
70 𝑝1 − 15 (1 − 𝑝1 ) 30 𝑝1 − 35 (1 − 𝑝1 )
Fonction de valeur :
60𝑝1 − 60 (1 − 𝑝1)
𝑉̅1 (𝑏|𝑢3 ) = max { 52𝑝1 + 43 (1 − 𝑝1)
−20𝑝1 + 70 (1 − 𝑝1)
Horizons lointains
Nous avons effectué une itération entière sur l’espace des croyances.
Ceci peut être appliqué récursivement.
Cette opération est résumée (on peut aussi dire cachée) dans
l’équation :
𝑎,𝑜
𝜃𝑖 (𝑏, 𝑠) = 𝑟(𝑠, 𝑎) + 𝛾 ∑𝑜∈𝛺 ∑𝑎′∈𝑆 Pr(𝑠 ′ , 𝑜|𝑠, 𝑎) 𝜃𝑖−1 (𝑏, 𝑠 ′ ). (*)
3.1. Région
Soient un espace d’états de croyance ϐ et une représentation d’une
fonction de valeur ϴ, la région R(θ, ϴ) associée à un vecteur θ de ϴ est
définie par :
Voilà l’algorithme qui nous aider à trouver une vecteur dans une
région
Algorithme d’Elagage :