Académique Documents
Professionnel Documents
Culture Documents
• Le conditionnement …
Skinner (1904-1990)
Tolman (1886-1959)
Action
Récompenses
Perception
mémoire
modification
récompense
état actions
ou
renforcement
selection
: politique
Renforcement V(s) : valeur des états (s)
R (rk, rj ..) ou
Q(a) : valeur des actions
ou
Q(s,a) : valeur état-action (s,a)
Etats (state)
S (sk, sj ..)
ai
actions
si
• Reward =r0+ r1 + … + rN 2
A Renforcements
B
- bords : -1
actions +5
- A->A ’ : 10
+10 B’ - B->B ’ : 5
(pour toute action)
A’ - ailleurs : 0
V* *
Actions :
a1 Q(s1,a1) Q(a1,s2) ...
a2 ... Q(a3,s3)
a3
...
...
• Comme V mais …
– sur une action : Q(a) : a ->
– sur un couple état/action : Q(s,a) : (s,a) ->
– Q(s,a) : gains espérés en exécutant a à partir de s.
• Q* valeur optimale (inconnue)
Q
• ( s, a) valeur pour une politique
0000
Module IAS - Pierre De Loor - ENIB
Bandit Manchot
• Explorer : jouer au pif
• Exploiter : jouer le meilleur bras estimé
– Valeur d’une action a (bras) : Q(a) (= Q*(a))
• Reflète la moyenne des gains obtenus par a
– Valeur estimée d’une action après qu’elle soit
choisie ka fois :
Qt(a) = r1+r2+……+rka
ka
probabilité
1- Jouer le meilleur « greedy action »
maxa(Q(a))
Explorer
• valeur de ?
apprentissage lent, prudent, performant à long terme
versus
apprentissage rapide mais moins performant en moyenne
Qt ( a ) / 0 : greedy
probabilité
de choisir « a »
e
parmi n actions n Qt ( b ) / : equiprobable
b 1
e
Module IAS - Pierre De Loor - ENIB
Apprendre V ou Q ?
Qk 1 Qk .[erreur ]
Module IAS - Pierre De Loor - ENIB
Apprentissage par différence
temporelle : Exemple : Tic Tac Toe
• Joueur parfait ne perd jamais
• Joueur imparfait “pas logique”
– modèle parfais du joueur (minmax) exclu
exploitation
0.5 0.3
Q=0.8
exploration : aléatoire
0.8 Q’
apprentissage
• Q(st,at) = Q(st,at)+*[rt+1+*maxaQ(st+1,a)-Q(st,at)]
Pas la politique
Apprentisage de Q(s,a)
Choix aléatoire : Q et s
choix de a par Q (soft)
Sans arrêt
Module IAS - Pierre De Loor - ENIB
Sarsa() sur un labyrinthe
• Les premiers pas sont utilisés pour évaluer Q
* * *
accumulation replacement
e(t)
0
Passages
Module IAS - Pierre De Loor - ENIB par l’état
SARSA() : l ’algo complet (en cadeau
gratuit)
--------------------------------------------------------------
Initialize Q(s,a) arbitrarily and e(s,a)=0, for all s,a
Repeat (for each episode)
Initialize s,a
Repeat (for each step of episode)
Take action a, observe r, s’
Choose a’ from s’ using policy derived from Q (e.g., -greedy)
r + Q(s,a ’) - Q(s,a)
e(s,a) e(s,a)+1 accumulation
For all s, a:
Q(s,a) Q(s,a) + e(s,a)
e(s,a) e(s,a)
Ça c’est intéressant
s s’; a a’
until s is terminal
modification
actions récompense
état ou
renforcement
selection
1010 environnement 01
AG renforcement interne
A-1
Module IAS - Pierre De Loor - ENIB
Renforcement des ZCS : Algorithm « Bucket
Brigade »
environnement
sceau B
Prélèvement
d ’un pourcentage br (taxe)
(exemple 10%) 2.8+4.2=7 rétribution
taux d ’apprentissage éventuelle
A A
renforcement interne
taux de remise
A-1 ##10:11 5 ##10:11 5.7
11##:11 8 A-1
11##:11 9
#11#:11 9 #11#:11 10
Perception états
Pa
P .F i i
F
i
i
• Robotique