Renforcement 2020

Apprentissage par renforcement
Module IAS - Pierre De Loor - ENIB

Apprentissage par renforcement
• Apprentissage d’interactions avec un

environnement
• Environnement pouvant être dynamique
• Pas d’exemples “tout fait”
• Exploration / Exploitation

Les origines Thorndike (1874-1949)
Pavlov (1849-1936)
• Le conditionnement …
Skinner (1904-1990)
Tolman (1886-1959)

Principe
Apprentissage artificiel par renforcement:
La carotte, le bâton et le silence
environnement
Action
Récompenses
Perception
mémoire

Principe
perception environnement but atteint ?
modification
récompense
état actions
ou
renforcement
selection
Apprentissage par exploration

trouver la meilleure action
d ’après l ’expérience passée
optimiser les récompenses
Bien comprendre le renforcement
• But atteint = récompense
• mauvaise solution = punition
• Entre les deux = rien
• c’est à l’algorithme de trouver “comment” atteindre le
but, pas à nous de lui dire “chaud” ou “froid” car il va
apprendre à atteindre un sous objectif.
• Il n’est pas nécessaire (ni souhaitable) de mesurer le
degrès de satisfaction du but, ou d’imaginer les étapes
intermédiaires

Variables importantes
Actions A (ai, aj …)
 : politique
Renforcement V(s) : valeur des états (s)
R (rk, rj ..) ou
Q(a) : valeur des actions
ou
Q(s,a) : valeur état-action (s,a)
Etats (state)
S (sk, sj ..)

 : Politique(s)
• Caractérise ce qu’il faut faire ? s->a

• probabiliste :
– (s,a) : probabilité de choix (dure/permissive)
• déterministe :
– (s) : action, pas une probabilité
• * optimale : permet d ’obtenir le plus de gains
– compromis court/long terme , infini ? épisode ?
– C ’est ce que l ’on cherche à apprendre

Politique 
• exemple
Politique déterministe
ai
actions
si
Politique probabiliste Sortie

ou soft 10 points

V : Valeur des états (s->)
États : s1 s2 s3 …
V(S1) V(S2)
Valeur V(S3)
• V(s) Gains que je peux espérer en s

– sur N PAS : V(s) est borné 1 V(S) = 3
• Reward =r0+ r1 + … + rN 2
– à l ’infini : pondération ->  1 V(S) = 1 + 22

• Reward = rt+1 + rt+2 + 2rt+3 +… 2
• V* : valeur optimale (inconnue)
• V : valeur pour la politique 
Autre Exemple
• L ’environnement
A Renforcements
B
- bords : -1
actions +5
- A->A ’ : 10
+10 B’ - B->B ’ : 5
(pour toute action)
A’ - ailleurs : 0

Gains des états V pour une politique 
• politique  : probabilité de choix des 4 directions identique
partout (si,droite) = (si,haut) = … = 0.25
• Horizon infini, remise : =0.9 V
A B 3.3 8.8 4.4 5.3 1.5
+5 1.5 3.0 2.3 1.9 0.5

+10 B’ 0.1 0.7 0.7 0.4 -0.4
-1 -0.4 -0.4 -0.6 -1.2

A’ -1.9 -1.3 -1.2 -1.4 -2

Gain et politique optimale
• V* : gains optimums pour la politique optimale *
V* *
22 24.4 22 19.4 17.5
19.8 22 19.8 17.8 16 +5 +5

+10 17.8 19.8 17.8 16 14.4
+10
16 17.8 16 14.4 13
14.4 16 14.4 13 11.7

Plusieurs actions (Q(s,a))
• Association état/action
• Politique 
États : s1 s2 s3 …
Actions :
a1 Q(s1,a1) Q(a1,s2) ...
a2 ... Q(a3,s3)
a3
...
...

Q (s,a)
• Comme V mais …
– sur une action : Q(a) : a -> 
– sur un couple état/action : Q(s,a) : (s,a) -> 
– Q(s,a) : gains espérés en exécutant a à partir de s.
• Q* valeur optimale (inconnue)

Q
• ( s, a) valeur pour une politique 

Le problème de l’exploration

Bandit Manchot
– pas d’états (ou plutôt un seul)

• pas de V
– n bras : n actions a1…an -- > Q(ai)
– chaque bras permet de gagner une somme r
distribuée aléatoirement (proba inconnue)
1 n
0000
Bandit Manchot
• Explorer : jouer au pif
• Exploiter : jouer le meilleur bras estimé
– Valeur d’une action a (bras) : Q(a) (= Q*(a))
• Reflète la moyenne des gains obtenus par a
– Valeur estimée d’une action après qu’elle soit
choisie ka fois :
Qt(a) = r1+r2+……+rka
ka
– si ka   alors Qt(a)  Q(a)

Bien apprendre : explorer/exploiter
• Taux d’exploration :  (-Greedy methods)
•  variable aléatoire (0  1)
probabilité
1- Jouer le meilleur « greedy action »
maxa(Q(a))
 Explorer
• valeur de  ?
apprentissage lent, prudent, performant à long terme
versus
apprentissage rapide mais moins performant en moyenne
– si  est toujours > 0 on parle de politique -soft

Explorations plus fines
• Softmax
– Dépend de la valeur des actions Qt(ai)
– plus une action est “valable” plus elle a de chance
d’être choisie (distribution de Boltzman, fixer la
température ?)
Qt ( a ) /  0 : greedy
probabilité
de choisir « a »
e

parmi n actions n Qt ( b ) /   : equiprobable
b 1
e
Apprendre V ou Q ?

Gains des états V pour une politique 
• Si on choisit un horizon fini :

Qt(a) = r1+r2+……+rka
k
• Si on choisi un horizon infini k-> , est-il possible d’estimer le

Gain ?

Il est possible d’obtenir une
définition incrémentale Q(a)
r1  r2  ...  rk
Qk  Qk
k
 
k 1 k
r r  rk 1
Qk 1  i 1 i
Qk 1  i 1 i
k 1 k 1
1
Qk 1  Qk  *[rk 1  Qk ]
k 1 Voir annexes
Qk 1  Qk   .[erreur ]
Apprentissage par différence
temporelle : Exemple : Tic Tac Toe
• Joueur parfait ne perd jamais
• Joueur imparfait “pas logique”
– modèle parfais du joueur (minmax) exclu

• Pondérer les états du jeu
– valeur de l’état = récompense
– pondération initiale :
• 1 pour trois croix alignées
• 0 pour trois rond alignés
• 0.5 ou aléatoire pour les autres
• exploiter : aller vers les états de grande valeur
• explorer : partir au hasard
• apprendre : faire remonter un partie des valeurs de l ’état courant
vers les états précédents

0.5
exploitation
0.5 0.3
Q=0.8
exploration : aléatoire
0.8 Q’
apprentissage
Ici c’est de l’apprentissage

Qt+1 = Qt + (Qt’-Qt) par différence temporelle
Bootstrap : l ’estimation de Q dépend de l ’estimation de Q’

Q-learning : off-policy
• Pendant une simulation à chaque pas :
• Q(st,at) = Q(st,at)+*[rt+1+*maxaQ(st+1,a)-Q(st,at)]
• maxa recherche l ’action a qui permet d ’obtenir le meilleur Q
• indépendant de la politique que l ’on « joue »

Q-learning : off-Policy
Choix aléatoire : Q et s
D ’après Q (rendu « soft» temporairement)

choisir a, observer r et s ’
Contrôle du système
Q(s,a) = Q(s,a) + [r+ maxa’ Q(s’,a’)-Q(s,a)]

s = s’ amélioration de la politique
Pas la politique

Sarsa : On-Policy (s , a , r , s , a ) t t t+1 t+1 t+1
Apprentisage de Q(s,a)
Choix aléatoire : Q et s
choix de a par Q (soft)
D ’après Q (soft car « on-policy »)

appliquer a, observer r et s ’
Contrôle du système
choisir a’ (d ’après Q et s’)
Q(s,a) = Q(s,a) + [r+ Q(s’,a’)-Q(s,a)] Amélioration de la politique

s = s’ ; a = a’
Sans arrêt
Sarsa() sur un labyrinthe
• Les premiers pas sont utilisés pour évaluer Q
* * *
chemin Sarsa Sarsa()

e(t) trace d ’elligibilité d ’un état (ou
état-action)
• Sorte de facteur d’oubli
• Deux possibilités : accumulation ou replacement
accumulation replacement
e(t)
0
Passages
Module IAS - Pierre De Loor - ENIB par l’état
SARSA() : l ’algo complet (en cadeau
gratuit)
--------------------------------------------------------------
Initialize Q(s,a) arbitrarily and e(s,a)=0, for all s,a
Repeat (for each episode)
Initialize s,a
Repeat (for each step of episode)
Take action a, observe r, s’
Choose a’ from s’ using policy derived from Q (e.g., -greedy)
  r + Q(s,a ’) - Q(s,a)
e(s,a) e(s,a)+1 accumulation
For all s, a:
Q(s,a)  Q(s,a) +   e(s,a)
e(s,a)  e(s,a)
Ça c’est intéressant
s s’; a a’
until s is terminal

Apprentissage par
renforcement
perception environnement but atteint ?
modification
actions récompense
état ou
renforcement
selection
Apprentissage par exploration

trouver la meilleure action
d ’après l ’expérience passée
optimiser les récompenses
Réduire le nombre d’états ?
Condenser plusieurs états en un seul

- Capteurs locaux
- Encodage par une fonction

Problème Markovien ou pas ?
• Chaque état d’un problème Markovien :
– suffisant pour prendre les décisions
– représentent le passé de façon condensé
– propriété Markovienne
– le choix de la prochaine action à exécuter dépend juste de
l’état présent
– pas d’historique
– exemple : situation d’un jeu d’echec

Système de classeurs
1010 environnement 01
capteurs action effecteurs

état
récompense attendue
rétribution
éventuelle
#010:01 28
M (Match set)
#0##:11 12 A (Action set)
101#:01 42 #010:01 28
#0#0:11 11 #0##:11 12 #010:01 28
01#1:10 12 101#:01 42 101#:01 42
10#1:00 25 #0#0:11 11 roulette
AG renforcement interne
A-1
Renforcement des ZCS : Algorithm « Bucket
Brigade »
environnement
sceau B
Prélèvement
d ’un pourcentage br (taxe)
(exemple 10%) 2.8+4.2=7 rétribution
taux d ’apprentissage éventuelle
A A
A #010:01 28 #010:01 25.2 #010:01 27.2

101#:01 42 101#:01 37.8 101#:01 39.8
renforcement interne
taux de remise
A-1 ##10:11 5 ##10:11 5.7
11##:11 8 A-1
11##:11 9
#11#:11 9 #11#:11 10

Variante pour convergence : diminution des poids des classifieurs de M-A
ZCS
– privilégie les règles rapportant plus
– élimine les autres (oubli = surprise = « covering » = pif)
– quelle que soit leur « précision »
– n ’apprend que des environnements markovien
Perception états
Woods1 : markovien Woods100 : non markovien

Environnement non markovien : renforcer
l ’historique : ZCSM
• Codage d ’une règle
identification état interne

modification état interne
#0101, 01# : 10, #1#
identification capteurs action

Préserver les classifieurs précis :
XCS
• Privilégier les règles les plus « préçises »
• Une règle #010:01
– + 3 attributs
• prédiction (de rétribution) : utilisé pour la sélection (M-
>A)
• erreur de prédiction
• fitness (qualité/précision) : utilisé par l ’AG pour la
reproduction (faite sur A (niche))
– mise à jour : Q-learning

Systèmes de classifieurs XCS
• Apprentissage
– Prédiction : pour toutes les régles de l ’ensemble M (Match set)
Pa  
 P .F i i
F
i
i
– Définition de l ’ensemble A (roulette ou autre d ’après P(ai))

– Application de l ’action et réception de la rétribution P
– Pour tous les éléments de A, mise à jour de la prédiction :
p = p + .(P-p) [0<<1 : taux d ’apprentissage]
– Mise à jour de l ’erreur de prédiction :
• e = e+ .(|P-p|-e)
– Mise à jour de la fitness :
• F = F + .(k-F) [k fonction décroissante de e (e : F )]
Applications
• Jeux vidéos
• Robotique
• Finances / Systèmes experts

Références
• [Cor2002] Antoine Cornuéjols et Laurent Miclet, Apprentissage artificiel, concepts et algorithmes, éditions
Eyrolles, 2002.
• [Ger2002] P. Gérard, Systèmes de classeurs : étude de l’apprentissage latent, thèse de doctorat de l’université de
Paris 6.
• « Machine Learning » Tom Mitchell, McGraw-Hill, international edition, 1997.
• [pes99] Peshkin, Leonid and Meuleau, Nicolas and Kaelbling, Leslie P., Learning Policies with External
Memory,ml99, editor : Bratko, I. and Dzeroski, S, pp 307-314, 1999.
• [Ria2000] Algorithmes d ’apprentissages et applications, revue d ’intelligence artificielle, volume 14, n°3, édition
hermes, 2000
• Cédric Sanza, Evolution d ’entités virtuelles cooperatives par système de classifieurs. These de doctorat de
l ’université de Toulouse, 2001.
• [Sut2000]R.S.Sutton and A.G.Barto, Reinforcement Learning, MIT Press, 2000.
• [Ski38] B.F. Skinner, The Behavior of organisms. Appleon Century Croft, New York, 1938.
• [Thor11] Thorndike, Animal Intelligence, 1911.
• [Tol30] E.C. Tolman et C.H. Honzik. Insight in Rats. University of California Publications in Psychology, 4: 215-232,
1930.
• [Whi91] Whitehead and Ballard, Learning to Perceive and Act by Trial and Error, Machine Learning, 7, 45-83,
1991.
• Apprentissage automatique et évolution artificielle, revue extraction des connaissances et apprentissage,
Volume1, n°3, éditions hermes, 2001.
• Algorithmes d ’apprentissages et applications, revue d ’intelligence artificielle, volume 14, n°3, édition hermes,
2000.

Renforcement 2020

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Renforcement 2020

Transféré par

Droits d'auteur :

Formats disponibles

Apprentissage par renforcement

Module IAS - Pierre De Loor - ENIB

• Apprentissage d’interactions avec un

Module IAS - Pierre De Loor - ENIB

Module IAS - Pierre De Loor - ENIB

Module IAS - Pierre De Loor - ENIB

perception environnement but atteint ?

Apprentissage par exploration

Module IAS - Pierre De Loor - ENIB

Module IAS - Pierre De Loor - ENIB

• Caractérise ce qu’il faut faire ? s->a

Module IAS - Pierre De Loor - ENIB

Politique probabiliste Sortie

Module IAS - Pierre De Loor - ENIB

• V(s) Gains que je peux espérer en s

– à l ’infini : pondération ->  1 V(S) = 1 + 22

Module IAS - Pierre De Loor - ENIB

A B 3.3 8.8 4.4 5.3 1.5

+5 1.5 3.0 2.3 1.9 0.5

-1 -0.4 -0.4 -0.6 -1.2

Module IAS - Pierre De Loor - ENIB

22 24.4 22 19.4 17.5

19.8 22 19.8 17.8 16 +5 +5

Module IAS - Pierre De Loor - ENIB

Module IAS - Pierre De Loor - ENIB

Module IAS - Pierre De Loor - ENIB

Module IAS - Pierre De Loor - ENIB

– pas d’états (ou plutôt un seul)

– si ka   alors Qt(a)  Q(a)

Module IAS - Pierre De Loor - ENIB

– si  est toujours > 0 on parle de politique -soft

Module IAS - Pierre De Loor - ENIB

• Si on choisit un horizon fini :

• Si on choisi un horizon infini k-> , est-il possible d’estimer le

Module IAS - Pierre De Loor - ENIB

Module IAS - Pierre De Loor - ENIB

Module IAS - Pierre De Loor - ENIB

Ici c’est de l’apprentissage

Bootstrap : l ’estimation de Q dépend de l ’estimation de Q’

• maxa recherche l ’action a qui permet d ’obtenir le meilleur Q

• indépendant de la politique que l ’on « joue »

Module IAS - Pierre De Loor - ENIB

D ’après Q (rendu « soft» temporairement)

Q(s,a) = Q(s,a) + [r+ maxa’ Q(s’,a’)-Q(s,a)]

Module IAS - Pierre De Loor - ENIB

D ’après Q (soft car « on-policy »)

Q(s,a) = Q(s,a) + [r+ Q(s’,a’)-Q(s,a)] Amélioration de la politique

chemin Sarsa Sarsa()

Module IAS - Pierre De Loor - ENIB

Module IAS - Pierre De Loor - ENIB

perception environnement but atteint ?

Apprentissage par exploration

Condenser plusieurs états en un seul

Module IAS - Pierre De Loor - ENIB

Module IAS - Pierre De Loor - ENIB

capteurs action effecteurs

A #010:01 28 #010:01 25.2 #010:01 27.2

Module IAS - Pierre De Loor - ENIB

Woods1 : markovien Woods100 : non markovien

identification état interne

#0101, 01# : 10, #1#

identification capteurs action

Module IAS - Pierre De Loor - ENIB