Vous êtes sur la page 1sur 3

Exploitation : utiliser des connaissances acquises pour maximiser le gain à court terme

Exploration : amélioration des connaissances (gain à long terme)


Concepts fondamentaux :
- Agent / Decison-maker : système qui interagit avec un environnement
- Action : décision ou choix qu’un agent peut faire. Elle peut être simple ou
complexe (ex : l’action sauter dans un jeu vidéo)
- Etat : description de l’environnement à un moment donné. Il peut inclure des
informations sur la position de l'agent, la position des objets environnants, et
l'état des autres agents.
- Environnement : tâ che à réaliser, monde dans lequel l’agent évolue
- Récompense : valeur d’une action
L'apprentissage par renforcement est un mécanisme par lequel un agent, en
interagissant avec son environnement, acquiert la capacité de prendre des décisions
optimales afin d'optimiser les récompenses obtenues. Cela implique que l'agent doit
développer une compréhension de son environnement et choisir des actions
stratégiques pour maximiser les récompenses.
L’apprentissage par renforcement se fait dans deux environnements : réel ou
virtuel
L’objectif de RL est de maximiser le gain.
L'interaction entre l'agent et l'environnement se déroule généralement de la manière
suivante :
- L'agent se trouve dans un état donné.
- Il choisit une action parmi les actions possibles.
- L'environnement réagit à l'action de l'agent en produisant une récompense et en
faisant passer le système dans un nouvel état.
- L’agent met à jour sa politique en fonction de la récompense reçue.
L’objectif de l’agent est d’apprendre une stratégie optimale (la politique optimale : la
stratégie qui permet à l'agent d'obtenir la meilleure récompense possible sur le long
terme) au travers d’essais et d’erreurs pour maximiser son gain. Le gain est la somme
des récompenses obtenues au cours du temps.
L’agent doit dont trouver un compromis pour essayer de nouvelles actions pour
apprendre de nouvelles choses ou refaire les actions qui lui procurent les bonnes
récompenses. Ce compromis est connu sous le nom de l’équilibre entre l’exploitation et
l’exploration.
Dans le RL, deux algorithmes sont couramment utilisés :
- UCB (Upper Confidence Bound / Limite supérieure de Confiance) : Algorithme
qui permet l’équilibre entre l’exploitation et l’exploration. Il sélectionne des
actions qui sont à la fois susceptibles d'être bonnes et qui n'ont pas été
sélectionnées très souvent. C’est un bon choix pour résoudre les problèmes où il y
a beaucoup d’incertitudes sur la valeur réelle des actions.
- Q-learning est un algorithme pour résoudre des problèmes où un agent prend des
actions dans un environnement, observe les récompenses résultantes, et ajuste
ses stratégies d'action pour maximiser les récompenses futures. L'apprentissage
Q est basé sur l'idée que la valeur d'une action est égale à la récompense attendue
qui sera reçue en prenant cette action et en suivant ensuite la politique optimale.
POWERPOINT
 Agent / Decision-maker :
 Définition : Système interagissant avec un environnement.
 Action :
 Description : Décision ou choix possibles pour un agent, pouvant être
simple ou complexe (ex : action de sauter dans un jeu vidéo).
 État :
 Définition : Description de l'environnement à un moment donné, incluant
des informations sur la position de l'agent, des objets, et d'autres agents.
 Environnement :
 Concept : Tâ che à réaliser, le monde dans lequel l'agent évolue.
 Récompense :
 Signification : Valeur associée à une action, influençant les choix de l'agent.
 Apprentissage par Renforcement (RL) :
 Processus : Interaction de l'agent avec l'environnement pour acquérir la
capacité de prendre des décisions optimales.
 Objectif : Maximiser les récompenses obtenues.
 Environnements RL :
 Types : Réel ou virtuel.
 Déroulement Interaction Agent-Environnement :
 É tapes :
 L'agent se trouve dans un état donné.
 Il choisit une action parmi les options.
 L'environnement réagit, générant une récompense et un nouvel
état.
 L'agent met à jour sa politique en fonction de la récompense.
 Objectif de l'Agent :
 Objectif : Apprendre une stratégie optimale (politique optimale) pour
maximiser les récompenses à long terme.
 Équilibre Exploitation-Exploration :
 Concept : Compromis nécessaire pour essayer de nouvelles actions tout en
exploitant celles procurant de bonnes récompenses.

 UCB (Upper Confidence Bound / Limite supérieure de Confiance) :


 Objectif : É quilibre entre l'exploitation et l'exploration.
 Mécanisme : Sélectionne des actions potentiellement bénéfiques et moins
fréquemment choisies.
 Utilité : Idéal pour les problèmes avec une incertitude significative sur la
valeur réelle des actions.
 Q-learning :
 Fonctionnement : L'agent prend des actions, observe les récompenses, et
ajuste ses stratégies pour maximiser les récompenses futures.
 Principe : La valeur d'une action est égale à la récompense attendue en
suivant la politique optimale.
 Application : Résolution de problèmes où les actions impactent
l'environnement, avec ajustement continu des stratégies pour maximiser
les récompenses.

Vous aimerez peut-être aussi