Exploitation : utiliser des connaissances acquises pour maximiser le gain à court terme
Exploration : amélioration des connaissances (gain à long terme)
Concepts fondamentaux : - Agent / Decison-maker : système qui interagit avec un environnement - Action : décision ou choix qu’un agent peut faire. Elle peut être simple ou complexe (ex : l’action sauter dans un jeu vidéo) - Etat : description de l’environnement à un moment donné. Il peut inclure des informations sur la position de l'agent, la position des objets environnants, et l'état des autres agents. - Environnement : tâ che à réaliser, monde dans lequel l’agent évolue - Récompense : valeur d’une action L'apprentissage par renforcement est un mécanisme par lequel un agent, en interagissant avec son environnement, acquiert la capacité de prendre des décisions optimales afin d'optimiser les récompenses obtenues. Cela implique que l'agent doit développer une compréhension de son environnement et choisir des actions stratégiques pour maximiser les récompenses. L’apprentissage par renforcement se fait dans deux environnements : réel ou virtuel L’objectif de RL est de maximiser le gain. L'interaction entre l'agent et l'environnement se déroule généralement de la manière suivante : - L'agent se trouve dans un état donné. - Il choisit une action parmi les actions possibles. - L'environnement réagit à l'action de l'agent en produisant une récompense et en faisant passer le système dans un nouvel état. - L’agent met à jour sa politique en fonction de la récompense reçue. L’objectif de l’agent est d’apprendre une stratégie optimale (la politique optimale : la stratégie qui permet à l'agent d'obtenir la meilleure récompense possible sur le long terme) au travers d’essais et d’erreurs pour maximiser son gain. Le gain est la somme des récompenses obtenues au cours du temps. L’agent doit dont trouver un compromis pour essayer de nouvelles actions pour apprendre de nouvelles choses ou refaire les actions qui lui procurent les bonnes récompenses. Ce compromis est connu sous le nom de l’équilibre entre l’exploitation et l’exploration. Dans le RL, deux algorithmes sont couramment utilisés : - UCB (Upper Confidence Bound / Limite supérieure de Confiance) : Algorithme qui permet l’équilibre entre l’exploitation et l’exploration. Il sélectionne des actions qui sont à la fois susceptibles d'être bonnes et qui n'ont pas été sélectionnées très souvent. C’est un bon choix pour résoudre les problèmes où il y a beaucoup d’incertitudes sur la valeur réelle des actions. - Q-learning est un algorithme pour résoudre des problèmes où un agent prend des actions dans un environnement, observe les récompenses résultantes, et ajuste ses stratégies d'action pour maximiser les récompenses futures. L'apprentissage Q est basé sur l'idée que la valeur d'une action est égale à la récompense attendue qui sera reçue en prenant cette action et en suivant ensuite la politique optimale. POWERPOINT Agent / Decision-maker : Définition : Système interagissant avec un environnement. Action : Description : Décision ou choix possibles pour un agent, pouvant être simple ou complexe (ex : action de sauter dans un jeu vidéo). État : Définition : Description de l'environnement à un moment donné, incluant des informations sur la position de l'agent, des objets, et d'autres agents. Environnement : Concept : Tâ che à réaliser, le monde dans lequel l'agent évolue. Récompense : Signification : Valeur associée à une action, influençant les choix de l'agent. Apprentissage par Renforcement (RL) : Processus : Interaction de l'agent avec l'environnement pour acquérir la capacité de prendre des décisions optimales. Objectif : Maximiser les récompenses obtenues. Environnements RL : Types : Réel ou virtuel. Déroulement Interaction Agent-Environnement : É tapes : L'agent se trouve dans un état donné. Il choisit une action parmi les options. L'environnement réagit, générant une récompense et un nouvel état. L'agent met à jour sa politique en fonction de la récompense. Objectif de l'Agent : Objectif : Apprendre une stratégie optimale (politique optimale) pour maximiser les récompenses à long terme. Équilibre Exploitation-Exploration : Concept : Compromis nécessaire pour essayer de nouvelles actions tout en exploitant celles procurant de bonnes récompenses.
Objectif : É quilibre entre l'exploitation et l'exploration. Mécanisme : Sélectionne des actions potentiellement bénéfiques et moins fréquemment choisies. Utilité : Idéal pour les problèmes avec une incertitude significative sur la valeur réelle des actions. Q-learning : Fonctionnement : L'agent prend des actions, observe les récompenses, et ajuste ses stratégies pour maximiser les récompenses futures. Principe : La valeur d'une action est égale à la récompense attendue en suivant la politique optimale. Application : Résolution de problèmes où les actions impactent l'environnement, avec ajustement continu des stratégies pour maximiser les récompenses.