Vous êtes sur la page 1sur 2

Compte Rendu de la TP 1 : Bandits et Exploration/Exploitation

Objectifs de la Mission :
1. Créer un algorithme de bandit.

2. Comprendre l'effet d'epsilon sur l'exploration.

3. Explorer le compromis exploration/exploitation.

4. Présenter des logiciels d'apprentissage par renforcement en utilisant RL-Glue.

Contenu du TP :
Préliminaires : La TP débute par l'importation des bibliothèques nécessaires, notamment numpy,
matplotlib, RL-Glue, et d'autres spécifiques . Une introduction à RL-Glue est fournie pour faciliter la
mise en œuvre des expériences d'apprentissage par renforcement.

Section 1 : Agent Gourmand : Cette section met en œuvre un agent gourmand qui choisit l'action
avec la récompense attendue la plus élevée. Une fonction argmax personnalisée est créée pour gérer
les égalités de manière aléatoire, ainsi que l'agent ne privilégie toujours la première action en cas
d'égalité. L'agent gourmand est testé sur un banc d'essai à 10 bras à l'aide de RL-Glue. Les résultats
moyens des récompenses de l'agent gourmand sont visualisés sur plusieurs exécutions.

Interprétation : L'interprétation des résultats souligne l'importance de l'exploration/exploitation dans


le contexte des problèmes de bandits. L'agent gourmand évolue au fil des étapes, montrant comment
il s'améliore en termes de récompenses moyennes. La section conclut en soulignant que cette
mission offre une introduction pratique aux concepts d'apprentissage par renforcement, avec un
accent sur les problèmes de bandits.

Introduction à l'Agent Epsilon-Greedy : Un nouvel agent, l'Agent Epsilon-Greedy, est introduit pour
explorer une approche alternative dans la prise de décision en intégrant des actions exploratoires.
L'objectif est d'éviter d'être trop avide et de manquer la meilleure action réelle.

Implémentation de l'Agent Epsilon-Greedy : L'agent est développé en utilisant l'algorithme de la


section 2.4 du manuel. Il choisit une action en utilisant une approche "epsilon-greedy", où une action
est choisie de manière aléatoire avec une probabilité epsilon, sinon elle est choisie de manière avide.
Les valeurs d'action sont mises à jour de manière similaire à l'agent avide.

Interprétation des Résultats : Les résultats du test pour l'Agent Epsilon-Greedy sont conformes aux
attentes, confirmant que l'agent gourmand epsilon a été correctement implémenté. La comparaison
des performances avec un agent avide montre que l'agent Epsilon-Greedy surpasse l'agent avide en
explorant occasionnellement des actions aléatoires.

Variabilité des Résultats : Deux exécutions individuelles de l'Agent Epsilon-Greedy sont comparées
pour mettre en évidence la variabilité due à la nature aléatoire de l'environnement et des politiques
epsilon-gourmandes. Les trajectoires divergentes en raison de la séquence d'actions aléatoires,
influençant ainsi les résultats.

RIADH HASNAOUI 1
Importance de la Moyenne : L'agent est évalué sur plus de 2000 cours pour obtenir une évaluation
statistiquement significative de ses performances, atténuant l'impact de la stochasticité inhérente à
l'exploration et assurant des résultats fiables et généralisables.

Conclusion : En conclusion, l'Agent Epsilon-Greedy offre une approche équilibrée entre exploration et
exploitation, améliorant significativement sa capacité à découvrir des actions optimales à long terme
par rapport à un agent purement avide.

Section 3 : Comparaison des Valeurs d'Epsilon : Cette section vise à évaluer les performances de
l'algorithme epsilon-greedy avec différentes valeurs d'epsilon (0.0, 0.01, 0.1, et 0.4). Les résultats sont
représentés graphiquement, et les lecteurs sont invités à réfléchir aux performances relatives des
valeurs d'epsilon lors du quiz pratique.

Section 4 : L'Effet de la Taille du Pas : La section explore l'effet de la taille du pas sur les performances
de l'agent. Un nouvel agent, l'EpsilonGreedyAgentConstantStepsize, est présenté. L'expérimentation
avec différentes tailles de pas met en évidence la nécessité de choisir judicieusement la taille du pas
en fonction des caractéristiques du problème, en particulier en tenant compte de la non-
stationnarité. Les performances des agents sont représentées graphiquement.

Conclusion finale :

Le TP vise à donner une compréhension pratique des concepts clés de l'apprentissage par
renforcement, en mettant l'accent sur des paramètres tels que epsilon et la taille du pas. La réflexion
sur les choix de paramètres et la compréhension de la non-stationnarité sont également soulignées
comme des aspects cruciaux de la conception d'algorithmes d'apprentissage par renforcement.

RIADH HASNAOUI 2

Vous aimerez peut-être aussi