Académique Documents
Professionnel Documents
Culture Documents
Objectifs de la Mission :
1. Créer un algorithme de bandit.
Contenu du TP :
Préliminaires : La TP débute par l'importation des bibliothèques nécessaires, notamment numpy,
matplotlib, RL-Glue, et d'autres spécifiques . Une introduction à RL-Glue est fournie pour faciliter la
mise en œuvre des expériences d'apprentissage par renforcement.
Section 1 : Agent Gourmand : Cette section met en œuvre un agent gourmand qui choisit l'action
avec la récompense attendue la plus élevée. Une fonction argmax personnalisée est créée pour gérer
les égalités de manière aléatoire, ainsi que l'agent ne privilégie toujours la première action en cas
d'égalité. L'agent gourmand est testé sur un banc d'essai à 10 bras à l'aide de RL-Glue. Les résultats
moyens des récompenses de l'agent gourmand sont visualisés sur plusieurs exécutions.
Introduction à l'Agent Epsilon-Greedy : Un nouvel agent, l'Agent Epsilon-Greedy, est introduit pour
explorer une approche alternative dans la prise de décision en intégrant des actions exploratoires.
L'objectif est d'éviter d'être trop avide et de manquer la meilleure action réelle.
Interprétation des Résultats : Les résultats du test pour l'Agent Epsilon-Greedy sont conformes aux
attentes, confirmant que l'agent gourmand epsilon a été correctement implémenté. La comparaison
des performances avec un agent avide montre que l'agent Epsilon-Greedy surpasse l'agent avide en
explorant occasionnellement des actions aléatoires.
Variabilité des Résultats : Deux exécutions individuelles de l'Agent Epsilon-Greedy sont comparées
pour mettre en évidence la variabilité due à la nature aléatoire de l'environnement et des politiques
epsilon-gourmandes. Les trajectoires divergentes en raison de la séquence d'actions aléatoires,
influençant ainsi les résultats.
RIADH HASNAOUI 1
Importance de la Moyenne : L'agent est évalué sur plus de 2000 cours pour obtenir une évaluation
statistiquement significative de ses performances, atténuant l'impact de la stochasticité inhérente à
l'exploration et assurant des résultats fiables et généralisables.
Conclusion : En conclusion, l'Agent Epsilon-Greedy offre une approche équilibrée entre exploration et
exploitation, améliorant significativement sa capacité à découvrir des actions optimales à long terme
par rapport à un agent purement avide.
Section 3 : Comparaison des Valeurs d'Epsilon : Cette section vise à évaluer les performances de
l'algorithme epsilon-greedy avec différentes valeurs d'epsilon (0.0, 0.01, 0.1, et 0.4). Les résultats sont
représentés graphiquement, et les lecteurs sont invités à réfléchir aux performances relatives des
valeurs d'epsilon lors du quiz pratique.
Section 4 : L'Effet de la Taille du Pas : La section explore l'effet de la taille du pas sur les performances
de l'agent. Un nouvel agent, l'EpsilonGreedyAgentConstantStepsize, est présenté. L'expérimentation
avec différentes tailles de pas met en évidence la nécessité de choisir judicieusement la taille du pas
en fonction des caractéristiques du problème, en particulier en tenant compte de la non-
stationnarité. Les performances des agents sont représentées graphiquement.
Conclusion finale :
Le TP vise à donner une compréhension pratique des concepts clés de l'apprentissage par
renforcement, en mettant l'accent sur des paramètres tels que epsilon et la taille du pas. La réflexion
sur les choix de paramètres et la compréhension de la non-stationnarité sont également soulignées
comme des aspects cruciaux de la conception d'algorithmes d'apprentissage par renforcement.
RIADH HASNAOUI 2