Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Le projet inclut une présention vidéo de 10 minutes (diapositives avec narration) ainsi qu’un
rapport PDF de 4 pages (dans une archive contenant le rapport PDF et le code Python associé
avec le projet). Vous pouvez remettre la vidéo sous la forme d’un fichier MP4 ou mettre votre
vidéo en ligne sur YouTube et remettre un PDF contenant le lien vers la vidéo en question. Si
vous mettez votre vidéo en ligne sur YouTube, assurez-vous d’ajuster les permissions pour que
celle-ci puisse être ajoutée à une liste de lecture et donnez lui comme titre votre numéro d’équipe
(e.g. “Équipe 7”).
Remise présentation vidéo : Mercredi 30 novembre à 17h.
Remise rapport : Mercredi 21 décembre à 17h.
1 Instructions/lignes directices
• Équipe de 2 étudiants-es (typiquement les mêmes que pour les devoirs)
• Vidéo : 10 minutes, pas besoin de vous filmer (des diapositives avec narration sont suffisantes).
Votre projet doit explorer et analyser de manière rigoureuse au moins une stratégie qui n’a pas été
envisagée dans la littérature (pour votre problème considéré). Il est donc important pour vous de tenir compte
de l’échelle du problème que vous souhaitez aborder, autant en ce qui a trait au temps d’implémentation
qu’au temps d’exécution.
2 Idées de projet
• Utiliser un algorithme existant (e.g. article récent) pour aborder une nouvelle application.
• Modifier un algorithme existant pour supporter des contraintes spécifiques.
• Explorer des sujets non-couverts en classe, e.g. tree-based bandits, bandits sur des graphs.
Les extended abstracts (4-pages) de la conférence multi-disciplinaire Reinforcement Learning and Decision
Making (RLDM) peuvent être une bonne source d’inspiration sur le format et le niveau de contribution
attendue dans les projets : http://rldm.org/talk-poster-abstracts/. De nouvelles applications peuvent
être abordées à partir de simulateurs de systèmes réels.
• Logiciel : https://github.com/FLClab/gym-sted
• Un exemple de tâche consiste à sélectionner les paramètres d’imagerie microscopique pour acquérir
des images permettant d’identifier des structures à l’échelle nanométrique. Des stratégies de base
(baselines) sont déjà implémentées. Un projet pourrait consister à proposer une approche capable de
surpasser ces stratégies.
• Voir cet article présenté au Workshop “AI to Accelerate Science and Engineering” (AI2ASE) de la
conférence AAAI 2022.
GrowSpace : Simulateur de croissance de plantes en réponse à la lumière
• Logiciel : https://github.com/YasmeenVH/growspace
• Plusieurs tâches sont définies dans cet environment, consistant essentiellement à déplacer une source
de lumière pour faire croı̂tre une ou plusieurs plantes de manière à atteindre un but spécifique. Des
stratégies de base (baselines) sont déjà implémentées. Un projet pourrait consister à proposer une
approche capable de surpasser ces stratégies.
• Voir cet article présenté au Workshop “AI for Agriculture and Food Systems” (AIAFS) de la conférence
AAAI 2022.
Mise en garde : Rappelons que la version finale d’AlphaZero a pris près de 40 jours à entraı̂ner sur un
serveur incluant presque une centaine de cartes graphiques dédiées (GPUs). Il est donc irréaliste pour vous
de vous attaquer à des jeux de table d’envergure comme les échecs dans votre projet. Ne désespérez toutefois
pas! Les jeux de table demeurent un sujet de recherche riche qui regorge d’idées de projet fantastiques dans
une échelle qui vous conviendra.
Page 2
3.2 Application des sous-ensembles de jeux complexes
S’il est vrai que qu’entraı̂ner un agent en RL pour des jeux de table de grande envergure est hors de la portée
de votre projet, vous n’êtes néanmoins pas condamnés à éviter ces jeux dans votre projet. En effet, vous
pouvez réduire l’échelle de vos expériences en vous attaquant à un sous-ensemble de ces jeux. Avec les échecs
par exemple, vous pourriez vous concenter sur des situations où seulement certaines pièces sont en jeu (e.g.
endgame) ou encore sur des casse-têtes (puzzle) plutôt que considérer des parties complètes. Les positions
évaluées seront bien plus simples qued dans le jeu complet et vous pourrez utiliser l’étendue des ressources
disponibles en ligne (comme Lichess1 , par exemple) pour vous lancer dans le projet.
References
Maithra Raghu, Alex Irpan, Jacob Andreas, Bobby Kleinberg, Quoc Le, and Jon Kleinberg. Can deep rein-
forcement learning solve Erdos-Selfridge-Spencer games? In Jennifer Dy and Andreas Krause, editors, Pro-
ceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine
Learning Research, pages 4238–4246, 2018. URL https://proceedings.mlr.press/v80/raghu18a.html.
Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt,
Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, Timothy P. Lillicrap, and David Silver.
Mastering atari, go, chess and shogi by planning with a learned model. CoRR, abs/1911.08265, 2019.
URL http://arxiv.org/abs/1911.08265.
Julian Schrittwieser, Thomas Hubert, Amol Mandhane, Mohammadamin Barekatain, Ioannis Antonoglou,
and David Silver. Online and offline reinforcement learning by planning with a learned model. In M. Ran-
zato, A. Beygelzimer, Y. Dauphin, P.S. Liang, and J. Wortman Vaughan, editors, Advances in Neural
Information Processing Systems, volume 34, pages 27580–27591, 2021. URL https://proceedings.
neurips.cc/paper/2021/file/e8258e5140317ff36c7f8225a3bf9590-Paper.pdf.
David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc
Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy P. Lillicrap, Karen Simonyan, and
Demis Hassabis. Mastering chess and shogi by self-play with a general reinforcement learning algorithm.
CoRR, abs/1712.01815, 2017. URL http://arxiv.org/abs/1712.01815.
1 https://lichess.org/fr
Page 3