Vous êtes sur la page 1sur 3

IFT-4201/IFT-7201 Énoncé de projet Page 1 of 3

Le projet inclut une présention vidéo de 10 minutes (diapositives avec narration) ainsi qu’un
rapport PDF de 4 pages (dans une archive contenant le rapport PDF et le code Python associé
avec le projet). Vous pouvez remettre la vidéo sous la forme d’un fichier MP4 ou mettre votre
vidéo en ligne sur YouTube et remettre un PDF contenant le lien vers la vidéo en question. Si
vous mettez votre vidéo en ligne sur YouTube, assurez-vous d’ajuster les permissions pour que
celle-ci puisse être ajoutée à une liste de lecture et donnez lui comme titre votre numéro d’équipe
(e.g. “Équipe 7”).
Remise présentation vidéo : Mercredi 30 novembre à 17h.
Remise rapport : Mercredi 21 décembre à 17h.

1 Instructions/lignes directices
• Équipe de 2 étudiants-es (typiquement les mêmes que pour les devoirs)
• Vidéo : 10 minutes, pas besoin de vous filmer (des diapositives avec narration sont suffisantes).

• Rapport PDF de 4 pages : Utiliser le template de https://github.com/kourgeorge/arxiv-style.


• Vos résultats devraient être reproductibles, ce qui signifie que votre code devrait inclure des instructions
claires sur la façon de reproduire vos figures et vos expériences.

Votre projet doit explorer et analyser de manière rigoureuse au moins une stratégie qui n’a pas été
envisagée dans la littérature (pour votre problème considéré). Il est donc important pour vous de tenir compte
de l’échelle du problème que vous souhaitez aborder, autant en ce qui a trait au temps d’implémentation
qu’au temps d’exécution.

2 Idées de projet
• Utiliser un algorithme existant (e.g. article récent) pour aborder une nouvelle application.
• Modifier un algorithme existant pour supporter des contraintes spécifiques.
• Explorer des sujets non-couverts en classe, e.g. tree-based bandits, bandits sur des graphs.

Les extended abstracts (4-pages) de la conférence multi-disciplinaire Reinforcement Learning and Decision
Making (RLDM) peuvent être une bonne source d’inspiration sur le format et le niveau de contribution
attendue dans les projets : http://rldm.org/talk-poster-abstracts/. De nouvelles applications peuvent
être abordées à partir de simulateurs de systèmes réels.

PySTED : Simulateur d’imagerie microscopique

• Logiciel : https://github.com/FLClab/gym-sted
• Un exemple de tâche consiste à sélectionner les paramètres d’imagerie microscopique pour acquérir
des images permettant d’identifier des structures à l’échelle nanométrique. Des stratégies de base
(baselines) sont déjà implémentées. Un projet pourrait consister à proposer une approche capable de
surpasser ces stratégies.
• Voir cet article présenté au Workshop “AI to Accelerate Science and Engineering” (AI2ASE) de la
conférence AAAI 2022.
GrowSpace : Simulateur de croissance de plantes en réponse à la lumière
• Logiciel : https://github.com/YasmeenVH/growspace
• Plusieurs tâches sont définies dans cet environment, consistant essentiellement à déplacer une source
de lumière pour faire croı̂tre une ou plusieurs plantes de manière à atteindre un but spécifique. Des
stratégies de base (baselines) sont déjà implémentées. Un projet pourrait consister à proposer une
approche capable de surpasser ces stratégies.
• Voir cet article présenté au Workshop “AI for Agriculture and Food Systems” (AIAFS) de la conférence
AAAI 2022.

gym-DSSAT : Simulateur de cultures (agroalimentaire)


• Logiciel : https://rgautron.gitlabpages.inria.fr/gym-dssat-docs/
• Quelques tâches d’optimisation de processus en agriculture sont définies dans cet environment, avec
possibilité de définir de nouvelles tâches. Des stratégies de base (baselines) sont déjà implémentées.
Un projet pourrait consister à proposer une approche capable de surpasser ces stratégies.
• Voir le rapport technique officiel du projet.
• Voir cet article publié dans la revue “Computers and Electronics in Agriculture” (2022).

3 Projets axés sur des jeux


Les jeux de table (board games) sont l’une des applications les plus marquantes de l’apprentissage par ren-
forcement (RL). On pense notamment aux stratégies AlphaZero [Silver et al., 2017], qui a vu pour la première
fois un ordinateur vaincre un champion humain au jeu de Go, ainsi que ses cousins plus récents [Schrittwieser
et al., 2019, 2021]. Il est donc assez fréquent de voir des étudiants du cours enthousiastes à l’idée de marcher
dans les pas de ces articles et choisir de baser leur projet de recherche sur des jeux de table extrêmement
complexes comme les échecs ou le Go.

Mise en garde : Rappelons que la version finale d’AlphaZero a pris près de 40 jours à entraı̂ner sur un
serveur incluant presque une centaine de cartes graphiques dédiées (GPUs). Il est donc irréaliste pour vous
de vous attaquer à des jeux de table d’envergure comme les échecs dans votre projet. Ne désespérez toutefois
pas! Les jeux de table demeurent un sujet de recherche riche qui regorge d’idées de projet fantastiques dans
une échelle qui vous conviendra.

3.1 Application à des jeux plus simples


Vous pouvez choisir d’entraı̂ner un agent à jouer à des jeux de table d’envergure plus raisonnables pour votre
projet. Ces jeux sont variés, comportant chacun leurs avenues de recherche intéressantes. Par exemple, le
jeu de Connect-four se trouve à des ordres de magnitude de la complexité des échecs. Il serait néanmoins
intéressant de voir la performance qu’il est possible d’atteindre avec des approches de RL sur ce jeu. En
particulier, pour que votre projet en soit un de recherche, vous pourriez explorer l’impact de certains choix
algorithmiques sur l’apprentissage. Enfin, certains des jeux de cette échelle possèdent une solution en forme
close connue (c’est le cas de Connect-four notamment) que vous pouvez aussi exploiter, que ce soit dans
l’apprentissage ou encore dans l’évaluation de la performance de votre modèle. Un excellent exemple de
recherche de haute qualité sur des jeux de cette envergure est présenté par Raghu et al. [2018], qui investigent
la possibilité d’apprendre en RL des jeux de Erdos-Selfridge-Spencer, pour lesquels il est possible de faire
varier la difficulté mais qui possèdent aussi une solution en forme close simple.

Page 2
3.2 Application des sous-ensembles de jeux complexes
S’il est vrai que qu’entraı̂ner un agent en RL pour des jeux de table de grande envergure est hors de la portée
de votre projet, vous n’êtes néanmoins pas condamnés à éviter ces jeux dans votre projet. En effet, vous
pouvez réduire l’échelle de vos expériences en vous attaquant à un sous-ensemble de ces jeux. Avec les échecs
par exemple, vous pourriez vous concenter sur des situations où seulement certaines pièces sont en jeu (e.g.
endgame) ou encore sur des casse-têtes (puzzle) plutôt que considérer des parties complètes. Les positions
évaluées seront bien plus simples qued dans le jeu complet et vous pourrez utiliser l’étendue des ressources
disponibles en ligne (comme Lichess1 , par exemple) pour vous lancer dans le projet.

References
Maithra Raghu, Alex Irpan, Jacob Andreas, Bobby Kleinberg, Quoc Le, and Jon Kleinberg. Can deep rein-
forcement learning solve Erdos-Selfridge-Spencer games? In Jennifer Dy and Andreas Krause, editors, Pro-
ceedings of the 35th International Conference on Machine Learning, volume 80 of Proceedings of Machine
Learning Research, pages 4238–4246, 2018. URL https://proceedings.mlr.press/v80/raghu18a.html.
Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, Karen Simonyan, Laurent Sifre, Simon Schmitt,
Arthur Guez, Edward Lockhart, Demis Hassabis, Thore Graepel, Timothy P. Lillicrap, and David Silver.
Mastering atari, go, chess and shogi by planning with a learned model. CoRR, abs/1911.08265, 2019.
URL http://arxiv.org/abs/1911.08265.
Julian Schrittwieser, Thomas Hubert, Amol Mandhane, Mohammadamin Barekatain, Ioannis Antonoglou,
and David Silver. Online and offline reinforcement learning by planning with a learned model. In M. Ran-
zato, A. Beygelzimer, Y. Dauphin, P.S. Liang, and J. Wortman Vaughan, editors, Advances in Neural
Information Processing Systems, volume 34, pages 27580–27591, 2021. URL https://proceedings.
neurips.cc/paper/2021/file/e8258e5140317ff36c7f8225a3bf9590-Paper.pdf.
David Silver, Thomas Hubert, Julian Schrittwieser, Ioannis Antonoglou, Matthew Lai, Arthur Guez, Marc
Lanctot, Laurent Sifre, Dharshan Kumaran, Thore Graepel, Timothy P. Lillicrap, Karen Simonyan, and
Demis Hassabis. Mastering chess and shogi by self-play with a general reinforcement learning algorithm.
CoRR, abs/1712.01815, 2017. URL http://arxiv.org/abs/1712.01815.

1 https://lichess.org/fr

Page 3

Vous aimerez peut-être aussi