Récupération de données sur l’excel, cas où l’on vend, garde ou achète… (cf code)
Question 4
Concernant l’implémentation du Q-Learning, nous n’avons pas totalement réussi à
l’implémenter et trouver l’action optimale qui maximise notre portefeuille. En effet, l’algorithme utilise toujours des actions de façon aléatoire tandis que nous savons que l’action optimale de l’état correspond à l’argmax de celui-ci.