Académique Documents
Professionnel Documents
Culture Documents
Dans cette etude Thibaut Th´eatea,∗ , Damien Ernsta présente une approche innovante basée
sur l'apprentissage par renforcement profond (DRL) pour résoudre les problèmes de trading
algorithmique consistant à déterminer la position de trading optimale à tout moment au
cours d'une activité de trading en bourse. Il propose une nouvelle politique de trading DRL
afin de maximiser la performance résultante du ratio de Sharpe indicateur sur un large
éventail de marchés boursiers. Dénommé l'algorithme Trading Deep Q-Network (TDQN).
A ce qui précède Adrian Millea vient soutenir que l'apprentissage par renforcement profond
(DRL) a obtenu des résultats significatifs dans de nombreux benchmarks d'apprentissage
automatique (ML). Dans cette courte enquête, nous donnons un aperçu du DRL appliqué au
trading sur les marchés financiers dans le but de démêler les structures communes utilisées
dans la communauté commerciale utilisant le DRL, ainsi que de découvrir les problèmes
communs et les limites de ces approches. Nous incluons également un court résumé du
corpus à l'aide de Google Scholar. De plus, nous discutons de la façon dont on peut utiliser la
hiérarchie pour diviser l'espace du problème, ainsi que l'utilisation du RL basé sur un
modèle pour apprendre un modèle mondial de l'environnement commercial qui peut être
utilisé pour la prédiction. De plus, plusieurs mesures de risques ont définis et discutés, qui
fournissent non seulement un moyen de quantifier les performances de divers algorithmes,
mais ils peuvent également agir comme des mécanismes de formation de récompense
(dense) pour l'agent. Nous discutons en détail des différentes représentations
étatiques utilisées pour les marchés financiers, que nous considérons comme essentielles
pour le succès et l'efficacité de ces agents DRL. Le marché ciblé pour cette enquête est le
marché des crypto-monnaies ; les résultats de cette enquête sont doubles : premièrement,
trouver les directions les plus prometteuses pour des recherches futures et deuxièmement,
montrer comment un manque de cohérence dans la communauté peut entraver
considérablement la recherche et le développement d'agents DRL pour le commerce.
John Moody et Matthew Saffell quant a eu dans leurs approchent propose d'entraîner les
systèmes de trading en optimisant les fonctions d'objectif(cid:173) financier via
l'apprentissage par renforcement. Les fonctions de performance considérés sont le profit ou
la richesse, le ratio de Sharpe et notre ratio de Sharpe différentiel récemment proposé pour
l'apprentissage en ligne(cid:173). Dans Moody & Wu (1997), ils présentent des résultats
empiriques qui démontrent les avantages de l'apprentissage par renforcement par rapport à
l'apprentissage supervisé. Ici, ils étendent leurs travaux précédents pour comparer Q-
Learning à notre algorithme Recurrent Reinforcement Learning (RRL). Ils fournissent de
nouveaux résultats de simulation qui démontrent la présence de prévisibilité dans l'indice
boursier mensuel S&P 500 pour la période de 25 ans de 1970 à 1994,
Bien que de nombreux progrès théoriques aient été réalisés ces dernières années dans le
domaine de l'apprentissage par renforcement, il y a eu relativement peu d'applications
pratiques réussies des techniques. Des exemples notables incluent Neuro-gammon (Tesauro
1989), le négociant d'actifs de Neuneier (1996), un ordonnanceur d'ascenseurs (Crites & Barto
1996) et un ordonnanceur de charge utile de navette spatiale (Zhang & Dietterich 1996).
Dans cet article, ils présentent les résultats de systèmes d'apprentissage par renforcement qui
surpassent l'indice boursier S&P 500 sur une période de test de 25 ans, démontrant ainsi la
présence d'une structure prévisible dans les cours boursiers américains. Les algorithmes
d'apprentissage par renforcement comparés ici incluent notre nouvelle méthode
d'apprentissage par renforcement récurrent (RRL) (Moody & Wu 1997, Moody et al. 1998) et
Q-Learning (Watkins 1989).
Afin d'intégrer correctement les effets des coûts de transaction, de l'impact sur le marché et
des taxes dans la prise de décision d'un commerçant, celui-ci doit disposer d'informations
d'état internes et doit donc être récurrent. Un exemple de système d'échange d'actifs unique
prenant en compte les coûts de transaction et l'impact sur le marché a la fonction de décision
suivante : Ft = F((}t ; Ft-l. It) avec It = {Zt, Zt-1, Zt-2, ··.; Yt, Yt-1, Yt-2, ... } où (}t désigne les
paramètres système (appris) à l'instant t et It désigne les informations définies à l'instant t,
qui incluent les valeurs présentes et passées du série de prix Zt et un nombre arbitraire
d'autres variables externes notées Yt. Les systèmes de négociation peuvent être optimisés en
maximisant les fonctions de performance U 0 telles que le profit, la richesse, des fonctions
d'utilité de richesse ou des ratios de performance comme le ratio de Sharpe. La fonction de
performance la plus simple et la plus naturelle pour un trader insensible au risque est le
profit. Le taux de coût des transactions est noté 6.