Vous êtes sur la page 1sur 3

ETAT DE L’ART

1- L’apprentissage par renforcement profond au trading algorithmique

Dans cette etude Thibaut Th´eatea,∗ , Damien Ernsta présente une approche innovante basée
sur l'apprentissage par renforcement profond (DRL) pour résoudre les problèmes de trading
algorithmique consistant à déterminer la position de trading optimale à tout moment au
cours d'une activité de trading en bourse. Il propose une nouvelle politique de trading DRL
afin de maximiser la performance résultante du ratio de Sharpe indicateur sur un large
éventail de marchés boursiers. Dénommé l'algorithme Trading Deep Q-Network (TDQN).

L'approche DRL est inspirée de l'algorithme DQN populaire et considérablement adaptée au


trading algorithmique spécifique problème à portée de main. La formation de l'agent
d'apprentissage par renforcement (RL) qui en résulte est entièrement basée sur la génération
de trajectoires artificielles à partir d'un ensemble limité de données historiques boursières.
Afin d'évaluer objectivement les performances des stratégies de trading, le document de
recherche propose également une nouvelle méthodologie d'évaluation des performances
plus rigoureuse.

2- Deep Reinforcement Learning pour le trading

A ce qui précède Adrian Millea vient soutenir que l'apprentissage par renforcement profond
(DRL) a obtenu des résultats significatifs dans de nombreux benchmarks d'apprentissage
automatique (ML). Dans cette courte enquête, nous donnons un aperçu du DRL appliqué au
trading sur les marchés financiers dans le but de démêler les structures communes utilisées
dans la communauté commerciale utilisant le DRL, ainsi que de découvrir les problèmes
communs et les limites de ces approches. Nous incluons également un court résumé du
corpus à l'aide de Google Scholar. De plus, nous discutons de la façon dont on peut utiliser la
hiérarchie pour diviser l'espace du problème, ainsi que l'utilisation du RL basé sur un
modèle pour apprendre un modèle mondial de l'environnement commercial qui peut être
utilisé pour la prédiction. De plus, plusieurs mesures de risques ont définis et discutés, qui
fournissent non seulement un moyen de quantifier les performances de divers algorithmes,
mais ils peuvent également agir comme des mécanismes de formation de récompense
(dense) pour l'agent. Nous discutons en détail des différentes représentations
étatiques utilisées pour les marchés financiers, que nous considérons comme essentielles
pour le succès et l'efficacité de ces agents DRL. Le marché ciblé pour cette enquête est le
marché des crypto-monnaies ; les résultats de cette enquête sont doubles : premièrement,
trouver les directions les plus prometteuses pour des recherches futures et deuxièmement,
montrer comment un manque de cohérence dans la communauté peut entraver
considérablement la recherche et le développement d'agents DRL pour le commerce.

3- Approche d'apprentissage par renforcement pour le trading algorithmique de


bitcoins
Ce sujet est étudié par CHYRINE TAHRI, dans son développement on part du principe que
commerce est au cœur du commerce dans l'histoire humaine et son évolution est l'une des les
facteurs les plus significatifs dans le cours de l'humanité. Les commerçants constamment
rentables prennent chaque commerce négatif ou positif qu'ils font comme une opportunité
de s'améliorer. De plus, l'apprentissage par renforcement (RL) est un cadre dans lequel un
agent effectue des actions sur un environnement et observe le résultat immédiat ; cette
rétroaction est utilisée pour améliorer l'action suivante est effectuée et le processus
recommence. Nous explorons ce principe (RL) comme une implémentation plausible pour
un trader algorithmique, implémentant deux représentations de données tout au long de
scénarios de négociation basés sur l'apprentissage par renforcement. Le premier représente
les prix hauts, bas et de clôture en pourcentage du prix d'ouverture, dans une tentative
d'apprendre les modèles de prix. Le second a ajouté des indicateurs techniques au
observations de prix, visant à fournir des mesures plus sophistiquées qui fournissent des
informations des signaux du marché. Cette approche donne l'opportunité d'apprendre
l'analyse de marché et repérage des signaux. Les deux agents ont appris à attendre avant de
vendre leurs parts. Le meilleur résultat pour le premier agent utilisant les prix Bitcoin par
minute comme données d'entrée était d'acheter et détenir plutôt que de faire des transactions
plus courtes. Le deuxième agent s'est comporté de la même manière, mais n'a pas réaliser un
bénéfice positif. Nous avons découvert que la compréhension du marché des deux agents
était encore immature. Les correspondances entre les états du marché et les actions sont
dictées par la politique, mais le marché ne réagit pas toujours de la même manière. Les
résultats montrent un bon potentiel pour l'approche, mais les marchés financiers sont assez
vastes et complexes et la modélisation de cet environnement présente encore de nombreux
défis.

4- Prise de décision pour le trading financier : une approche de fusion de la machine

John Moody et Matthew Saffell quant a eu dans leurs approchent propose d'entraîner les
systèmes de trading en optimisant les fonctions d'objectif(cid:173) financier via
l'apprentissage par renforcement. Les fonctions de performance considérés sont le profit ou
la richesse, le ratio de Sharpe et notre ratio de Sharpe différentiel récemment proposé pour
l'apprentissage en ligne(cid:173). Dans Moody & Wu (1997), ils présentent des résultats
empiriques qui démontrent les avantages de l'apprentissage par renforcement par rapport à
l'apprentissage supervisé. Ici, ils étendent leurs travaux précédents pour comparer Q-
Learning à notre algorithme Recurrent Reinforcement Learning (RRL). Ils fournissent de
nouveaux résultats de simulation qui démontrent la présence de prévisibilité dans l'indice
boursier mensuel S&P 500 pour la période de 25 ans de 1970 à 1994,

Le but ultime de l'investisseur ou du trader est d'optimiser une mesure pertinente de la


performance du système de trading, telle que le profit, l'utilité économique ou le re(cid:173)
turn ajusté au risque. Dans cet article, ils proposent d'utiliser l'apprentissage par
renforcement récurrent pour optimiser directement ces fonctions de performance du système
commercial, et nous comparons deux méthodes d'apprentissage par renforcement
différentes. Le premier, Recurrent Reinforcement Learning, utilise des récompenses
immédiates pour former les systèmes commerciaux, tandis que le second (Q-Learning
(Watkins 1989)) se rapproche des récompenses futures actualisées. Ces méthodologies
peuvent être appliquées à l'optimisation des systèmes conçus pour échanger un seul titre ou
pour échanger des folios port(cid:173). En outre ,
Les bénéfices du système commercial dépendent de séquences de décisions
interdépendantes et dépendent donc du chemin parcouru. Les décisions commerciales
optimales lorsque les effets des coûts de transaction, de l'impact sur le marché et des taxes
sont inclus nécessitent une connaissance de l'état actuel du système. Dans Moody, Wu, Liao
& Saffell (1998), nous démontrons que l'apprentissage par renforcement fournit un moyen
plus élégant et efficace pour former les systèmes de trading lorsque les coûts de transaction
sont inclus, que les approches supervisées plus standard.

Ils présentent également les systèmes de prédiction non linéaires.

Bien que de nombreux progrès théoriques aient été réalisés ces dernières années dans le
domaine de l'apprentissage par renforcement, il y a eu relativement peu d'applications
pratiques réussies des techniques. Des exemples notables incluent Neuro-gammon (Tesauro
1989), le négociant d'actifs de Neuneier (1996), un ordonnanceur d'ascenseurs (Crites & Barto
1996) et un ordonnanceur de charge utile de navette spatiale (Zhang & Dietterich 1996).

Dans cet article, ils présentent les résultats de systèmes d'apprentissage par renforcement qui
surpassent l'indice boursier S&P 500 sur une période de test de 25 ans, démontrant ainsi la
présence d'une structure prévisible dans les cours boursiers américains. Les algorithmes
d'apprentissage par renforcement comparés ici incluent notre nouvelle méthode
d'apprentissage par renforcement récurrent (RRL) (Moody & Wu 1997, Moody et al. 1998) et
Q-Learning (Watkins 1989).

Afin d'intégrer correctement les effets des coûts de transaction, de l'impact sur le marché et
des taxes dans la prise de décision d'un commerçant, celui-ci doit disposer d'informations
d'état internes et doit donc être récurrent. Un exemple de système d'échange d'actifs unique
prenant en compte les coûts de transaction et l'impact sur le marché a la fonction de décision
suivante : Ft = F((}t ; Ft-l. It) avec It = {Zt, Zt-1, Zt-2, ··.; Yt, Yt-1, Yt-2, ... } où (}t désigne les
paramètres système (appris) à l'instant t et It désigne les informations définies à l'instant t,
qui incluent les valeurs présentes et passées du série de prix Zt et un nombre arbitraire
d'autres variables externes notées Yt. Les systèmes de négociation peuvent être optimisés en
maximisant les fonctions de performance U 0 telles que le profit, la richesse, des fonctions
d'utilité de richesse ou des ratios de performance comme le ratio de Sharpe. La fonction de
performance la plus simple et la plus naturelle pour un trader insensible au risque est le
profit. Le taux de coût des transactions est noté 6.

BILAN DES ETUDES

Tous les méthodes d'apprentissage par renforcement pour le trading algorithmique


énumérés plus haut sont des pistes d’amélioration de la rentabilité en trading. Notons que
les méthodes d’apprentissage peut-être améliorer. Cela justifie l’intérêt porté à l’amélioration
des dits systèmes.

Vous aimerez peut-être aussi