Académique Documents
Professionnel Documents
Culture Documents
ETAT DE L’ART
CHYRINE TAHRI propose un modèle basé sur de l’apprentissage par renforcement développé
en 4 phases: data analysis, train agent in simulation, simulation & paper trading et live trading.
Analyse des données (Data analysis):
Une analyse exploratoire des données est effectuée pour trouver des opportunités
commerciales. Nous pouvons Nous pouvons examiner différents graphiques, calculer des
statistiques sur les données, etc. Le résultat de cette étape est une Le résultat de cette étape
est une idée de stratégie de trading qui doit être validée. En d'autres termes, nous décidons le
paradigme de la stratégie.
Former l'agent en simulation (Train agent in simulation):
C'est ici que l'agent apprend. Cela se fait dans un environnement de simulation sur des
données historiques pour développer la politique. Auparavant, nous avions besoin d'étapes
distinctes de backtesting et d'optimisation des paramètres parce que nos stratégies ne
prenaient guère en compte les facteurs environnementaux tels que la liquidité, les structures de
frais et les latences pendant la phase supervisée. ment comme la liquidité, les structures de
frais et les latences pendant l'approche supervisée. supervisée.
Simulation et négociation sur papier (Simulation & paper trading):
La simulation est effectuée sur les nouvelles données du marché, en temps réel, avant que la
stratégie ne soit mise en ligne. soit mise en ligne. C'est ce que l'on appelle le paper trading, qui
permet d'éviter l'overfitting. La stratégie n'est déployée dans un environnement réel que si elle
donne de bons résultats.
Négociation en direct (Live trading):
La stratégie fonctionne désormais en direct sur une bourse.
Le prix d'ouverture est le prix auquel l'action a été achetée et le prix de clôture est le prix de
clôture de l'observation en cours. Voici un exemple: si l'agent a acheté une action à 100 $ et l'a
vendue à 110 $, la récompense qu'il obtiendrait est : (110-100)/100 = 0,1 Cela signifie que ,
l'agent a réalisé un bénéfice positif de 10 % sur cette transaction.
À un pas de temps t, l'agent observe l'état de l'environnement, choisit l'action dans l'ensemble
des actions et reçoit la récompense. Il dispose d'une mémoire et d'un cerveau. La mémoire
stocke ses expériences de transactions et elle s'enrichit au fur et à mesure de l'apprentissage. Il
stocke ces informations à travers des itérations d'exploration et d'exploitation. La mémoire
contient une liste au format (état, action, récompense, état suivant). Le cerveau est le réseau
neuronal qui s'entraîne à partir de la mémoire (c'est-à-dire des expériences passées). Compte
tenu de l'état actuel, il prédit la prochaine action optimale.Le cerveau est divisé en deux
réseaux, l'un pour calculer les valeurs d'état et l'autre pour calculer les avantages de l'action.
Les deux valeurs calculées sont ensuite combinées en une seule valeur Q. Cette valeur décrit
l'utilité de l'action choisie pour obtenir une récompense future.
En ce qui concerne le traitement de la donnée, deux approches ont été effectuées: Prix en
pourcentage de la variation, Prix avec indicateurs techniques.
Le premier représente les prix hauts, bas et de clôture en pourcentage du prix d'ouverture, dans
une tentative d'apprendre les modèles de prix. Le second a ajouté des indicateurs techniques
aux observations de prix, visant à fournir des mesures plus sophistiquées qui fournissent des
informations des signaux du marché. Cette approche donne l'opportunité d'apprendre l'analyse
de marché et repérage des signaux. Les deux agents ont appris à attendre avant de vendre
leurs parts. Le meilleur résultat pour le premier agent utilisant les prix Bitcoin par minute comme
données d'entrée était d'acheter et détenir plutôt que de faire des transactions plus courtes. Le
deuxième agent s'est comporté de la même manière, mais n'a pas réalisé un bénéfice positif.
Nous avons découvert que la compréhension du marché des deux agents était encore
immature. Les correspondances entre les états du marché et les actions sont dictées par la
politique, mais le marché ne réagit pas toujours de la même manière. Les résultats montrent un
bon potentiel pour l'approche, mais les marchés financiers sont assez vastes et complexes et la
modélisation de cet environnement présente encore de nombreux défis.
En résumé, la première approche a montré des performances relativement positives, avec une
augmentation du profit au fil du temps sur les données de test et de validation (2017, 2018),
bien que des difficultés aient été rencontrées sur les données de 2019. En revanche, la
deuxième approche a montré des difficultés à réaliser des profits positifs de manière cohérente,
avec des résultats négatifs sur les données de test et de validation.
Dans une thèse TALLA Kuate Rodrigue, propose l'utilisation de techniques d'apprentissage
par renforcement pour développer des agents commerciaux adaptatifs et met en avant une
nouvelle architecture logicielle basée sur le processus de décision semi-Markov et sur un cadre
innovant de transfert de connaissances. Pour évaluer l’approche, les modèles sont développés
sont testés dans des simulations de marché internationalement connues et leurs
comportements lors de l'achat et/ou de la vente sur les marchés sont analysés. L'approche
proposée s'est avérée améliorer l'adaptation de l'agent commercial à un marché spécifique et
permettre la portabilité de ses connaissances dans de nouveaux marchés.
La première contribution consiste à proposer une architecture globale des agents de trading
basée sur un formalisme SMDP, mettant en avant les avantages tels que l'autonomie, la
réactivité, la proactivité, l'adaptation, la scalabilité et la portabilité. Cette architecture vise à
développer des structures de raisonnement adaptatives, évolutives et portables.
Thibaut Théate, et Damien Ernsta présentent une approche innovante basée sur
l'apprentissage par renforcement profond (DRL) pour résoudre les problèmes de trading
algorithmique consistant à déterminer la position de trading optimale à tout moment au cours
d'une activité de trading en bourse. Il propose une nouvelle politique de trading DRL afin de
maximiser la performance résultante du ratio de Sharpe indicateur sur un large éventail de
marchés boursiers. L'algorithme présenté est le Trading Deep Q-Network (TDQN).
Cependant, les performances de l'algorithme TDQN pourraient encore être améliorées, tant
d'un point de vue de généralisation que de reproductibilité, pour n'en citer que quelques-uns.
Plusieurs pistes de recherche sont suggérées pour améliorer la solution DRL, telles que
l'utilisation de couches LSTM (Long Short-Term Memory) dans le réseau neuronal profond, ce
qui devrait aider à mieux traiter les séries temporelles financières. Un autre exemple est la prise
en compte des nombreuses améliorations mises en œuvre dans l'algorithme Rainbow, qui sont
détaillées dans des travaux antérieurs. Une autre piste de recherche intéressante consiste à
comparer l'algorithme TDQN avec des algorithmes de DRL d'optimisation de politique tels que
l'optimisation de politique proximale (PPO).
John Moody and Matthew Saffell ont utilisé l'apprentissage par renforcement pour entraîner
des systèmes de trading (QTrader er RRL) dans le but d'optimiser des fonctions objectives
financières, notamment le ratio de Sharpe différentiel. Ils ont également mené une étude
démontrant la présence de prévisibilité dans l'indice boursier S&P 500 sur une période de 25
ans, de 1970 à 1994.
Les résultats obtenus confirment que le système de trading "RRL" basé sur l'apprentissage par
renforcement surpasse significativement les systèmes entraînés à l'aide de méthodes
supervisées. Cependant, le système "Qtrader" basé sur l'algorithme de Q-learning ne performe
pas aussi bien que le système "RRL" dans le problème d'allocation d'actifs S&P 500 / TBill,
peut-être en raison de sa fréquence de trading plus élevée.
En outre, une analyse de sensibilité a été réalisée sur les systèmes de trading, révélant
l'influence de certaines variables liées aux taux d'intérêt sur les décisions d'allocation d'actifs.
Les résultats montrent également que ces influences présentent une non-stationnarité dans le
temps, ce qui souligne l'importance de tenir compte de l'évolution des variables économiques.
En conclusion, cet article met en évidence les avantages de l'apprentissage par renforcement
dans le domaine du trading algorithmique, en particulier pour la gestion d'actifs. Il soulève
également des pistes de recherche futures, telles que l'utilisation de techniques avancées
d'apprentissage par renforcement et l'exploration de l'incorporation de distributions pour mieux
gérer l'incertitude et le risque.