Etat de L'art

AHADIN Stéphane
HOUNDJO Prince Le Bon
Thème: Optimisation de la rentabilité dans le trading à l’aide de l’intelligence artificielle
ETAT DE L’ART
CHYRINE TAHRI propose un modèle basé sur de l’apprentissage par renforcement développé
en 4 phases: data analysis, train agent in simulation, simulation & paper trading et live trading.
Analyse des données (Data analysis):
Une analyse exploratoire des données est effectuée pour trouver des opportunités
commerciales. Nous pouvons Nous pouvons examiner différents graphiques, calculer des
statistiques sur les données, etc. Le résultat de cette étape est une Le résultat de cette étape
est une idée de stratégie de trading qui doit être validée. En d'autres termes, nous décidons le
paradigme de la stratégie.
Former l'agent en simulation (Train agent in simulation):
C'est ici que l'agent apprend. Cela se fait dans un environnement de simulation sur des
données historiques pour développer la politique. Auparavant, nous avions besoin d'étapes
distinctes de backtesting et d'optimisation des paramètres parce que nos stratégies ne
prenaient guère en compte les facteurs environnementaux tels que la liquidité, les structures de
frais et les latences pendant la phase supervisée. ment comme la liquidité, les structures de
frais et les latences pendant l'approche supervisée. supervisée.
Simulation et négociation sur papier (Simulation & paper trading):
La simulation est effectuée sur les nouvelles données du marché, en temps réel, avant que la
stratégie ne soit mise en ligne. soit mise en ligne. C'est ce que l'on appelle le paper trading, qui
permet d'éviter l'overfitting. La stratégie n'est déployée dans un environnement réel que si elle
donne de bons résultats.
Négociation en direct (Live trading):
La stratégie fonctionne désormais en direct sur une bourse.
Le modèle implémenté possède les éléments du diagramme suivant:

Une étape effectuée par l'agent se déroule comme suit : une action est choisie, soit
aléatoirement, soit à partir de l'expérience, la récompense est reçue, un drapeau "fait" est
donné et la nouvelle observation est définie.
Étant donné que le trading et les tâches d'apprentissage par renforcement consistent à
maximiser le gain, la fonction de récompense intuitive serait le montant d'argent que l'agent
gagne ou perd lorsqu'il effectue une transaction. Le bénéfice net de cette peut être positif ou
négatif. Il s'agit du signal de récompense. Au fur et à mesure que l'agent maximise la
récompense cumulative totale, il apprend à réaliser des transactions rentables. Cette fonction
de récompense est techniquement correcte et conduit à la politique optimale. Ils ont choisi la
fonction de récompense suivante:
Le prix d'ouverture est le prix auquel l'action a été achetée et le prix de clôture est le prix de
clôture de l'observation en cours. Voici un exemple: si l'agent a acheté une action à 100 $ et l'a
vendue à 110 $, la récompense qu'il obtiendrait est : (110-100)/100 = 0,1 Cela signifie que ,
l'agent a réalisé un bénéfice positif de 10 % sur cette transaction.
À un pas de temps t, l'agent observe l'état de l'environnement, choisit l'action dans l'ensemble
des actions et reçoit la récompense. Il dispose d'une mémoire et d'un cerveau. La mémoire
stocke ses expériences de transactions et elle s'enrichit au fur et à mesure de l'apprentissage. Il
stocke ces informations à travers des itérations d'exploration et d'exploitation. La mémoire
contient une liste au format (état, action, récompense, état suivant). Le cerveau est le réseau
neuronal qui s'entraîne à partir de la mémoire (c'est-à-dire des expériences passées). Compte
tenu de l'état actuel, il prédit la prochaine action optimale.Le cerveau est divisé en deux
réseaux, l'un pour calculer les valeurs d'état et l'autre pour calculer les avantages de l'action.
Les deux valeurs calculées sont ensuite combinées en une seule valeur Q. Cette valeur décrit
l'utilité de l'action choisie pour obtenir une récompense future.
En ce qui concerne le traitement de la donnée, deux approches ont été effectuées: Prix en
pourcentage de la variation, Prix avec indicateurs techniques.
Le premier représente les prix hauts, bas et de clôture en pourcentage du prix d'ouverture, dans
une tentative d'apprendre les modèles de prix. Le second a ajouté des indicateurs techniques
aux observations de prix, visant à fournir des mesures plus sophistiquées qui fournissent des
informations des signaux du marché. Cette approche donne l'opportunité d'apprendre l'analyse
de marché et repérage des signaux. Les deux agents ont appris à attendre avant de vendre
leurs parts. Le meilleur résultat pour le premier agent utilisant les prix Bitcoin par minute comme
données d'entrée était d'acheter et détenir plutôt que de faire des transactions plus courtes. Le
deuxième agent s'est comporté de la même manière, mais n'a pas réalisé un bénéfice positif.
Nous avons découvert que la compréhension du marché des deux agents était encore
immature. Les correspondances entre les états du marché et les actions sont dictées par la
politique, mais le marché ne réagit pas toujours de la même manière. Les résultats montrent un
bon potentiel pour l'approche, mais les marchés financiers sont assez vastes et complexes et la
modélisation de cet environnement présente encore de nombreux défis.
En résumé, la première approche a montré des performances relativement positives, avec une
augmentation du profit au fil du temps sur les données de test et de validation (2017, 2018),
bien que des difficultés aient été rencontrées sur les données de 2019. En revanche, la
deuxième approche a montré des difficultés à réaliser des profits positifs de manière cohérente,
avec des résultats négatifs sur les données de test et de validation.
Dans une thèse TALLA Kuate Rodrigue, propose l'utilisation de techniques d'apprentissage
par renforcement pour développer des agents commerciaux adaptatifs et met en avant une
nouvelle architecture logicielle basée sur le processus de décision semi-Markov et sur un cadre
innovant de transfert de connaissances. Pour évaluer l’approche, les modèles sont développés
sont testés dans des simulations de marché internationalement connues et leurs
comportements lors de l'achat et/ou de la vente sur les marchés sont analysés. L'approche
proposée s'est avérée améliorer l'adaptation de l'agent commercial à un marché spécifique et
permettre la portabilité de ses connaissances dans de nouveaux marchés.
La thèse apporte trois contributions principales dans la conception d'un modèle de

raisonnement basé sur des formalismes SMDP (Processus de Décision Markovien
Semi-Markovien) pour les agents de trading évoluant dans un environnement de marché
multi-agent.
La première contribution consiste à proposer une architecture globale des agents de trading
basée sur un formalisme SMDP, mettant en avant les avantages tels que l'autonomie, la
réactivité, la proactivité, l'adaptation, la scalabilité et la portabilité. Cette architecture vise à
développer des structures de raisonnement adaptatives, évolutives et portables.
La deuxième contribution concerne la conception de plusieurs moteurs de raisonnement basés

sur des (S)MDP pour le trading d'électricité dans l'environnement Power TAC. Différents
moteurs de raisonnement ont été implémentés pour minimiser les coûts d'approvisionnement à
court terme, l'excédent d'électricité et optimiser le partage du marché et le profit. Ces moteurs
utilisent des approches d'apprentissage par renforcement telles que Monte Carlo, HAM, MAXQ
et SARSA(λ ) pour résoudre les problèmes de décision. Les résultats montrent que les agents
basés sur ces moteurs obtiennent de bons résultats dans des environnements volatils et
concurrentiels.
La troisième contribution concerne la modélisation d'un cadre de transfert de connaissances qui

permet à un agent de réutiliser ses compétences acquises dans de nouveaux marchés sans
avoir à réapprendre à trader à partir de zéro. Ce cadre combine deux approches de transfert de
connaissances (les correspondances inter-tâches et centrées sur l'agent) pour définir un
raisonnement qui peut être réutilisé dans de nouveaux environnements. Les résultats montrent
que l'agent AstonTAC est capable d'utiliser le même système de raisonnement pour agir dans
des marchés d'électricité et de matériel informatique.
En résumé, cette thèse propose une architecture de trading basée sur des formalismes SMDP,
avec des moteurs de raisonnement spécifiques. De plus, elle introduit un cadre de transfert de
connaissances pour réutiliser les compétences acquises dans de nouveaux marchés. Les
résultats expérimentaux montrent que les agents basés sur ces approches obtiennent de bons
résultats dans des environnements complexes et concurrentiels.
Thibaut Théate, et Damien Ernsta présentent une approche innovante basée sur
l'apprentissage par renforcement profond (DRL) pour résoudre les problèmes de trading
algorithmique consistant à déterminer la position de trading optimale à tout moment au cours
d'une activité de trading en bourse. Il propose une nouvelle politique de trading DRL afin de
maximiser la performance résultante du ratio de Sharpe indicateur sur un large éventail de
marchés boursiers. L'algorithme présenté est le Trading Deep Q-Network (TDQN).
L'approche DRL est inspirée de l'algorithme DQN populaire et considérablement adaptée au

trading algorithmique spécifique problème à portée de main. La formation de l'agent
d'apprentissage par renforcement (RL) qui en résulte est entièrement basée sur la génération
de trajectoires artificielles à partir d'un ensemble limité de données historiques boursières.
Après une évaluation de performance rigoureuse, cette stratégie de trading innovante obtient
des résultats prometteurs, surpassant en moyenne les stratégies de trading de référence. De
plus, l'algorithme TDQN présente plusieurs avantages par rapport aux approches plus
classiques, tels qu'une versatilité appréciable et une robustesse remarquable face à divers
coûts de trading. De plus, cette approche basée sur les données présente l'avantage majeur de
supprimer la tâche complexe de définir des règles explicites adaptées aux marchés financiers
considérés.
Cependant, les performances de l'algorithme TDQN pourraient encore être améliorées, tant
d'un point de vue de généralisation que de reproductibilité, pour n'en citer que quelques-uns.
Plusieurs pistes de recherche sont suggérées pour améliorer la solution DRL, telles que
l'utilisation de couches LSTM (Long Short-Term Memory) dans le réseau neuronal profond, ce
qui devrait aider à mieux traiter les séries temporelles financières. Un autre exemple est la prise
en compte des nombreuses améliorations mises en œuvre dans l'algorithme Rainbow, qui sont
détaillées dans des travaux antérieurs. Une autre piste de recherche intéressante consiste à
comparer l'algorithme TDQN avec des algorithmes de DRL d'optimisation de politique tels que
l'optimisation de politique proximale (PPO).
John Moody and Matthew Saffell ont utilisé l'apprentissage par renforcement pour entraîner
des systèmes de trading (QTrader er RRL) dans le but d'optimiser des fonctions objectives
financières, notamment le ratio de Sharpe différentiel. Ils ont également mené une étude
démontrant la présence de prévisibilité dans l'indice boursier S&P 500 sur une période de 25
ans, de 1970 à 1994.
Les résultats obtenus confirment que le système de trading "RRL" basé sur l'apprentissage par
renforcement surpasse significativement les systèmes entraînés à l'aide de méthodes
supervisées. Cependant, le système "Qtrader" basé sur l'algorithme de Q-learning ne performe
pas aussi bien que le système "RRL" dans le problème d'allocation d'actifs S&P 500 / TBill,
peut-être en raison de sa fréquence de trading plus élevée.
En outre, une analyse de sensibilité a été réalisée sur les systèmes de trading, révélant
l'influence de certaines variables liées aux taux d'intérêt sur les décisions d'allocation d'actifs.
Les résultats montrent également que ces influences présentent une non-stationnarité dans le
temps, ce qui souligne l'importance de tenir compte de l'évolution des variables économiques.
En conclusion, cet article met en évidence les avantages de l'apprentissage par renforcement
dans le domaine du trading algorithmique, en particulier pour la gestion d'actifs. Il soulève
également des pistes de recherche futures, telles que l'utilisation de techniques avancées
d'apprentissage par renforcement et l'exploration de l'incorporation de distributions pour mieux
gérer l'incertitude et le risque.

Etat de L'art

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Etat de L'art

Transféré par

Droits d'auteur :

Formats disponibles

AHADIN Stéphane

HOUNDJO Prince Le Bon

Thème: Optimisation de la rentabilité dans le trading à l’aide de l’intelligence artificielle

Le modèle implémenté possède les éléments du diagramme suivant:

La thèse apporte trois contributions principales dans la conception d'un modèle de

La deuxième contribution concerne la conception de plusieurs moteurs de raisonnement basés

La troisième contribution concerne la modélisation d'un cadre de transfert de connaissances qui

L'approche DRL est inspirée de l'algorithme DQN populaire et considérablement adaptée au

Vous aimerez peut-être aussi