Ludkovski 2023 Statistical Machine Learning For Quantitative Finance

Machine Translated by Google
Revue annuelle des statistiques et de leur application
Apprentissage automatique statistique pour la
finance quantitative
M. Ludkovski
Département de statistiques et de probabilités appliquées, Université de Californie, Santa Barbara,
Californie, ÉtatsUnis ; email : ludkovski@pstat.ucsb.edu
sèccA
.nnA
Année. Tour. Stat. Appl. 2023. 10:27195

Substituts de
Publié pour la première fois sous forme de revue préalable sur
mots clés , apprentissage automatique en finance, tarification d’options paramétriques
22 novembre 2022
La Revue annuelle des statistiques et son application est en ligne sur Abstrait
Statistics.annualreviews.org
Nous étudions l'interface active des méthodes d'apprentissage statistique et des modèles financiers
https://doi.org/10.1146/annurevstatistics032921
042409 quantitatifs. Nous nous concentrons sur l’utilisation de substituts statistiques, également appelés
approximateurs fonctionnels, pour apprendre les relations entréessorties pertinentes pour les tâches
Copyright © 2023 par le(s) auteur(s). Ce travail est sous licence
financières. Compte tenu de la terminologie disparate utilisée par les statisticiens et les mathématiciens
internationale Creative Commons Attribution 4.0, qui permet une
financiers, nous commençons par passer en revue les principaux ingrédients de la construction de substitution
utilisation, une distribution et une reproduction sans restriction sur
n'importe quel support, à condition que l'auteur et la source originaux et les tâches financières motivantes.
soient crédités.
Nous résumons ensuite les principaux types de substituts, notamment les réseaux neuronaux (profonds),
Consultez les lignes de crédit des images ou d’autres éléments
tiers dans cet article pour obtenir des informations sur la licence. les processus gaussiens, les machines d'amplification de gradient, les splines de lissage et les polynômes
de Chebyshev. La seconde moitié de l'article approfondit les principales applications de l'apprentissage
statistique en finance, couvrant (a) la tarification paramétrique des options, (b) l'apprentissage de la surface
de volatilité implicite/locale, (c) l'apprentissage des sensibilités des options, (d) l'apprentissage des la
tarification des options et (e) l’étalonnage du modèle.
Nous détaillons également brièvement l'apprentissage statistique pour le contrôle stochastique et
l'apprentissage par renforcement, deux domaines de recherche qui explosent en popularité dans le domaine quantitatif.
finance.
271
1. INTRODUCTION
La finance quantitative (QF) concerne les cadres de gestion des activités commerciales sur les marchés financiers. La pierre
angulaire du QF moderne consiste en des modèles stochastiques qui visent à capturer les phénomènes aléatoires omniprésents sur
les marchés. Un modèle QF typique spécifie la dynamique stochastique du système d'intérêt (par exemple, le cours d'une action
particulière) et pose ensuite des tâches particulières pour ce système (par exemple, couvrir un contrat financier). À un niveau abstrait,
le modèle définit un processus de génération de données et le modélisateur manipule les quantités liées à ce processus. Cette
perspective met en évidence les multiples liens entre QF et la conception et l’analyse d’expériences informatiques (DACE). Comme
dans DACE, l'objectif fondamental de la modélisation dans QF est de capturer les caractéristiques et les propriétés structurelles
observées du marché et d'atteindre le degré maximum de réalisme. Dans le même temps, l’application fondamentale des modèles
financiers consiste à analyser leurs résultats de manière précise et efficace. La tension cidessus entre la complexité du modèle et la
traitabilité s'est accrue à mesure que le domaine du QF a mûri et s'est accélérée au cours de la dernière décennie, à mesure que de
nouveaux paradigmes informatiques ont considérablement élargi l'enveloppe de ce qui est réalisable. Par rapport au début des années
2000, lorsque les modèles paramétriques compacts étaient de rigueur, les chercheurs en QF, ou quants, opèrent désormais
régulièrement avec de grands cadres non paramétriques associés à des techniques numériques avancées de type apprentissage
automatique. En conséquence, l’objectif DACE est essentiel pour dissocier la complexité de la modélisation des exigences
informatiques. Le ciment qui relie des expériences aussi coûteuses à des proxys numériques bon marché est l’apprentissage
automatique statistique.
Cette revue examine le paysage actuel de l’apprentissage statistique dans QF. Pour un aperçu plus large, les lecteurs sont
renvoyés à la récente monographie de Dixon et al. (2020), le prochain volume édité par Capponi & Lehalle (2022) et les enquêtes
axées sur l'apprentissage profond de Ruf & Wang (2020), Charpentier et al. (2021) et Hambly et al. (2021).
L'objet principal de l'apprentissage statistique est le substitut (Gramacy 2020), qui est un approximateur fonctionnel formé
sèccA
.nnA
empiriquement. Plus précisément, un substitut est une fonction f : X → R p mappant les entrées x X R en sorties, normalement
d
scalaires (p = 1). Le substitut est construit à partir d'un
1:N 1:
ensemble d'entraînement D = (x N , le ), en le transformant en un modèle décrivant les relations entre les x et les y.
Cela se fait en trouvant une fonction f (∙) qui minimise une perte fonctionnelle R( f ; D). La perte est construite à partir d'une métrique
L(yˆ, y) qui définit la distance entre les prédictions de substitution et les données données, décrivant le coût d'une prédiction incorrecte
des résultats. Dans le monde idéalisé, la perte est alors la valeur attendue basée sur les variables aléatoires (X, Y) qui génèrent les
données indépendantes et identiquement distribuées (iid) dans D,
R¯ ( f ) := E[L( f (X ),Y )].
Puisque la distribution conjointe de (X, Y) ne peut pas être déterminée, nous approchons R¯ avec la perte empirique R(f ; D) := L(f (x
1
∑ ), et ).
je je
N je
1.1. Configurations motivantes
Dans cet article, un substitut (également appelé émulateur ou métamodèle) fait référence à une large classe
de modèles statistiques qui permettent un calcul plus rapide sans être limité à une famille fixe de fonctions.
Les exemples incluent les réseaux de neurones (NN), les processus gaussiens (GP), les machines d'amplification de gradient (GB),
les forêts aléatoires, les machines à vecteurs de support et les splines (Ruppert 2004, James et al. 2013).
De telles techniques non paramétriques impliquent des classes d'approximation qui sont basées sur les données et varient donc à mesure que les
ensembles de données d'entraînement changent.
Pour motiver l’analyse des relations entréessorties, considérons une option financière écrite sur un actif sousjacent avec une
valeur St et un prix (t, St) au moment t. Le modélisateur dispose d'un ensemble d'apprentissage S i ), et l'objectif est de déduire la
(t, S). Ce je ,
S
je , oui
je
) : je = 1, . . . , N}, où y
je
(t je , fonctionnelle de tarification D = {(t (t, S) → (t, S) pour le générique
paramètre couvre plusieurs souscas.
272 Ludkovski
1. Calculer (t, S) exactement pour un (t, S) donné est possible, mais cela s’avère difficile et prend du temps. Par
exemple, cela peut nécessiter la résolution d’une équation aux dérivées partielles (EDP) ou l’application d’une
je
= (tet l'objectif
transformée de Fourier rapide. Alors D est une collection d'entrées où y S i ) a été évalué exactement, je ,
est d'obtenir une représentation moins coûteuse de la carte de tarification en extrapolant ces valeurs y i .
je
,
2. Les prix des options sont évalués via un moteur Monte Carlo. Pour un donné (t S i ), le modélisateur ), à savoir une
a accès à une estimation bruitée de (t avec je ,
S jemoyenne empirique Y i de Nˇ échantillons,
une précision O(Nˇ −1/2 ) :
1
ET
je
:= ET
je je
] = (t
je
, S ), indépendant
je
1.
∑Nˇ j , E[Y j
Nˇ
j=1
Ici encore, nous visons à faciliter les calculs basés sur des modèles, en remplaçant les simulations intensives en
calcul de l'équation 1 par une approche statistique qui apprend la carte des prix à partir de quelques exemples.
3. D sont des observations réelles, récoltées à partir des données de marché disponibles. Le substitut met en œuvre
le concept de modélisation basée sur les données en gardant des cadres explicitement paramétrés en arrièreplan
et en se concentrant sur des représentations statistiques efficaces qui correspondent étroitement aux entrées et
sorties observées. Par exemple, on souhaite exploiter de grandes quantités de trajectoires boursières historiques
pour minimiser le risque via des ratios de couverture basés sur des données.
Du point de vue probabiliste, toutes les configurations cidessus se réduisent à l'évaluation d'attentes (conditionnelles),
c'estàdire à l'apprentissage fonctionnel de x → E[g(Xt )|X0 = x], où X représente l'état du système financier d'intérêt ( S
étant une de ses coordonnées) et g(∙) un gain. En effet, il s’agit du cadre canonique de l’apprentissage statistique,
interprété comme la prédiction de la réponse moyenne d’un processus de génération de données. Les anticipations
sèccA
conditionnelles sont non seulement au cœur de la tarification des options, comme indiqué dans la section 3, mais elles
.nnA
soustendent également les applications de contrôle stochastique détaillées dans les sections 6 et 7.
1.2. Le substitut comme outil Par
construction, les substituts QF ne sont pas un objectif en soi mais un élément de base dans une configuration plus vaste.
Ces tâches supérieures sont indépendantes de l'outil ; c'estàdire qu'il n'y a aucune raison intrinsèque de préférer une
classe de substitution à une autre. En tant que tel, le modélisateur doit être prêt à expérimenter plusieurs outils et à se
concentrer sur la méthodologie, en faisant abstraction des détails de mise en œuvre.
L'opération la plus simple sur un substitut ajusté f est la prédiction, c'estàdire l'évaluation de f (x )à)
je
certains emplacements de test x . Les emplacements de test peuvent être dans l'échantillon (x correspond à l'un des
x de formation ou hors échantillon. Dans ce dernier cas, on fait souvent une distinction conceptuelle entre l'interpolation
(où x est dans la plage des entrées de formation) et l'extrapolation. Théorie de l'apprentissage implique que les erreurs
d'extrapolation sont généralement beaucoup plus importantes et moins contrôlables que les erreurs d'interpolation ; par
conséquent, l'extrapolation doit être évitée autant que possible. Dans certains cas, la prédiction est nécessaire sur des
ensembles de tests massifs, et il existe des synergies grâce à la vectorisation du calcul de prédiction.
Audelà de la prédiction, de nombreuses autres opérations de substitution, certaines plutôt complexes, surviennent
dans les problèmes QF. Dans la section 4, nous considérons l'apprentissage des gradients de f (∙); dans la section 5, nous
discutons de l'optimisation sur f (∙) ou de son inversion. Dans la mesure du risque extrême (Risk & Ludkovski 2018),
l'objectif est d'intégrer (calculer la valeur conditionnelle à risque) f (∙) sur un domaine adaptatif. Dans les jeux stochastiques,
le but est de trouver un point fixe de f (∙).
En dissociant l'étape de formation de la prédiction, le substitut agit comme un conteneur de stockage pour les
informations obtenues lors de l'ajustement. Il s’agit d’un argument de vente essentiel pour l’apprentissage statistique car il
offre la possibilité d’investir dans la formation hors ligne séparément de la prévision en temps réel, correspondant à la
séparation des fronts et backoffices. C'est aussi la distinction cruciale par rapport à la norme
www.annualreviews.org • ML statistique pour la finance quantitative 273

tâche probabiliste d’approximation d’une quantité donnée. En d’autres termes, étant donné une attente analytiquement
insoluble, la méthode classique de Monte Carlo construit une approximation qui est évaluée sur place à n’importe quel niveau
de précision souhaité. En revanche, un modèle de substitution construit d’abord un approximateur à usage général ; plus
tard, il est évalué sur des entrées encore inconnues.
1.3. Apprentissage statistique pour les experts en finance quantitative Passons en revue
certaines terminologies pertinentes pour l'apprentissage statistique. L'apprentissage statistique consiste à déduire une
relation entréesortie. Nous distinguons les entrées (également appelées conceptions ou caractéristiques) x, les réponses
vraies (latentes) f (x) et les observations y (x). Les sorties y peuvent soit être des échantillons exacts de f (∙) (la configuration
sans bruit), soit être échantillonnées de manière stochastique. Dans ce dernier cas, le bruit est généralement supposé additif,
2
stationnaire (en x) et gaussien, y(x) = f (x) + , N (0, σ ET )
iid, bien que la plupart des algorithmes puissent se généraliser (défis de calcul modulo) au bruit non additif et non gaussien
dépendant de l'état. Ainsi, l’apprentissage statistique englobe à la fois l’interpolation d’échantillons exacts, le lissage des
données bruitées et l’extrapolation.
L'interprétation de l'espace d'entrée x X est spécifique au contexte ; une entrée x peut inclure à la fois des quantités
stochastiques (c'estàdire les valeurs d'un processus stochastique) et des paramètres de modèle ou de marché, tels que les
propriétés des options (exercice, échéance, etc.), la volatilité ou les taux d'intérêt. Ainsi, x est presque toujours
multidimensionnel. Choisir précisément ce que x contient et ne contient pas est souvent un choix de modélisation clé.
L'ensemble de formation global D peut être fixe et donné (un ensemble de données externe) ou être généré par le
modélisateur luimême. Dans ce dernier cadre, la construction de D est connue sous le nom de plan expérimental.
1:N 1:
Pour ajuster un substitut, on sélectionne un espace d'approximation H et une fonction de perte L ≡ L(yˆ N , le
je je
où yˆ est la prédiction de substitution en x ), . Le choix le plus courant est l’erreur quadratique moyenne, qui
1 je je
LMSE := N ∑N je = 1 (oui − et ) 2 , correspond à la structure probabiliste des attentes conditionnelles.

2 1 1 |yˆ je−y je |
sèccA
définis comme L minimiseur. D'autres critères sont LMAE = ∑

je
|yˆ je − y |,LMAPE = ∑ ,
N je N je
et
je
.nnA
2
je ∑ je (yˆ je−y je )
LMAX = max1≤i≤N |yˆ je − y |, et LR2 = 1 − 2 . Le substitut f est alors considéré comme le
je ∑ je (y¯−y )
1:N 1:N
minimiseur empirique de L( f (x ), et ) = R( f ; D),
1:N 1:N
= arg min f H L ( f (x f ), et ). 2.
En pratique, le substitut est défini via ses (hyper)paramètres afin que l'étape d'ajustement puisse être actualisée comme
un problème d'optimisation pour trouver ˆ qui minimise R( f ; D). Il s’agit généralement d’une tâche d’optimisation non
convexe de grande dimension, et les solutions globales ne sont pas garanties. En effet, les performances de divers
frameworks de substitution dépendent souvent de la manière dont cette dernière optimisation peut être réalisée. Une
approche courante consiste à appliquer une descente de gradient stochastique, générant une séquence de ( j) sur les
époques d'entraînement j = 0, 1,. . . qui impliquent des minilots (c'estàdire des sousensembles) de D.
L'optimisation dans l'équation 2 peut être régularisée en ajoutant des termes supplémentaires. La régularisation est
appliquée pour atténuer le surajustement ; il peut également inclure des conditions de pénalité pour donner la préférence aux
substituts qui satisfont à des contraintes souples supplémentaires. La connaissance du domaine financier peut être intégrée
au moyen de mesures de perte spécifiques au contexte L(∙) ou de substituts contraints par la forme (Dugas et al. 2000, Yang et al.
2017, Huh 2019, Chataigner et al. 2021, Zheng et coll. 2021).
Pour évaluer la qualité de f , on prend un ensemble de tests C et une métrique de fitness (souvent différente de la
métrique de perte) W(f , C). Pour l’évaluation de substitution, la relation entre le test et les ensembles d’apprentissage D et C
est essentielle. Le biais de généralisation – surestimation des performances du modèle en raison de l’examen des résultats
de l’échantillon – est une préoccupation bien connue. En effet, sans tester de nouvelles entrées invisibles, on ne peut pas
détecter le surapprentissage. De même, les performances du modèle peuvent être trompeuses s’il existe un avantage injuste
à présélectionner l’ensemble de test. Par exemple, lorsqu'ils travaillent avec des ensembles de données réels, Ruf & Wang
274 Ludkovski
(2020) soulignent le potentiel d’espionnage des données qui se produit lors du partitionnement aléatoire entre les ensembles
de formation et de test. Il convient plutôt d’envisager un partitionnement chronologique ; cela est également nécessaire car il
existe de nombreuses inhomogénéités temporelles dans les données financières, telles que des régimes de volatilité variables.
Dans de nombreux contextes financiers, les données sont collectées en continu (par exemple, en récupérant quotidiennement
les cotations du marché), ce que l'on appelle le streaming ou l'apprentissage en ligne. Pour rendre un tel apprentissage efficace,
on souhaite des substituts qui puissent être mis à jour plutôt que entièrement réaménagés à chaque fois que davantage de
données de formation arrivent. La mise à jour est possible grâce au démarrage à chaud des optimiseurs sousjacents [c'està
dire en initialisant judicieusement (0)] et parfois via des équations de mise à jour explicites. Le cas où les données
d'entraînement en continu sont sélectionnées par le modélisateur est appelé conception séquentielle et soulève le sujet de la
valeur des informations issues de la collecte d'échantillons supplémentaires.
1.3.1. Géométrie de l'ensemble d'entraînement. Bien que les intrants de formation soient parfois quadrillés, la plupart des
substituts fonctionnent avec des conceptions expérimentales sans maillage. Les algorithmes d'apprentissage QF classiques ont
tendance à générer des entrées sous forme d'échantillons le long de chemins simulés d'un processus stochastique. Cela signifie
que le plan expérimental a une densité d'échantillonnage x p(x). Les alternatives incluent l'échantillonnage x à l'aide de plans
d'hypercube latin ou de séquences quasiMonte Carlo à faible divergence (Lemieux 2009). L'échantillonnage par stratification
ou par importance (Glasserman 2004) peut également apparaître. Il est important de se rappeler que l’on ne peut se fier aux
prédictions de substitution qu’à une bonne approximation dans le domaine d’entraînement. Il est donc prudent de surveiller
l'utilisation du substitut et de procéder à un recyclage si le domaine de test C se déplace par rapport à la plage de D, ce que l'on
appelle la dérive du concept.
1.3.2. Convergence. Les paradigmes d'apprentissage statistique permettent de vastes théories de convergence concernant la
qualité de l'approximation (Györfi et al. 2002). Le premier type fondamental de résultats concerne la cohérence, c'estàdire que
l'erreur d'approximation disparaît dans une certaine limite, généralement à mesure que la taille de l'échantillon tend vers l'infini
(Elie et al. 2020, Cheridito & Gersey 2021). Cela pourrait être possible uniquement pour les vraies réponses f (∙) appartenant
sèccA
à une classe donnée de fonctions ou universellement (par exemple, pour toute fonction deux fois différenciable). Le deuxième
.nnA
type de résultats concerne les taux de convergence asymptotiques (Belomestny 2011b, Glau & Mahlstedt 2019, Gonon &
Schwab 2021). Le troisième type concerne la convergence en termes d’hyperparamètres de substitution , maintenant le
processus de génération de données fixe. Ces résultats concernent la question de l'utilisation de plus de fonctions de base (ou
de plus de neurones dans les NN), et nécessitent souvent de prendre des limites conjointes dans |D| et | | (Clément et al. 2002,
Glasserman & Yu 2004a, Belomestny et al. 2010a). Enfin, pour certains cadres d'apprentissage, il est possible d'obtenir des
garanties probabilistes sur leur qualité, c'estàdire de faire une autoévaluation qui fournit des limites d'erreur localisées sur la
prédiction de substitution. Cette quantification de l'incertitude est essentielle pour l'apprentissage adaptatif et, de plus, permet
au modélisateur de rejeter des résultats de substitution si leur qualité autodéclarée est insuffisante. De telles garanties sont de
plus en plus importantes pour les gestionnaires des risques financiers et pour l'évaluation du risque de modèle. Un autre défi
courant est que de nombreux problèmes QF génèrent une séquence de substituts interdépendants, motivant l'analyse de la
propagation des erreurs d'un substitut à un autre.
1.4. Applications financières quantitatives pour les experts en apprentissage automatique Dans cette section,
nous résumons les principaux domaines de QF dans lesquels l'apprentissage statistique a été appliqué.
Ces problèmes sont ensuite examinés plus en détail dans les sections 3 à 6.
Examinons d’abord un exemple du problème de base de tarification des options. Dans le modèle Black – Scholes, un stock
de valeur St au temps t est modélisé comme un mouvement brownien géométrique, c'estàdire un processus stochastique en
temps continu avec une dynamique donnée par l'équation différentielle stochastique linéaire entraînée par un mouvement
brownien (Wt),
dSt = rSt dt + σSt dWt , 3.

paramétré par le taux d’intérêt constant r et la volatilité constante σ. Cela implique que ST|St est lognormal. Nous
souhaitons évaluer le prix d'un dérivé financier sur (St), c'estàdire un contrat qui donne droit à son propriétaire à un gain
qui dépend de S. Étant donné un gain g(ST), la théorie des prix sans arbitrage implique qu'un juste prix de ce contrat à la
date t est le gain actualisé attendu conditionnel aux informations disponibles au moment t,
Et et
−r(T−t)
g(ST ) St ] . 4.
Pour un paiement d'appel gCall(S) := (S − K)+, une intégration exacte est possible, donnant la formule de Black – Scholes
pour (t, S) = E [ e −r(T−t) (ST − K) +|St = S ] , qui est fonction des cinq paramètres (S, K, r, σ, T − t). Il convient de noter
que la dérive r dans l’équation 3 reflète le fait que la dynamique de (St) est déjà indiquée sous la mesure Q neutre au
risque qui est la mesure pertinente pour l’évaluation des créances conditionnelles, ignorant la question des primes de
risque courante en économétrie.
En général, l’équation 4 n’admet pas de solutions de forme fermée et est mieux considérée comme une carte entrées
sorties, les entrées étant les paramètres du contrat et du modèle θ et la sortie étant le prix de l’option. Pour définir le cadre
mathématique, notons (Xt) le processus stochastique résumant les quantités financières pertinentes et prenant des
d
valeurs dans la structure X R tic de (, F, (Ft ), P), où Xt est adapté à . Nous supposons le modèle probabiliste standard
la filtration (Ft ). Dans la situation la plus courante, on considère des contrats de type européen, où le gain à l’échéance T
est une fonction
2 T
−∫
tionnel, g(XT ) R, g L (P). Le prix sans arbitrage à la date t est E Q [ e est le t rsdsg(XT ) Ft ] , où (rt)
processus de taux d'intérêt sans risque, Q est la mesure de tarification et la σalgèbre Ft résume les informations
disponibles jusqu'à t [0, T]. Lorsque (Xt) est Markovien, l’espérance est fonction de Xt
,
T
(t, x) := E Q [ e −∫
t rsdsg(XT ) Xt = x ] . 5.
C'est le cas dans le cas où (Xt) satisfait une équation différentielle stochastique, dXt = µ(Xt ) dt + σ (Xt )
sèccA
6.
.nnA
dW Q t ,
Q où (W t ) est un mouvement brownien (multidimensionnel).

Les modèles QF modernes présentent soit des gains plus sophistiqués (par exemple, ceux dépendant du chemin qui
dépendent de X[t, T] et pas seulement de XT) ou une dynamique plus sophistiquée que dans l'équation 3, excluant les
expressions analytiques pour (t, x). Par exemple, le modèle de volatilité stochastique Heston a Xt = (St , vt) bidimensionnel
avec cinq paramètres θ = (r, κ, η, σ, ρ) et une dynamique
dSt = rSt dt + √ vtSt dW t 1;
7.
2 1 2
dvt = κ(η − vt ) dt + σ √ vtdW t, d Wt ,DANS
t = ρdt.
L'évaluation respective d'un seul prix d'achat et d'un prix de vente nécessite de résoudre soit une simulation PDE, soit
une simulation de Monte Carlo afin d'intégrer g(∙) par rapport à la distribution conditionnelle bivariée de (St , vt)
(Glasserman 2004); les quants recherchent le substitut plus large (t, S, v, θ ) → (t, S, v, θ ).
d
1.4.1. Couverture d’options. Une stratégie de couverture est une séquence de fonctions h(k, ∙) : R → R tel que
h(k, x) spécifie les détentions de l'actif S au cours de la période tk étant donné l'état global x. La stratégie est supposée
s’autofinancer ; c'estàdire que les liquidités sont transférées de manière dynamique vers ou depuis un compte d'épargne
sans risque pour tenir compte des profits et pertes intermédiaires sans flux de trésorerie supplémentaires. La richesse
actualisée qui en résulte à T est l'intégrale stochastique discrète
h(k, Xtk )[S(Xtk+1 ) − S(Xtk )] − c(h(k, Xtk )), 8.

VT := (h ∙ S)T = V0 + K∑T −1
k=0
276 Ludkovski
où c(∙) capture les coûts de transaction. Le but de la couverture est de minimiser l'erreur de couverture attendue E[L(e
−rT
habituellement, celleci est g(XT ),VT )] par rapport au gain d'option actualisé e −rTg(XT). Comme
évaluée à l'aide d'un lot de N échantillons de X0:KT , l'erreur WMTE(g(x par exemple, trad} moyen et
1
Option bermudienne :
1:N 1:N −rT n
), dans ) := ∑ {C'est g(x )−v erreur de trading absolue médiane
T T N n T T Contrat de type
1:N 1:N 1 − rT n
WMATE(g(x ), dans )= ∑ |et g( xnT ) − v n |. Comme pour la tarification des options, on s’intéresse au surro américain qui peut être
T T N n T
gatesh(k, ∙) pour les ratios de couverture. Observez comment les critères d'adéquation cidessus sont hautement implicites par exercé à un ensemble
rapport à toh(k, ∙). La formation peut être sans modèle, en utilisant les chemins historiques de (St). discret d'instances
temporelles prédéfinies
1.4.2. Options américaines. Dans les contrats de type américain, l'acheteur peut percevoir son gain à tout moment τ ≤ T avant
l'échéance. Ce choix est fait de manière dynamique à mesure que les conditions du marché évoluent. On sait que le problème
de tarification d'une option américaine avec gain g(t, x) (nous englobons notationnellement l'actualisation) se réduit à trouver la
règle de décision τ , à savoir un temps d'arrêt pour maximiser la récompense attendue g,
E Q [ g(τ , Xτ ) ] → max! 9.
En conditionnant Xt = x, la maximisation s'effectue sur la collection St de (Ft )temps d'arrêt supérieurs à t et inférieurs ou
égaux à T. À des fins de calcul, on se limite à un paradigme à temps discret, où les décisions sont prises à KT instances
prédéfinies t0 = 0 < t1 < ∙ ∙ ∙ < tk < ∙ ∙ ∙ < tKT = T, où tk = kt pour une étape de discrétisation donnée t. La tarification des options
bermudiennes résultantes via l’apprentissage statistique est discutée dans la section 6.
2. TYPES DE SUBSTITUTS COMMUNS
Le substitut le plus simple est un modèle linéaire qui utilise l'espace d'approximation H = span(B1, . . . , BM ), c'estàdire des
combinaisons linéaires des fonctions de base Bm(∙), traduisant l'équation 2 en un problème d'optimisation de dimension finie
dans termes des M + 1 coefficients respectifs , avec f (x) = 0 + ∑M mBm(x). La sélection ciblée ou adaptative des Bm
sèccA
.nnA
est courante
m=1dans les problèmes QF. Un cas important de ce qui précède est celui des splines cubiques naturelles des
fonctions qui sont polynomiales cubiques par morceaux et sont deux fois différenciables de manière continue (c'estàdire qui
satisfont aux contraintes de régularité du zéro, du premier et du deuxième ordre au niveau des sites de nœuds respectifs). Les
splines cubiques avec M nœuds ont 4M + 2 hyperparamètres ; M est souvent sélectionné de manière adaptative.
2.1. Les réseaux de neurones
Un NN feedforward est une composition de fonctions linéaires et non linéaires, disposées en couches. Chaque couche contient
une fonction affine qui combine les entrées, puis une fonction d'activation non linéaire pour les transmettre à la couche suivante.
Un substitut NN feedforward avec L couches est une fonction N (x) : R → R p de la forme
d
N (x) = HL( L(HL−1(. . . ( 1(H1(x)) . . .)))),
où chaque Hℓ : R nℓ−1 → R nℓ est une application affine Hℓ (x) = Wℓ ∙ x + wℓ, et les ℓ sont les fonctions d'activation non
linéaires appliquées par coordonnées. Les fonctions d'activation courantes sont l'unité linéaire rectifiée (ReLU) (x) = max (x,
0) et l'unité linéaire exponentielle (ELU) (x) = max (e x − 1, x). Le paramètre nℓ est le nombre de nœuds dans la couche ℓ =
1,. . . , les matrices Wℓ R nℓ×nℓ−1 et les vecteurs wℓ R nℓ tels que le NN L. Former un NN signifie apprendre) sont proches
génère N(x . Le nombre total d'hyperparamètres NN est | | = ∑L je
aux sorties observées y (nℓ−1 + je
ℓ=1 nℓ ×
1) et se chiffre souvent en milliers. En pratique, le problème d'optimisation non convexe pour trouver Wℓ et wℓ est réalisé via
une descente de gradient, améliorant progressivement les poids ( j) à mesure que les minilots d'entraînement indexés par
j sont pris en compte. Les poids sont initialisés aléatoirement avec des échantillons (0) tirés

à partir des distributions uniformes ou gaussiennes. Une procédure courante avec la fonction d'activation ReLU initialise les poids
(0)
dans la couche ℓ selon w N (0, 2/nℓ ) (Ferguson & Green 2018). Pour permettre ℓune telle initialisation générique, toutes les
entrées (et sorties) sont prédimensionnées dans l' hypercube [0, 1]d.
Plusieurs fonctionnalités des NN sont utiles pour les contextes QF. Premièrement, la propriété d’approximation universelle
affirme que les NN sont capables de bien approximer les fonctions continues de manière arbitraire ; c'estàdire qu'il garantit une
flexibilité suffisante étant donné des NN avec suffisamment de paramètres. Deuxièmement, les NN prennent en charge une
formation hors ligne étendue ainsi qu'une prédiction rapide, résolvant ainsi bon nombre des limitations d'évolutivité des autres
substituts. Troisièmement, les minilots NN fonctionnent bien avec les données diffusées en continu.
2.2. Processus gaussiens
La régression GP est une méthode de régression non paramétrique flexible (Rasmussen & Williams 2006) qui considère la carte x
→ f (x) comme une réalisation d'un champ aléatoire gaussien de sorte que [dans l'espace de probabilité abstrait du métamodèle,
indépendant de la structure probabiliste présente in (Xt)] toute collection finie de { f (x), x X } est gaussienne multivariée. Pour
je
tout n ≥ 1 sites de conception {x n , GP régresse

} je=1
1 1
sion postule que ( f (x et n ), . . . , f (x n )) N (mn, Kn ), de vecteur moyen mn := [m(x ; ), . . . , m(x n ; )]
' ii x , '
× n matrice de covariance Kn composée de κ(x ≤ n. Le rôle de m(∙) est de ;capturer
) pourles
1 ≤tendances
je, je connues dans la réponse, et le
rôle de la fonction noyau semidéfinie positive κ( ∙, ∙) consiste à capturer la structure de dépendance spatiale dans x, généralisant la
notion de matrice de covariance. Ainsi, les GP placent un a priori probabiliste directement sur l'espace des fonctions, sans imposer
de structure paramétrique sur f .
N
} je=1 , La régression GP déduit le postérieur de f (∙) en supposant
je
Étant donné l'ensemble de données je , toi
2
d'entraînement D = {x , un modèle d'observation y(x) = f (x) + avec un terme de bruit gaussien (x) N ET ). Conditionnement
(0, les équations σ pour les vecteurs normaux multivariés impliquent que le f (x) postérieur )|D à toute entrée arbitraire x est
sèccA
également gaussienne :
.nnA
T 2 −1 dix.
m (x ) := m(x )+K (K + p JE)
(y − m) = E [ f (x )D],
1 T 1 N
y = [y N ,. . . , le] , m = [m(x ; ), . . . , m(x ; )]T ,
K T = [κ(x ,x
1
; ), . . . , k(x ,x
N
; )]
et K est une matrice de covariance N × N décrite via la fonction noyau κ(∙, ∙ ; ).

L'ajustement GP correspond à la sélection d'un espace fonctionnel approprié H ≡ H en optimisant les hyperparamètres
qui pilotent m(∙) et κ(∙,∙). Cela se fait de manière hiérarchique, en fixant d'abord une famille de noyaux, puis en utilisant l'optimisation
du maximum de vraisemblance pour déduire étant donné D. Une fois choisi, les équations de krigeage (équation 10) donnent
le résultat de substitution.
Un choix populaire pour κ(∙, ∙) est la famille exponentielle carrée (SE) (anisotrope), paramétrée et la variance du processus σ
d
par les échelles de longueur {ℓlen,k}k=1 p
2:
' 2
' 2 (xk − x k)
κSE(x, x ) :=p 11.
p exp ( − ∑d 2ℓ ).
k=1 2 len,k
Other popular kernels are the Matérn5/2 and Matérn3/2 families (Roustant et al. 2012):
' 2
√5 '
5
'
−
ℓ
√5 '
|xk−x k |
κM52(x, x ) :=p
p ∏d
|xk − x k | + 3ℓ 2
(xk − x k)
len,k ,
k=1 ( 1 + p
ℓlen,k seulement, k 2 ) et
√3 − √3 '
' 2 ' |xk−x | k
κM32(x, x ) :=p |xk − x
ℓ
.
k
seulement, k
∏d
k=1 ( 1 +
ℓlen,k | ) C'est
278 Ludkovski
Le noyau GP κ(x, x ′ ) contrôle la finesse de m (∙). Le noyau SE (équation 11) donne des ajustements infiniment
différentiables m (∙), tandis qu'un noyau Matérn d'ordre k + 1/2 donne des approximateurs qui sont en C
k 2. Note
. Ainsi, les substituts Matérn3/2 sont en C 1 et les substituts Matérn5/2 sont en C que le
Ingénierie des fonctionnalités :
redimensionnement modulo, tous ceux cidessus appartiennent à la classe des fonctions de base radiales, où κ(x, x sélection du meilleur sous
′ ) est une fonction de | ' | seulement; des noyaux non séparables sont également disponibles. ensemble de
fonctionnalités de
x − x Les substituts GP plus avancés qui ont été envisagés dans des contextes QF incluent les GP à contrainte
tarification pour alimenter un substitut statistique
de forme (Cousin et al. 2016, Chataigner et al. 2021), les GP multisorties (Crépey & Dixon 2020) qui peuvent
apprendre simultanément plusieurs fonctions de tarification (utiles pour la valorisation du portefeuille) et les
généralistes hétéroscédastiques (Binois et al. 2018). Les noyaux GP peuvent également être composés par addition,
multiplication et convolution (Duvenaud 2014).
Les GP prennent intrinsèquement en charge la mise à jour via un conditionnement itéré et excellent également
dans l'interpolation dans des environnements de données clairsemés où D est petit. Une autre caractéristique clé des
modèles GP est la quantification de l'incertitude via la covariance a posteriori Cov( f (x*1), f (x 2* )| D) = k(x x
1
2 ) −
,
K T [K + p 2 JE] −1 K2, où Ki = [κ(x x
1
, ;
je
), . . . ,k(x ,
x
N
; )] pour
je
i = 1, 2. L'interprétation est que x
1
→m (x ) est la carte entréesortie la plus probable qui soit cohérente avec l'ensemble de données d'entraînement
D, et Var( f (x )| D) est l’incertitude du modèle capturant la gamme d’autres ajustements entréessorties potentiels.
Ce dernier permet une évaluation du modèle interne. Par exemple, une incertitude prédictive élevée peut permettre
au modélisateur de rejeter la prédiction de substitution existante en faveur soit de la recycler, soit même d'utiliser une
évaluation directe du générateur de données sousjacent (Crépey & Dixon 2020).
2.3. Gradient Boosting GB produit
des modèles d'ensemble de la forme f (x) =

12.
const + ∑ νhj(x),
sèccA
j
.nnA
où les modèles de base hj(∙) sont obtenus séquentiellement et ν est le taux d'apprentissage. Le concept clé de GB
est que les hj de base sont obtenus par étapes ; c'estàdire que fj(x) := h0 + ∑ νhk (x) = k≤j fj−1(x) + νhj(x)
en est appris
ajustant hj(∙) conditionnellement à f j−1 et au jème lot d'entraînement de taille Nj . Le modèle de base le plus courant
est un arbre de décision ; le paramètre de retrait ν < 1 est utilisé pour la stabilité. L'ajustement de hj se fait de manière
gourmande en minimisant la fonction de perte L( fj−1 + νhj , D) = minh L( fj−1(x 1:Nj ) + νh(x 1:Nj ), y 1:Nj ) sur les
bases h . En d'autres termes, le modèle de base suivant est choisi pour minimiser les erreurs résiduelles du modèle
précédent sur le nouveau lot d'apprentissage, de manière analogue à une étape de descente de gradient. Les
versions modernes de GB, telles que LightGBM (Ke et al. 2017), incluent plusieurs améliorations d'apprentissage
automatique qui stabilisent le substitut et atténuent le surapprentissage (par exemple, l'abandon, la suppression
aléatoire de certains des hk précédents lors de la résolution de hj afin de réduire l'influence des premiers modèles de
base). Étant donné que les modèles de base sont des arbres, l'ingénierie des fonctionnalités est essentielle pour GB
afin de trouver plus facilement de bonnes divisions de feuilles pendant l'entraînement.
2.4. Interpolation de Chebyshev S'appuyant
sur des interpolateurs polynomiaux classiques, Gaß et al. (2018) et Glau et al. (2020) développent des polynômes de
Chebyshev tensorisés d'ordre (n1,. . . , nd) qui représentent
13.
f (x) = ∑n1 . . .∑nd cj1 ,..., jdTj1 ,..., jd (x),
j1=0 jd=1
où c sont les coefficients de Fourier et Tj1 ,..., jd (x) = ∏d cos( ji arccos

je = 1
xi). Afin d'étendre de manière pratique
l'équation 13 aux problèmes de grande dimension d 5, Glau et al. (2020) proposent d’abord

s'entraîner sur un petit sousensemble de la grille de Chebyshev puis utiliser un algorithme de complétion via une
approximation de bas rang. Ceci est combiné avec l’ajout progressif de sites de formation et l’augmentation adaptative du
classement. Le tenseur des coefficients c est obtenu par multiplication tenseurmatrice et par transformée de Fourier
Option d'achat : le droit
rapide. L'interpolation de Chebyshev offre une théorie approfondie de la convergence.
mais pas l'obligation
d'acheter l'actif sous
jacent pour K$
Swaption bermudien : 3. APPRENTISSAGE DES OPTIONS DE PRIX

le droit mais pas
Les tâches quotidiennes de gestion des positions financières impliquent de nombreux calculs de prix contractuels, de
l’obligation d’entrer
en un taux d'intérêt ratios de couverture, de mesures de risque et d'ajustements de valeur. À mesure que les modèles stochastiques sous
échanger à l'une jacents sont devenus plus sophistiqués, leur mise en œuvre nécessite davantage de calculs. En conséquence, les gains
des dates prédéterminées informatiques apportés par le cloud computing, le traitement parallèle, les processeurs plus rapides et les meilleurs
tk avant T algorithmes sont annulés par le nombre toujours plus élevé de calculs à effectuer (par exemple, davantage d'ajustements
de valorisation pour tenir compte du risque de crédit ou de financement, davantage de calculs). précision, plus de
sensibilité au risque, nouveaux produits structurés) et chaque calcul prend plus de temps. De nos jours, les bureaux de
négociation effectuent chaque jour des millions de tâches informatiques similaires.
Pour rendre ces calculs répétés efficaces et rapides comme l’éclair, un substitut est utilisé pour connaître le prix de
l’option en fonction du prix sousjacent et des caractéristiques du contrat.
En effet, un modèle de valorisation des produits dérivés est en fin de compte une fonction qui mappe les entrées,
constituées de données de marché et de termes spécifiques au commerce, à une sortie représentant la valeur de l'option.
La fonction de perte de base est la distance carrée LMSE entre les prix des options observés (simulés) et les prédictions
de substitution. Alors qu'un simple contrat tel que l'option d'achat dans un modèle BlackScholes comporte un total de
cinq entrées, des produits plus complexes tels que les swaptions bermudiennes dans les modèles Libor ont des fonctions
de valorisation avec des centaines d'entrées, impliquant toutes les propriétés du swap et de l'option sousjacents.
programme d'exercices.
sèccA
.nnA
Les substituts les plus étudiés pour cette tâche sont les NN. Suite aux premiers travaux pionniers de Hutchinson et al.
(1994), le domaine s'est rapidement développé récemment, Culkin & Das (2017) étant le premier à appliquer des NN
profondes. La récente enquête de Ruf & Wang (2020) présente un tableau exhaustif et monumental qui répertorie plus de
150 articles ayant étudié les NN pour la tarification des options. Ils comparent les propositions existantes dans six
catégories, y compris la configuration du modèle, la configuration NN et les études de cas prises en compte. La littérature
complémentaire a pris en compte les GP (De Spiegeleer et al. 2018, Crépey & Dixon 2020), les polynômes de Chebyshev
(Olivares & Alvarez 2016, Gaß et al. 2018, Glau et al. 2020), GB (Davis et al. 2020) et splines cubiques (Olivares &
Alvarez 2016).
3.1. Entrées et sorties Afin
d'appliquer l'apprentissage statistique à la tarification des options, il faut spécifier les entrées x et les sorties y respectives.
Pour x, les caractéristiques de tarification peuvent inclure non seulement les états stochastiques pertinents tels que le prix
sousjacent, mais également les paramètres d'option λ et les paramètres de modèle θ. Pour les appels et les ventes, les
caractéristiques les plus courantes sont le prix de l'actif S, le temps t, le strike K (un exemple de λ) et la volatilité σ (un
exemple de θ). Pour de nombreux modèles, la fonction de tarification des options est homogène du premier degré par
rapport à S et K, ce qui rend courant le reparamétrage via leur ratio, connu sous le nom de monnaie S/K.
Cela permet d'avoir un ensemble de formation plus stationnaire, réduit le surapprentissage (Garcia & Gençay 2000) et
réduit la dimension des entrées, ce qui génère une efficacité de calcul. De même, plutôt que d’examiner séparément le
temps t et l’échéance de l’option T , il est courant de reparamétrer le substitut via la durée jusqu’à l’échéance τ = T − t.
Dans le contexte de la GrandeBretagne, Davis et al. (2020) suggèrent d'utiliser des caractéristiques, telles que les
facteurs d'actualisation e −rT et les interactions de premier ordre entre les paramètres du modèle stochastique [par
exemple, κ ∙ η dans le modèle Heston (équation 7)]. Compte tenu de son importance, la volatilité σ est souvent utilisée
comme caractéristique. Dans les modèles de volatilité locale ou stochastique, on inclut souvent le modèle BlackScholes
280 Ludkovski
volatilité implicite σImp. Le résultat de substitution y le plus courant est le prix de l’option ; si vous travaillez avec des
fonctionnalités de rentabilité, le résultat pourrait également être le prix de l'option divisé par son prix d'exercice /K.
Parmi les cas tests, la littérature existante s’en tient généralement aux contrats les plus liquides, comme ceux des indices
Volatilité implicite : la
S&P 500 et DAX. Le bruit, les observations limitées et la géométrie particulière (par exemple, seules certaines frappes sont
valeur σImp qui inverse
liquides) sont autant de défis liés au travail avec des ensembles de données réels et impliquent que certaines méthodes la formule de Black
peuvent ne pas bien se traduire des applications synthétiques aux applications réelles. – Scholes pour un
prix d'achat/vente donné
P Mkt(t, S) et r, K, T connu
3.2. Formation Pour
approximer une fonction de valorisation des dérivés, le modélisateur doit sélectionner le domaine d'application D¯ puis
l'ensemble d'apprentissage réel (discret) D D¯ . Puisque le substitut par construction minimise l'erreur entre ses estimations
et celle des données d'entraînement qu'il présente, il est important de choisir un domaine représentatif. Le compromis entre
un D¯ plus grand et plus petit est celui de la généralité par rapport à la complexité du modèle et au temps de formation
(Ferguson & Green 2018). Par exemple, dans le cas d'une swaption bermudienne, nous pouvons choisir de prendre comme
données les propriétés d'une transaction spécifique, puis d'entraîner le modèle uniquement sur une variété de scénarios de
données de marché. D¯ de dimension inférieure conduira à des substituts plus petits et donc à des exigences de formation
inférieures (taille de D, temps passé à la formation, etc.).
La distribution d’échantillonnage sousjacente à D est également cruciale. Par exemple, il ne sert à rien de générer un
grand nombre d’exemples qui ne donnent aucune valeur d’option. De même, les régions dont les valorisations évoluent
rapidement doivent se voir attribuer davantage de données de formation. Par conséquent, la distribution de l’échantillonnage
doit souvent être non uniforme et refléter la dépendance financière entre ses intrants. On peut également compléter avec des
entrées de limites synthétiques pour appliquer la forme d'extrapolation hors échantillon (Ackerer et al. 2020, Ludkovski &
Saporito 2022).
En termes de formation du substitut NN luimême, Garcia & Gençay (2000) et Gençay & Qi (2001) examinent des
sèccA
améliorations telles que l'arrêt et l'ensachage précoces. Gonon & Schwab (2021) établissent des taux de convergence pour
.nnA
les substituts NN profonds de la tarification des options dans les modèles exponentiels de Lévy, exploitant la relative fluidité
de ces dernières fonctionnelles et soulignant le rôle des différentes fonctions d'activation. Plus précisément, ils montrent que
les neurones O( ) sont nécessaires pour obtenir une−1
erreur d’au plus .
3.3. Les prix des options
sans arbitrage doivent satisfaire à certaines contraintes sans modèle imposées sans arbitrage. Par exemple, pour
les options d’achat, aucun arbitrage n’implique (nous fournissons les noms financiers des contraintes respectives sur
les sensibilités aux prix)
■ une contrainte de spread calendaire, où les prix augmentent avec le temps jusqu'à l'échéance T − t ;
■ une contrainte de spread haussier, où les prix augmentent en monnaie S/K ; et ■ une contrainte de
spread papillon, où les prix sont convexes en termes de monnaie.
Dugas et coll. (2009) obtiennent des prix prédits mondiaux sans arbitrage en utilisant des contraintes strictes grâce à une
architecture de réseau spéciale à une couche. Yang et coll. (2017) utilisent une structure de réseau fermée, contrainte
d'avoir des poids non négatifs et certaines fonctions d'activation. Chataigner et al. (2020) ont construit une architecture
connexe et peu connectée avec une fonction d'activation convexe softplus(x) = log (1 + e x ). Une alternative consiste à
pénaliser les violations de nonarbitrage, connues sous le nom de contraintes douces (Ackerer et al. 2020, Chataigner et al.
2020). Itkin (2019) introduit des fonctions de pénalité pour renforcer la positivité des dérivées première et seconde de par
rapport à l'échéance T et à l'exercice K, respectivement, en plus de la négativité de la dérivée première par rapport à K. Notez
qu'une telle pénalisation est effectuée pendant formation et ne s’applique donc pas nécessairement aux intrants hors
échantillon.

3.4. Apprentissage de la volatilité implicite Au
lieu d'apprendre les prix des options, une partie de la littérature envisage l'apprentissage de la surface de volatilité implicite
Couverture delta : la σImp(∙). Le sourire de volatilité respectif – la dépendance de σImp aux paramètres des options – reflète les écarts du
théorie du calcul
marché par rapport au paradigme BlackScholes à mesure que le strike K et la maturité T varient. Cela peut être fait par
stochastique montre
une formation sur les prix des options (T, K) ou directement sur la volatilité implicite (c'estàdire en transformant également
que la détention
les intrants) (Liu et al. 2019). Le substitut respectif permet de transférer les informations d'anneau obtenues à partir des
(et le rééquilibrage
continu) d'un appels et des ventes vanille vers un modèle d'actif à part entière dans lequel on peut évaluer (avec ou sans substituts)
portefeuille avec des actions des options exotiques arbitraires (c'estàdire des options avec des gains non standard, contrairement aux appels et aux
(t, St) reproduira le gain ventes). La traduction est réalisée grâce à la formule de Dupire qui convertit les volatilités implicites en une surface de
de l'option, permettant
volatilité locale (Gatheral 2011),
ainsi une élimination parfaite
du risque. 14
heures
(T, K) 2 ∂T (T,K) + rK∂K(T,K)
= .
K2∂2 _
Thêta : sensibilité de la KK(T,K)
valeur de l'option à la durée
Observez que cidessus, le membre de droite doit être positif ; c'estàdire que le substitut de doit être contraint d'avoir un
jusqu'à l'échéance T − t 2
T non négatif et un ∂ 1 non négatif et Ackerer et al. (2020) entraînent les KK .
substituts NN
en utilisant un mélange de normes L et pénalisent les violations des contraintes aux volatilités
cidessus implicites
(voir aussi Zhengobservées
et
L 2 al. 2021). Ils soulignent que la saisie de σImp est statistiquement plus stable que la formation aux prix observés.
Chataigner et al. (2020) utilisent la surface de volatilité implicite comme transformation intermédiaire : les entrées et les
sorties souhaitées sont des prix d'option, et σImp est uniquement une sortie intermédiaire du substitut.
Fengler (2009) utilise des splines cubiques naturelles avec des contraintes de monotonie et de convexité pour construire
une surface de volatilité implicite sans arbitrage. Glau et coll. (2019a) apprennent les surfaces de volatilité implicite à l'aide
de l'interpolation de Chebyshev.
sèccA
4. APPRENDRE LES GRECS

.nnA
La tâche de calculer les sensibilités des contrats est un problème fondamental dans QF. Connues collectivement sous le
nom de Grecs, les sensibilités aux options sont essentielles à la gestion des risques. Par exemple, la couverture Delta
gère le risque en contrôlant la sensibilité du dérivé financier au prix au comptant sousjacent, Theta gère le risque en
contrôlant la sensibilité au passage du temps, et ainsi de suite. Ainsi, le succès des stratégies de couverture dépend de
l’apprentissage précis de ces sensibilités.
Étant donné une fonctionnelle de tarification (∙), le problème d'évaluation grec consiste à évaluer par rapport à la ou
aux coordonnées souhaitées. Soit (x ; λ) le prix de l'option, où x est l'état stochastique actuel du marché (par exemple, le
cours de l'action sousjacente S) et λ est la caractéristique du contrat ou du modèle (par exemple, le prix d'exercice,
l'échéance ou la volatilité). ). Comme les gradients de (∙) par rapport aux différentes coordonnées de x ou de λ sont
rarement disponibles analytiquement, plusieurs articles (Fu et al. 2012, Capriotti et al. 2017, Ruf & Wang 2022) ont abordé
l'approximation fonctionnelle grecque.
À titre d'exemple canonique de couverture, envisageons d'apprendre le Delta d'une option européenne,
(t, S) := ∂(t, S)/∂S,
pour un temps arbitraire t et un prix sousjacent S. La fonctionnelle (∙, ∙) n'est pas directement connue, et un S i reçoit un
je
ensemble d'apprentissage D = {(t ). Ceci estS très

ii,y
) : je = 1,à. la
similaire
je , , N}, où y des options, (tsauf que la tâche consiste désormais
. . tarification je ,
à apprendre (t, S) → (t, S).

Une approche consiste à ajuster un substitut (t, S) → (t, S), puis à définir (t, S) := ∂(t, S)/∂S. La deuxième étape peut
être effectuée soit de manière analytique pour certains substituts, soit par rétropropagation, c'estàdire une différenciation
algorithmique adjointe (Capriotti & Giles 2012, Capriotti et al. 2017). La construction de substitution pour l'estimation
grecque doit être abordée avec prudence, car pour certaines classes, comme celle basée sur les splines, la différenciation
est connue pour conduire à des estimations très instables, voire absurdes.
282 Ludkovski
2
pour et d'autres dégradés (Jain & Oosterlee 2015). En effet, le critère L typique LMSE qui détermine l'ajustement de (t,
S) ignore complètement le plan ultérieur de calcul des gradients. En effet, l’évaluation de est généralement basée sur
les propriétés de l’erreur de suivi VT dans l’équation 8.
Les généralistes ont été considérés pour cette tâche par Crépey & Dixon (2020), Chataigner et al. (2021), et
Ludkovski & Saporito (2022), s'appuyant sur la disponibilité de dérivées analytiques ∂m (x )= ∂xj
_
∂m ∂κ 1:N 2 −1
∂xj
(x )+ ∂xj (x ,x )(K + p JE) (y − m), qui admettent l'expression sous forme fermée pour les trois
_ _
familles de noyaux fournies dans la section 2.2. D'une part, cela réduit l'erreur puisqu'une seule approximation est
nécessaire et que la différenciation est exacte. D'un autre côté, les médecins généralistes proposent une évaluation
dans le modèle de l'exactitude de en propageant rigoureusement l'incertitude sousjacente concernant . Les bandes
crédibles générées guident l'utilisateur final sur la façon dont la mère porteuse a appris le grec souhaité. Ces
informations sont pertinentes à des fins commerciales, par exemple dans le contexte de régions sans transaction
soumises à des coûts de négociation (Whalley & Wilmott 1997). Chataigner et al. (2021) envisagent les GP soumis à
des contraintes de forme, car les contraintes d'arbitrage ont un impact important sur la forme des Grecs (comme le fait
d'être monotones).
Des substituts NN pour l’estimation grecque ont été envisagés par Chataigner (2021), Chataigner et al. (2021),
Jain et Oosterlee (2015) et Davis et al. (2020). Les NN sont attractifs grâce à leur approximation uniforme, non
seulement pour les fonctions de réponse lisse mais aussi pour leurs dérivées (Hornik et al. 1990). L'interpolation
Chebyshev pour les Grecs est proposée par Maran et al. (2021).
La figure 1 présente le delta estimé d'une option d'achat dans un modèle BlackScholes (équation 3).
Nous employons deux types de substituts différents : les médecins généralistes et les NN. La première méthode
utilise un noyau de covariance Matérn5/2 et une moyenne antérieure constante m(x) = β0 ; le NN utilise la fonction
d'activation ELU, avec L = 3 couches et nℓ = 64 neurones. Le GP est formé via le maximum de vraisemblance et
implémenté dans R ; le NN est formé via l'algorithme Adam et implémenté en Python. Dans les deux cas, l’ensemble
sèccA
.nnA
de formation est bidimensionnel : durée jusqu’à l’échéance τ et cours de l’action S, fixant l’exercice de l’option K = 40,
le taux d’intérêt r = 0,04 et la volatilité σ = 0,22. Les données sur les prix d'appel arrivent
Figure 1
Delta estimé S → (t, S) d'un appel Black – Scholes avec les paramètres K = 40, r = 0,04 et σ = 0,22, et le
temps jusqu'à maturité T − t = 0,3 en fonction de S. Abréviations : GP , Processus gaussien ; NN, réseau neuronal.

à partir d'échantillons de Monte Carlo bruités, en utilisant Nˇ = 400 tirages de ST pour approximer E Q[e −r(T−t) (ST −
K)+| St = s] à N = 400 sites d'entrée maillés. Nous observons quelques erreurs sur les bords avec un non monotone et
une violation de la restriction de nonarbitrage à l'extrême droite, > 1. Le fait que la prédiction de substitution soit
meilleure au milieu du domaine d'entraînement D¯ est très typique. Ludkovski & Saporito (2022) apportent davantage
d’informations sur le rôle de la conception expérimentale, démontrant, par exemple, que l’apprentissage des sensibilités
sur une grille est beaucoup plus rapide que sur un domaine échantillonné de manière irrégulière.
Une autre façon d’apprendre spécifiquement le Delta consiste à adopter la perspective de couverture. Étant donné
que la couverture delta minimise les risques, on peut apprendre les ratios de couverture en minimisant le risque de
portefeuille en une seule étape. À cette fin, Ruf & Wang (2022) proposent de minimiser la variance du portefeuille local,
Var(V(δ)) := Var(δ ∙ S1 + (1 + rt)(0 − δ ∙ S0) − 1), où S0, S1 sont les prix sousjacents d'aujourd'hui et de demain et 1
sont les prix d'achat respectifs.
0, Discrétisation modulo temporelle, le minimiseur est = (0, S0)/S, c'estàdire le Delta. Ruf
d * & Wang (2022) entraînent ensuite un substitut NN aux observations réelles (S&P 500) de (S ) ainsi qu'à des
1:N 1:N 1:N
fonctionnalités supplémentaires, telles S1 :N , 0Pour
0 , que1σImp. , répondre
1 aux contraintes de nonarbitrage qui impliquent que le
ratio de couverture doit se situer dans l'intervalle [0, 1], ils utilisent une fonction d'activation sigmoïde sur la sortie (voir
aussi Halperin 2020).
5. CALIBRAGE DU MODÈLE
La tâche d'étalonnage du modèle (Bayer et al. 2019, Liu et al. 2019, Benth et al. 2021, Horvath et al. 2021) considère
le problème inverse consistant à trouver le meilleur ensemble de paramètres de modèle θ qui correspondent aux prix
empiriques observés. Pour cela, on souhaite obtenir la fonctionnelle de tarification θ → (t, x, λ; θ ) puis résoudre la
tâche de calibrage,
1 m, m Marque m,
fam ( (t, x je ; je ) − P (t, x je
m ) )2 , 14.
je M ∑M
m=1
sèccA
.nnA
Marque
où P := {P (t, x m, λ m) : m = 1, . . . , M} est l’ensemble des prix d’options observés avec
1:M
caractéristiques λ à la date t.
Avec une approche d'apprentissage automatique statistique introduite par Horvath et al. (2021), un premier λ j ; θ
j
entraîne un substitut (t, x, λ; θ ) à l'aide d'un ensemble d'entraînement D := , X , j ), j = 1, . . . , N} (de taille N,
{(t j choisi par le modélisateur), puis optimise θ pour l'ensemble d'observations donné P,
1 m m Marque m
ˆθ (P) := arg inf , je ; je ) − P (t, x , je m ) )2 . 15.
je M ∑ ( (t, x
m
Étant donné que la résolution de l'équation 14 nécessite une évaluation répétée sur différents θ, lorsque cette dernière
est coûteuse, il y a un gain important à passer à un substitut rapide à évaluer. En effet, l'équation 15 peut générer des
gains de performances de plusieurs ordres de grandeur, permettant un calibrage à la volée par les traders en temps
réel. Dans le même temps, le modélisateur peut investir des ressources pratiquement illimitées dans la formation (par
exemple, via des NN approfondis) tant que son évaluation finale est rapide.
Huh (2019) calibre les modèles exponentiels de Lévy à l'aide de NN. Itkin (2019) suggère de calibrer les modèles
en construisant d'abord un substitut pour la fonctionnelle de tarification à terme (x, λ, θ ) → (x, λ; θ ), puis en l'inversant
pour apprendre la carte (x, λ, ) → θ via un deuxième NN. À titre d'exemple, il envisage d'apprendre la carte de volatilité
implicite (x, λ, ) → σImp(x) , puis d'utiliser σImp observé pour calibrer un modèle de volatilité locale.
6. APPRENDRE À ARRÊTER
La valorisation des contrats à l'américaine est un cas particulier de problèmes d'arrêt optimal (OSP), où le but est
d'évaluer la fonction de valeur V : [0,T] × X → R représentant la récompense attendue, E [ g(τ , Xτ )| Xt = X ] .
V (t, x) := sup 16.

τ St
284 Ludkovski
Pour le reste de la section, nous adoptons le paradigme à temps discret des options bermudiennes, en indexant par k plutôt
que par tk et en prenant T = tKT .
Il est plus intuitif de considérer l’arrêt optimal comme une prise de décision dynamique. A chaque étape d'exercice k, le
contrôleur doit décider s'il doit arrêter (0) ou continuer (1), ce qui, dans une structure markovienne, est codé via la stratégie de
rétroaction A = ( A0:KT (∙)) avec chaque Ak (x ) {0, 1}. La carte d'action Ak donne naissance à la région d'arrêt,
Sk := {x X : Si (x) = 0} X ,
où la décision est d'arrêter, et définit en parallèle le premier temps de frappe correspondant,
Aℓ (Xℓ ), 17.
τAk:KT := inf{ℓ ≥ k : Aℓ (Xℓ ) = 0} KT = ∑KT m ∙ (1 − Am(Xm)) m∏−1
m=k ℓ=k
qui est une durée d'exercice optimale après k. Par conséquent, résoudre un OSP équivaut à classer n’importe quel (x, k) dans
Sk ou son complément, l’ensemble de continuation. Par exemple, dans l’exemple le plus connu du put bermudien, on sait
que Sk = [0, s¯k] ; c'estàdire qu'il faut s'arrêter dès que le prix de l'actif descend en dessous des seuils d'exercice s¯k.
L’ensemble d’actions Ak est caractérisé récursivement comme
18.
Ak (x) = 1 E [ g(τAk+1:KT , XτAk+1:KT )| Xk = x ] > g(k, x);
c’estàdire qu’il faut continuer si la récompense attendue domine le gain immédiat.

Désignant l'espérance conditionnelle en avance de la fonction de valeur par
q(k, x) := E [V (k + 1, Xk+1 ) |Xk = x] 19.
et en utilisant le principe de programmation dynamique qui affirme que V (k, x) = max( g(k, x), E[V (k + 1, Xk+1 )|Xk = x] ) ,
sèccA
.nnA
nous pouvons écrire de manière équivalente Ak ( x) = 1 q(k, x) > g(k, x).

La valeur q q(k, ∙) est connue sous le nom de valeur de continuation.
Le cadre de régression de Monte Carlo (RMC) (également connu sous le nom d'algorithme de LongstaffSchwartz ou
moindres carrés de Monte Carlo, la terminologie étant historique et potentiellement inappropriée pour les statisticiens)
(Longstaff & Schwartz 2001, Egloff 2005) construit de manière récursive des Ak approximatifs à travers en itérant sur l'équation
18 ou l'équation 19. Ainsi, le cadre RMC génère des approximations fonctionnelles des valeurs de continuation qˆ(k, ∙) afin de
construire Ak (∙). La boucle RMC est initialisée avec V(KT , x) = g(KT , x), et pour k = KT − 1,. . . , 1 il se répète comme suit.
1. Apprenez la valeur q qˆ(k, ∙).

2. Définir Ak (x) := 1{qˆ(k,x)>g(k,x)} .
3. Définir V(k, x) := max( qˆ(k, x), g(k, x) ) .
La principale tâche d’ajustement de substitution de l’étape 1 peut être implémentée comme l’apprentissage de x → E[V(k +
) Xk =
1, Xk+1 )|Xk = x] (Tsitsiklis & van Roy 2001) ou comme approximation de x → E[g(τAk+1:KT , Xτ x] (LongstaffUNk+1:KT
& Schwartz 2001 ; voir aussi une analyse prospective en plusieurs étapes version dans Egloff et al. 2007).
Ces choix sont distincts car V(k + 1, x) = E[g(τAk+1:KT ,

Xt UN
)| Xk+1 = x] en raison du
k+1:KT
erreur d'approximation.
Le RMC classique utilise une fonction de perte LMSE avec des fonctions de base spécifiées par l'utilisateur, ajustées sur
la base d'un ensemble d'apprentissage Dk. La référence Monte Carlo est à la stratégie standard de construction de Dk à partir
de M tirages iid de Xk, obtenus par une simulation Monte Carlo de M chemins respectifs de (Xk) (donc Dk et Dk+1 ne sont pas
indépendants). Observez à nouveau un décalage entre L et la métrique de performance qui est basée sur la récompense
,
une moyenne de Monte attendue induite E [ g(τA0:KT , pour évaluer A0:K habituellement évalué via
Xt UN ) X0 = x ] , comme
0:KT
Carlo. Néanmoins RMC s'est avéré extrêmement

réussi; l'article fondateur de Longstaff & Schwartz (2001) compte plus de 4 000 citations et a donné lieu à de
nombreuses améliorations [voir les critiques dans Broadie & Cao 2008, Kohler 2010, Tompaidis & Yang 2013 et
la monographie de Belomestny & Schoenmakers (2018)].
6.1. Substituts pour un arrêt optimal Parmi les
principaux types d’approches d’apprentissage, c’estàdire les différentes manières d’exécuter la régression,
nous mentionnons les suivants :
■ régression par morceaux avec sousgrilles adaptatives de Bouchard & Warin (2011), l'idée étant d'éviter
les ajustements globaux qui ont tendance à être trop grossiers et de proposer des
ˆ ajustements de base
simples (constants ou linéaires) définis sur un ensemble de sousrégions ℓ=1 fℓ (x)1{x Cℓ } , avec la latitude
Cℓ : f ( x) = ∑L ter choisi rectangulaire et équiprobable dans Dk [voir aussi les arbres dynamiques proposés par
Gramacy & Ludkovski (2015) qui génèrent des partitions via une approche probabiliste d'ensemble
génétique ressemblant à une forêt aléatoire] ;
■ régression régularisée, telle que LASSO (Kohler & Krzyzak 2012 ˙ ) et régression ridge (Hu &
Zastawniak 2020), l’idée étant de partir d’un grand nombre de bases potentielles et d’éviter le surajustement
en réduisant à zéro les coefficients de régression non pertinents ;
■ régression du noyau par Belomestny (2011b), l'idée étant de fournir une porte de substitution non
paramétrique basée sur une fonction du noyau κ(x; h) qui se réduit au choix de la bande passante du
noyau h (voir aussi la régression du plus proche voisin dans Agarwal & juin 2015);
■ Régression GP de Goudenège et al. (2019), Goudenège et al. (2020) et Ludkovski (2018) ; ■ Les substituts
NN introduits par Haugh & Kogan (2004) et Kohler et al. (2010) au sein d'une architecture monocouche
[Becker et al. (2020) ont récemment examiné les NN profonds] ;
■ Polynômes de Chebyshev de Glau et al. (2019b) ; ■
sèccA
lissage des splines par Kohler (2008) ; et ■ les

.nnA
bases de régression adaptative de Belomestny et al. (2018).
Une analyse d'erreur respective, axée sur la propagation de l'erreur de q(k + 1, ∙) à q(k, ∙), est fournie par
Clément et al. (2002), Belomestny (2011a), Belomestny (2011b), Fromkorth & Kohler (2011) et Zanger (2018),
abordant principalement les modèles linéaires ou les régresseurs à noyau classiques.
La figure 2 visualise trois substituts différents lors de la tarification d’un put bermudien. La dynamique sous
jacente Xt St suit le modèle unidimensionnel de Black – Scholes ; nous considérons 25 droits d'exercice sur un
horizon T = 1 an et un exercice K = 40. Les deux panneaux montrent différentes approximations de la valeur
temporelle T(k, x) := q(k, x) − g(k, x) pour deux étapes intermédiaires k = 10 et 20. La valeur temporelle résume
le mérite relatif de l'arrêt et de la poursuite : L'acheteur doit exercer lorsque la valeur temporelle est négative, Ak
(x) = 0 T(k, x) < 0 , et continuez autrement. La fonction valeur peut être récupérée via V(k, x) = g(k, x) +
max(0,T(k, x)t). Dans la figure 2 , nous observons que le substitut spline donne l'ajustement le plus fluide, tandis
que le substitut GP semble surajuster dans cet exemple. La bande d'incertitude de 95 % affichée pour ce
dernier est plutôt large et à cheval sur le niveau zéro, indiquant qu'il est conscient que la règle d'exercice prédite
n'est pas très précise. Nous observons à nouveau quelques instabilités aux limites du domaine de formation.
Des comparaisons supplémentaires sont fournies par Ludkovski (2020).
Nous renvoyons les lecteurs à Ludkovski (2018), Gramacy & Ludkovski (2015) et Ludkovski (2020) pour une
discussion sur les modèles expérimentaux pour le RMC. Notez que le substitut n'est nécessaire que pour la
région dans la monnaie Xin := {x : g(k, x) > 0}; lorsque g(k, x) = 0, il est clair qu’il est préférable de continuer, Ak
(x) = 1. Ainsi, Dk est généralement limité à se situer dans Xin, par exemple Dk [25, 40] dans la figure 2.
Motivé par la possibilité d'une intégration exacte pour certaines fonctionnelles dans le monde BlackScholes,
on peut contourner l'approximation des attentes conditionnelles en choisissant la forme de V
286 Ludkovski
Figure 2
Substituts de la valeur temporelle T(k, x) dans un problème de put bermudien unidimensionnel, x étant le cours de l'action. Nous montrons trois
substituts adaptés au même problème : un GP utilisant le noyau de l'équation 11 (en noir), une spline de lissage (en violet) et un NN peu profond à
une couche (en bleu). Les substituts proviennent du pas de temps k = 10 (t = 0,4, à gauche) et k = 20 (t = 0,8, à droite). Nous affichons également la
quantification de l'incertitude concernant l'ajustement GP de Tˆ (k, x) (bandes grises, 95 %). Abréviations : GP, processus gaussien ; NN, réseau neuronal.
tel que E[V(k + 1, Xk+1 )| Xk] peut être effectué analytiquement. Glasserman et Yu (2004b), Balata et Palczewski (2017, 2018) et
Glau et al. (2019b) envisagent tous des substituts de type polynomial pour les options américaines et des problèmes de contrôle
plus généraux.
Une approche d'apprentissage profond de la tarification des options américaines a été proposée par Becker et al. (2019) via
apprendre les ensembles d’actions. En utilisant l'équation 17, on peut réécrire
sèccA
.nnA
V (k, Xk ) = g(k, Xk )(1 − Ak (Xk )) + g(τAk+1:KT , XτAk+1:KT )Ak (Xk ).
Paramétrage de Ak via un NN A k, on procède à l'apprentissage de en maximisant à plusieurs reprises le minilot

1:N
moyenne empirique du membre de droite cidessus sur les chemins x 0:KT ,
1
n n
20.
∑N k )(1 − UNEk (x n
k )) + g(τAk+1:KT ,
x )UNk (x n
k
N { g(k, x
carré
Le k+1:KT )}.
n=1
Afin de mettre en œuvre une descente de gradient stochastique sur l'équation 20 dans ,A doit être lissé pendant l'entraînement
en modifiant sa fonction d'activation de sortie de manière à correspondre à (0, 1) plutôt qu'à {0, 1}. Becker et coll. (2019) proposent
de réutiliser les mêmes poids NN pour les substituts Ak apaisés et à seuil strict . Dans une prépublication très récente, Reppen
et al. (2022) envisagent d'apprendre l'ensemble d'arrêt St à travers son graphique ou sa limite (supposée être une courbe lisse, par
exemple, comme dans les configurations de put américaines).
La stratégie naturelle consistant à trouver des grecs pour les contrats bermudiens sur la base du substitut déjà calculé pour V
(t, x) a été traitée par Belomestny et al. (2010b), Jain et Oosterlee (2015), Glau et al. (2019b) et Jain et al. (2019). Option Swing :
un contrat qui
offre une certaine
flexibilité quant au
6.2. Extensions : Swinging, Switching et Impulsion Audelà des options américaines, moment et à la quantité
d'un produit qui est pris ;
les OSP sont très pertinents en tant qu'éléments de base pour d'autres problèmes de prise de décision dynamique. Par exemple,
l'acheteur dispose
dans plusieurs formulations d'arrêt optimales, le décideur doit sélectionner une séquence de τ 1 < τ 2 < ∙ ∙ ∙ < τ M temps d'arrêt de plusieurs possibilités
distincts et maximiser −rτm g(Xτm )]. Cela correspond à prendre une séquence de M décisions dans le but de E[ ∑ maximiser la d'exercice pour modifier la quantité liv
m
C'est
récompense globale actualisée. De telles options de swing sont courantes dans le secteur des matières premières et

marchés de l’électricité (Carmona & Touzi 2008). L’extension du RMC aux arrêts multiples nécessite la construction de
substituts Vˆ (m) (k, x) qui énumèrent le nombre m de droits d’exercice restants, capturant la valeur marginale de chaque
décision. Chaque Vˆ (m) m ≥ 1 est caractérisé comme une solution d'un OSP, où le gain est lié à Vˆ (m−1). Le RMC pour les
arrêts multiples a été lancé par Meinshausen & Hambly (2004) en utilisant des modèles linéaires. Les lecteurs sont renvoyés
à Kirkby & Deng (2019) pour une version utilisant des Bsplines et à Ludkovski (2021) pour une mise en œuvre avec les
médecins généralistes. Deschatre & Mikael (2020) étendent le paramétrage politique de Becker et al. (2019) aux contrats
multiexercices.
Des formulations de commutation optimales apparaissent dans la limite M → ∞ cidessus, dans lesquelles le contrôleur
est capable de prendre une série infinie de décisions discrètes, modifiant séquentiellement l'état du système contrôlé (Xt).
Cette classe de modèles englobe également la situation dans laquelle les décisions ne sont pas binaires mais se situent
dans un espace d'action fini U. Des études de cas motivantes incluent le contrôle marche/arrêt d'une centrale électrique, la
gestion des installations de stockage de gaz naturel (qui peuvent être dans le domaine de l'injection de gaz). , prélèvements
de gaz et régimes de détention) (Carmona & Ludkovski 2010, Mazières & Boogert 2013, Nadarajah et al. 2017, Ludkovski &
Maheshwari 2020) et des modèles d'expansion de capacité (Aid et al. 2014). Les algorithmes basés sur la simulation pour
une commutation optimale construisent plusieurs substituts V (u) (k, x) qui sont indexés par le régime de contrôle actuel u
U. Parmi les travaux récents, Ludkovski & Maheshwari (2020) étudient les substituts GP à cette fin et Bachouch et Al. (2022)
considèrent les NN profonds.
Le contrôle des impulsions est une autre généralisation qui comporte une double séquence de temps d'arrêt) est soumis
UN
et les montants d'impulsion, A := (τ m, zm). L'interprétation est que le processus d'état (X à la dynamique de t
l'équation différentielle stochastique, ainsi que les interventions ou chocs grumeleux répétés µ(X t,x,A )dr + ∫ σ (X t,x,A de
s s
à des moments
contrôleur est de maximiser choisis τ générées
les récompenses m [0, T] par
: XtX,x,A = x actions.
et ses +∫ taille zm )dWr + zm Le but du
s t r t r
∑
m:t<τm≤s
(τ m, zm). Le contrôle des impulsions peut être réduit à des arrêts optimaux répétés où l'action est composée : Après avoir
décidé d'agir, le contrôleur évalue l'opérateur d'intervention MV(t, x) := supz {V(t, x + z) − κ( x, z)} pour sélectionner la
sèccA
meilleure impulsion. Ludkovski (2022) et Deschatre & Mikael (2020) apportent plus de détails.
.nnA
7. SUBSTITUTS DANS LES ALGORITHMES DE CONTRÔLE STOCHASTIQUE
Dans le contrôle stochastique de Markov, le point de départ de l'apprentissage statistique est l'équation de Bellman, qui
fournit une caractérisation récursive de la fonction de valeur sousjacente. Soit (X u ) le processus d'état contrôléken temps
discret, avec des commandes (uk) prenant des valeurs dans uk U R p . Soit g(k, x, u) le coût par étapes qui dépend de
l'état actuel x et contrôle u. Puis l'équation de Bellman KT − 1} avec condition terminale V¯ (x) pour minimiser les coûts sur
l'horizon k {0, 1,. . . , est
V (k, x) = inf dans
V (KT , x) = V¯ (x), 21.

U{ g(k, x, u) + E [ V (k + 1, X )| Xk = x ] } ,
k+1
u
avec l'exposant soulignant l'influence du contrôle sur la densité de transition de X u Comme dans la section k+1 |Xk.
précédente, une approche de plus en plus populaire consiste à construire des approximateurs fonctionnels V(k, ∙) qui sont
entraînés sur la base d'échantillons empiriques de (Xk, uk, X uk au moins à Chen et al. ). Cette approche remonte
k+1
(1999), qui ont proposé des substituts de spline. Les lecteurs peuvent se référer à Deisenroth et al. (2009) pour une
implémentation GP et à Belomestny et al. (2010a) pour des modèles linéaires du type de RMC Récemment, on a assisté à
une explosion d’intérêt pour l’application du deep learning (Han & E 2016, Fecamp et al. 2020, Germain et al. 2021, Bachouch
et al. 2022).
Une approche différente consiste à paramétrer l’ensemble des stratégies (k, ∙) puis pour maximiser ex
attendues pour la récompense sur (Huré et al. 2021). Une autre alternative consiste à apprendre la valeur q q(k, x, u) qui
résume les coûts à accomplir conjointement en termes de paires étataction ; la politique optimale est ensuite extraite sous la forme
288 Ludkovski
minimiseur deq(k, x, ∙) (Chen & Ludkovski 2021). Notez que dans l’équation 21, le contrôle de rétroaction optimal u
(k, x) peut être caractérisé en termes de gradient de V (k, x), en lien avec la littérature de la section 4. Ce couplage
intrinsèque entre la fonction de valeur et la rétroaction le contrôle est affaibli dans les approches acteurcritique qui
construisent des substituts distincts pour V et u dans l’intérêt de l’efficacité informatique (Guéant & Manziuk 2019, Cao et
al. 2021). La conception expérimentale de l’équation 21 est abordée, par exemple, dans l’approche de randomisation
contrôlée (Kharroubi et al. 2014, Zhang et al. 2019).
En complément de ce qui précède, des techniques d'apprentissage automatique pour les EDP non linéaires, qui
peuvent être utilisées pour caractériser des problèmes de contrôle stochastique en temps continu à l'aide de la
représentation HamiltonJacobiBellman. Une méthode Deep Galerkin respective a été proposée par Sirignano &
Spiliopoulos (2018) et a généré près de 1 000 citations en moins de 5 ans.
Il existe désormais une longue liste de problèmes spécifiques de contrôle financier pour lesquels des algorithmes
d'apprentissage automatique statistique ont été repris. Nous mentionnons l'optimisation de portefeuille avec les coûts de
transaction (Cong & Oosterlee 2016, Zhang et al. 2019), l'exécution optimale dans les carnets d'ordres limités (Leal et al.
2020) et de tenue de marché (Guéant & Manziuk 2019). D'autres applications motivées par les paramètres des
mathématiques financières incluent le contrôle robuste (adaptatif) (Chen & Ludkovski 2021), les problèmes d'agent
principal (Baldacci et al. 2019), le contrôle contraint (Balata et al. 2021), les problèmes de classement (Hu 2019), et les
problèmes McKeanVlasov (Carmona & Laurière 2021).
Un domaine de recherche fructueux a été d’étendre les méthodes cidessus aux jeux stochastiques, où les stratégies
d’équilibre sont caractérisées par des conditions de meilleure réponse (Han & Hu 2020, Laurière 2021). L’une des
motivations est que la recherche d’équilibres nécessite une optimisation répétée des meilleures réponses, ce qui est
coûteux à réaliser directement et où des substituts rapides sont grandement bénéfiques. Les concepts d'itération en
virgule fixe peuvent être combinés avec l'entraînement séquentiel du substitut pour obtenir la meilleure réponse (voir, par
exemple, la classe des algorithmes de jeu fictifs).
sèccA
Enfin, nous mentionnons au passage les approches d'apprentissage par renforcement (RL) qui visent à résoudre V
.nnA
(t, x) d'un seul coup dans l'espace et dans le temps (Dixon et al. 2020, Charpentier et al. 2021, Hambly et al.
2021). RL a été étudié en particulier pour l'apprentissage de stratégies de couverture basées sur les données (Buehler et
al. 2019, Kolm & Ritter 2019, Cao et al. 2021, Giurca & Borovkova 2021, Ruf & Wang 2022) qui aspirent à être sans
modèle.
8. PERSPECTIVES
Historiquement, l’apprentissage statistique en QF a évolué de manière semiindépendante à travers plusieurs applications

distinctes telles que la tarification des options américaines et l’apprentissage de la surface de volatilité implicite. Il n’en
reste pas moins que de nombreux articles proposent de nouvelles méthodologies adaptées à un contexte étroit ou très
spécifique, de sorte que leur pertinence plus large est difficile à évaluer. Les suites logicielles récentes comme celles de
Gevret et al. (2018) et Ludkovski (2021) visent à faciliter une telle métaanalyse et comparaison croisée. Un autre écart
réside entre les bancs d'essai courants dans les cercles universitaires et les préoccupations pratiques auxquelles sont
confrontés les praticiens, de sorte que l'applicabilité réelle des nouvelles méthodes est souvent limitée.
Nous assistons actuellement à une vague de publications théoriques ainsi qu’à une prolifération de startups
industrielles qui revendiquent des avancées informatiques rendues possibles par des techniques telles que l’apprentissage
profond. Il faudra un certain temps pour déterminer quelles seront les avancées de longue date qui résisteront à l’épreuve
du temps. Ce qui est clair, c'est que les applications QF disposent de suffisamment de fonctionnalités spécialisées pour
que la personnalisation et l'adaptation soient essentielles. Par conséquent, aucun outil ne sera jamais adapté à toutes les tâches.
En tant que tel, il vaut la peine d’adopter la perspective plus élevée offerte par les théories de l’apprentissage statistique
et de maîtriser simultanément le langage de la stochastique, de la finance, des statistiques et de l’apprentissage
automatique.

QUESTIONS FUTURES
1. Les obstacles dus à la terminologie différente utilisée dans les communautés de recherche restent un défi
mais offrent également des opportunités continues de transfert de connaissances.
2. Il est nécessaire de disposer de meilleurs bancs d’essai d’analyse comparative. Malgré de nombreux
travaux récents fournissant des progiciels et des blocsnotes informatiques reproductibles, il existe un
manque de références communes pour permettre une comparaison significative des outils et une définition
des performances de pointe.
3. La sélection raisonnée des types de substituts et des modèles de formation reste sousexplorée dans
applications de finance quantitative.
DÉCLARATION DE DIVULGATION
L'auteur n'a connaissance d'aucune affiliation, adhésion, financement ou participation financière qui pourrait être perçue
comme affectant l'objectivité de cet examen.
REMERCIEMENTS
ML est partiellement soutenu par la subvention DMS1821240 de la National Science Foundation. Les commentaires
d'un évaluateur anonyme sont appréciés.
OUVRAGES CITÉS
Ackerer D, Tagasovska N, Vatter T. 2020. Lissage profond de la surface de volatilité implicite.Adv. Informations neuronales.
sèccA
Proc. Système. 33 : 11552–

.nnA
63 Agarwal A, Juneja S. 2015. Technique d'estimation basée sur le voisin le plus proche pour la tarification des options bermudiennes. Int.
Théorie des jeux Rév. 17(1):1540002
Aid R, Campi L, Langrené N, Pham H. 2014. Une méthode numérique probabiliste pour des problèmes de commutation multiples
optimaux en grande dimension. SIAM J. Financ. Mathématiques. 5(1):191–231
Bachouch A, Huré C, Langrené N, Pham H. 2022. Algorithmes de réseaux de neurones profonds pour les problèmes de contrôle
stochastique sur horizon fini : applications numériques. Méthode. Calculer. Appl. Probablement. 24(1):143–78 Balata A,
Ludkovski M, Maheshwari A, Palczewski J. 2021. Apprentissage statistique pour les contraintes de probabilité
contrôle optimal stochastique. EUR. J. Opér. Rés. 290(2):64056
Balata A, Palczewski J. 2017. Monte Carlo régressé plus tard pour un contrôle optimal des stocks avec des applications dans
énergie. arXiv:1703.06461 [math.OC]
Balata A, Palczewski J. 2018. Régression de Monte Carlo ultérieure pour un contrôle optimal des processus de Markov. arXiv:1712.09705
[math.OC]
Baldacci B, Manziuk I, Mastrolia T, Rosenbaum M. 2019. Création de marché et conception d'incitations en présence d'un dark pool : une
approche d'apprentissage par renforcement profond. arXiv:1912.01129 [qfin.MF]
Bayer C, Horvath B, Muguruza A, Stemper B, Tomas M. 2019. Sur l'étalonnage en profondeur des modèles de volatilité stochastique
(rugueux). arXiv:1908.08806 [qfin.MF]
Becker S, Cheridito P, Jentzen A. 2019. Arrêt optimal en profondeur. J. Mach. Apprendre. Rés. 20 : 2712–36 Becker S,
Cheridito P, Jentzen A. 2020. Tarification et couverture des options de style américain avec apprentissage en profondeur.
J. Financement des risques. Gérer.
13(7):158 Belomestny D. 2011a. Sur les taux de convergence des algorithmes d'optimisation basés sur la simulation pour une
arrêter les problèmes. Anne. Appl. Probablement. 21(1):21539
Belomestny D. 2011b. Tarification des options bermudiennes par régression non paramétrique : taux de convergence optimaux pour les
estimations inférieures. Finances Stochast. 15(4):655–83
Belomestny D, Kolodko A, Schoenmakers J. 2010a. Méthodes de régression pour les problèmes de contrôle stochastique et leur analyse
de convergence. SIAM J. Contrôle Optim. 48(5):356288
290 Ludkovski
Belomestny D, Milstein GN, Schoenmakers J. 2010b. Sensibilités des options bermudiennes par méthodes de régression. Décis. Écon.
Finance 33(2):117–38 Belomestny D, Schoenmakers
J. 2018. Méthodes avancées basées sur la simulation pour un arrêt et un contrôle optimaux :
Avec des applications en finance. Londres : Palgrave Macmillan
Belomestny D, Schoenmakers J, Spokoiny V, Tavyrikov Y. 2018. Arrêt optimal via une régression arrière profondément renforcée.
arXiv:1808.02341 [math.NA]
Benth FE, Detering N, Lavagnini S. 2021. Précision de l'apprentissage profond dans le calibrage des courbes avant HJM. Chiffre.
Finances 3(3):20948
Binois M, Gramacy RB, Ludkovski M. 2018. Modélisation pratique de processus gaussiens hétéroscédastiques pour les grands
expériences de simulation. J. Informatique. Graphique. Stat. 27(4):80821
Bouchard B, Warin X. 2011. Valorisation MonteCarlo des options américaines : faits et nouveaux algorithmes pour améliorer les
méthodes existantes. Dans Méthodes numériques en finance, éd. R Carmona, PD Moral, P Hu, N Oudjane, pp. Heidelberg,
Allemagne : Springer
Broadie M, Cao M. 2008. Amélioration des algorithmes de limites inférieures et supérieures pour la tarification des options américaines en
simulation. Quant. Finance 8(8):845–61 Buehler
H, Gonon L, Teichmann J, Wood B. 2019. Couverture profonde. Quant. Finance 19(8):1271–91 Cao J, Chen J, Hull J,
Poulos Z. 2021. Couverture approfondie des produits dérivés par apprentissage par renforcement. J. Finance.
Science des données. 3(1):1027
Capponi A, Lehalle CA, éd. 2022. Apprentissage automatique sur les marchés financiers : un guide de la pratique contemporaine.
Cambridge, RoyaumeUni : Cambridge Univ. Presse. Sous
presse Capriotti L, Giles M. 2012. Les Grecs adjoints rendus faciles. Risk 25(9):92–98
Capriotti L, Jiang Y, Macrina A. 2017. AAD et Monte Carlo aux moindres carrés : options rapides de style bermudien et grecs XVA.
Algorithmic Finance 6(1–2):35–49 Carmona R, Laurière
M. 2021. Apprentissage profond pour les jeux de champ moyen et le contrôle de champ moyen avec des applications
financer. arXiv:2107.04568 [math.OC]
Carmona R, Ludkovski M. 2010. Valorisation du stockage d'énergie : une approche de commutation optimale. Quant. Finance
10(4):35974
sèccA
.nnA
Carmona R, Touzi N. 2008. Arrêt multiple optimal et valorisation des options swing. Mathématiques. Finance
18(2):23968
Charpentier A, Elie R, Remlinger C. 2021. Apprentissage par renforcement en économie et finance. Calculer. Écon.
Dans la presse. https://doi.org/10.1007/s10614021101194
Chataigner M. 2021. Quelques apports du machine learning à la finance quantitative : volatilité, prévision immédiate, compression CVA.
Thèse de doctorat, Univ. ParisSaclay, Paris Chataigner M,
Cousin A, Crépey S, Dixon M, Gueye D. 2021. Audelà de la modélisation de substitution : apprendre le local
volatilité via des contraintes de forme. SIAM J. Financ. Mathématiques. 12(3):SC58–69
Chataigner M, Crépey S, Dixon M. 2020. Profonde volatilité locale. Risks 8(3):82 Chen T,
Ludkovski M. 2021. Une approche d'apprentissage automatique pour la maximisation et la couverture adaptatives et robustes de l'utilité.
SIAM J. Financ. Mathématiques. 12(3):1226–56 Chen V,
Ruppert D, Shoemaker C. 1999. Application de la conception expérimentale et des splines de régression à la programmation dynamique
stochastique à état continu de grande dimension. Opéra. Rés. 47(1):38–53 Cheridito P, Gersey B. 2021. Calcul des
attentes conditionnelles avec garanties. arXiv:2112.01804
[stat.CO]
Clément E, Lamberton D, Protter P. 2002. Une analyse d'un algorithme de régression des moindres carrés pour la tarification des options
américaines. Finances Stochast. 6 : 44971 Cong
F, Oosterlee CW. 2016. Optimisation du portefeuille moyennevariance sur plusieurs périodes basée sur la simulation MonteCarlo. J.
Écon. Dynam. Control 64 : 23–38 Cousin A, Maatouk
H, Rullière D. 2016. Kriging des structures de termes financiers. EUR. J. Opér. Rés. 255(2):631–48 Crépey S, Dixon MF. 2020. Régression
de processus gaussien pour la modélisation de portefeuilles de produits dérivés et application à
calculs d’ajustement de la valorisation du crédit. J. Informatique. Finances 24(1):4781
Culkin R, Das SR. 2017. Machine learning en finance : le cas du deep learning pour la tarification des options. J. Investir.
Gérer. 15(4):92100 Davis
J, Devos L, Reyners S, Schoutens W. 2020. Augmentation du gradient pour la finance quantitative. J. Informatique. Finance
24(4):140

De Spiegeleer J, Madan DB, Reyners S, Schoutens W. 2018. Apprentissage automatique pour la finance quantitative : rapide
tarification, couverture et ajustement des produits dérivés. Quant. Finances 18(10):163543
Deisenroth MP, Rasmussen CE, Peters J. 2009. Programmation dynamique du processus gaussien. Neuroinformatique
72(7):150824
Deschatre T, Mikael J. 2020. Optimisation combinatoire profonde pour des problèmes de temps d'arrêt optimaux : application à la tarification des
options swing. arXiv:2001.11247 [qfin.CP]
Dixon MF, Halperin I, Bilokon P. 2020. Apprentissage automatique en finance. Cham, Suisse : Springer Dugas C, Bengio Y,
Bélisle F, Nadeau C, Garcia R. 2000. Intégration de connaissances fonctionnelles de second ordre pour une meilleure tarification des options. Av.
Informations neuronales. Proc. Système. 13:472–78 Dugas C, Bengio Y, Bélisle F,
Nadeau C, Garcia R. 2009. Intégration des connaissances fonctionnelles dans les réseaux de neurones. J. Mach. Apprendre. Rés. 10:1239–62
Duvenaud D. 2014. Construction automatique de
modèles avec processus gaussiens. Thèse de doctorat, Univ. Cambridge,

Cambridge, RoyaumeUni
Egloff D. 2005. Algorithmes de Monte Carlo pour un arrêt optimal et un apprentissage statistique. Anne. Appl. Probablement.
15(2):1396432
Egloff D, Kohler M, Todorovic N. 2007. Un algorithme de Monte Carlo dynamique d'anticipation pour la tarification des options bermudiennes. Anne.
Appl. Probabilité 17(4):1138–71 Elie R, Perolat J, Laurière
M, Geist M, Pietquin O. 2020. Sur la convergence de l'apprentissage libre de modèles dans les jeux à champ moyen. Dans Actes de la conférence
AAAI sur l'intelligence artificielle, Vol. 34, p. 714350. Palo Alto, Californie : AAAI
Fecamp S, Mikael J, Warin X. 2020. Apprentissage profond pour la couverture en temps discret sur des marchés incomplets. J. Informatique.
Finances 25(2):51–85
Fengler M. 2009. Lissage sans arbitrage de la surface de volatilité implicite. Quant. Finances 9(4):41728 Ferguson R, Green AD. 2018.
Apprentissage en profondeur des dérivés. Travail du SSRN. Bouillie. 3244821 Fromkorth A, Kohler M. 2011.
Analyse des estimations de régression des moindres carrés en cas d'erreurs supplémentaires dans les variables. J.Stat. Plan. Inférence 141(1):172–
88 Fu H, Jin X, Pan G, Yang Y. 2012. Estimation simultanée
sèccA
des Grecs à options multiples à l'aide de la régression à paramètres aléatoires. J. Informatique. Finance 16(2):85–118 Garcia R, Gençay R. 2000.
.nnA
Tarification et couverture des titres dérivés avec des

réseaux de neurones et un indice d'homogénéité. J. Économ. 94(1–2):93–115 Gaß M, Glau K, Mahlstedt M, Mair M. 2018. Interpolation Chebyshev
pour la tarification paramétrique des
options. Finances Stochast. 22(3):70131
Gatheral J. 2011. La surface de volatilité : guide du praticien. Hoboken, NJ : John Wiley & Sons Gençay R, Qi M. 2001. Tarification
et couverture des titres dérivés avec des réseaux de neurones : régularisation bayésienne, arrêt anticipé et ensachage. IEEETrans. Réseau
neuronal. 12(4):726–34 Germain M, Pham H, Warin X. 2021. Algorithmes basés sur les
réseaux de neurones pour le contrôle stochastique et les PDE dans
finance. arXiv : 2101. [math.OC]
Gevret H, Langrené N, Lelong J, Warin X, Maheshwari A. 2018. Bibliothèque STochastic OPTimization en C++. Rés.
Rep., EDF Lab., Paris Giurca
A, Borovkova S. 2021. Couverture delta des produits dérivés par apprentissage par renforcement profond. Travail du SSRN. Bouillie.
3847272
Glasserman P. 2004. Méthodes de Monte Carlo en ingénierie financière. New York : Springer Glasserman P, Yu B.
2004a. Nombre de chemins versus nombre de fonctions de base dans la tarification des options américaines.
Allez. Appl. Probablement. 14(4):2090119
Glasserman P, Yu B. 2004b. Simulation pour les options américaines : régression maintenant ou régression plus tard ? Dans Méthodes Monte
Carlo et QuasiMonte Carlo 2002, éd. H Niederreiter, pp. Berlin : Springer Glau K, Herold P, Madan DB, Pötz C. 2019a. La
méthode Chebyshev pour la volatilité implicite. J. Informatique.
Finances 23(3):1–31
Glau K, Kressner D, Statti F. 2020. approximation du tenseur de bas rang pour l'interpolation de Chebyshev en paramétrique
tarification des options. SIAM J. Financ. Mathématiques. 11(3):897927
Glau K, Mahlstedt M. 2019. Limite d'erreur améliorée pour l'interpolation polynomiale multivariée de Chebyshev. Int.
J. Informatique. Mathématiques. 96(11):230214
292 Ludkovski
Glau K, Mahlstedt M, Pötz C. 2019b. Une nouvelle approche pour la tarification des options américaines : la méthode dynamique Chebyshev. SIAM J.
Sci. Calculer. 41(1):B153–80 Gonon L, Schwab C. 2021. Taux
d'expression du réseau Deep ReLU pour les prix des options en haute dimension,
modèles de Lévy exponentiels. Finances Stochast. 25(4):61557

Goudenège L, Molent A, Zanette A. 2019. Réduction de la variance appliquée à l'apprentissage automatique pour la tarification des options
bermudiennes/américaines en haute dimension. arXiv:1903.11275 [qfin.CP]

Goudenège L,Molent A, Zanette A. 2020.Apprentissage automatique pour la tarification des options américaines en haute dimension
Modèles markoviens et non markoviens. Quant. Finances 20(4):57391
Gramacy RB. 2020. Substituts : modélisation, conception et optimisation de processus gaussiens pour les sciences appliquées. Boca
Raton, Floride : CRC
Gramacy RB, Ludkovski M. 2015. Conception séquentielle pour des problèmes d'arrêt optimaux. SIAM J. Financ. Mathématiques.
6(1):74875
Guéant O, Manziuk I. 2019. Apprentissage par renforcement profond pour la tenue de marché des obligations d'entreprises : battre le
malédiction de la dimensionnalité. Appl. Mathématiques. Finances 26(5):387452

Györfi L, Kohler M, Krzyzak A, Walk H. 2002. Une théorie de la régression non paramétrique sans distribution, Vol. 1.
New York : Springer
Halperin I. 2020. QLBS : Qlearner dans les mondes BlackScholes (Merton). J. Dériv. 28(1):99–122 Hambly B, Xu R, Yang H. 2021.
Progrès récents dans l’apprentissage par renforcement en finance. arXiv:2112.04553
[qfin.MF]
Han J, E W. 2016. approximation d'apprentissage profond pour les problèmes de contrôle stochastique. arXiv:1611.07422 [cs.LG]
Han J, Hu R. 2020. Jeu fictif profond pour trouver l'équilibre markovien de Nash dans les jeux multiagents. Proc.
Mach. Apprendre. Rés. 107 : 22145
Haugh M, Kogan L. 2004. Tarification des options américaines : une approche duale. Opéra. Rés. 52(2):258–70 Hornik K, Stinchcombe
M, White H. 1990. approximation universelle d'une cartographie inconnue et de ses dérivés à l'aide de réseaux à réaction multicouche. Réseau
neuronal. 3(5):551–60 Horvath B, Muguruza A, Tomas M. 2021. Volatilité de l'apprentissage profond : une
perspective de réseau neuronal profond sur
tarification et calibrage dans les modèles de volatilité (grossiers). Quant. Finance 21(1):11–27 Hu R. 2019.
sèccA
.nnA
Jeu fictif profond pour les jeux différentiels stochastiques. arXiv:1903.09376 [math.OC]
Hu W, Zastawniak T. 2020. Tarification des options américaines de grande dimension par régression de crête de noyau. Quant.
Finances 20(5):85165
Huh J. 2019. Options de tarification avec réseau neuronal exponentiel de Lévy. Système expert. Appl. 127 : 128–40 Huré C, Pham H,
Bachouch A, Langrené N. 2021. Algorithmes de réseaux de neurones profonds pour des problèmes de contrôle stochastique à horizon fini : analyse
de convergence. SIAM J. Numéro. Anal. 59(1):525–57 Hutchinson JM, Lo AW, Poggio T. 1994. Une approche non
paramétrique de la tarification et de la couverture des dérivés
titres via des réseaux d’apprentissage. J. Finances 49(3):851–89

Itkin A. 2019. Calibrage d'apprentissage profond des modèles de tarification d'options : quelques pièges et solutions. arXiv:1906.03507 [qfin.CP]
Jain S, Leitao Á, Oosterlee CW. 2019. Adjoints roulants : Grecs rapides selon les scénarios de Monte Carlo pour les options d'exercice précoce. J.
Informatique. Sci. 33 : 95112 Jain S, Oosterlee CW.
2015. La méthode de regroupement de grille stochastique : tarification efficace des options bermudiennes et de leurs grecques. Appl. Mathématiques.
Calculer. 269 : 412–31 James G, Witten D, Hastie T, Tibshirani
R. 2013. Une introduction à l'apprentissage statistique. New York : Springer Ke G, Meng Q, Finley T, Wang T, Chen W et al. 2017. LightGBM : Un
boosting de gradient très efficace
arbre de décision. Av. Informations neuronales. Proc. Système. 30:314654

Kharroubi I, Langrené N, Pham H. 2014. Un algorithme numérique pour les équations HJB entièrement non linéaires : une approche par randomisation
de contrôle. Méthodes de Monte Carlo Appl. 20(2):145–65 Kirkby J, Deng S. 2019. Tarification des
options Swing par programmation dynamique avec projection de densité Bspline. Int.
J. Théor. Appl. Finances 22(08):1950038
Kohler M. 2008. Un algorithme de Monte Carlo spline de lissage basé sur la régression pour la tarification des options américaines en temps discret.
Av. Stat. Anal. 92(2):153–78 Kohler M. 2010. Une revue des
méthodes de Monte Carlo basées sur la régression pour la tarification des options américaines. Dans Développements récents en probabilités
appliquées et statistiques, éd. L Devroye, B Karasözen, M Kohler, R Kornpp, pp. Heidelberg, Allemagne : Springer

˙
Kohler M, Krzyzak A. 2012. Tarification des options américaines en temps discret à l'aide d'estimations par les moindres carrés avec
pénalités de complexité. J.Stat. Plan. Inférence 142(8):2289307

˙
Kohler M, Krzyzak A, Todorovic N. 2010. Tarification des options américaines de grande dimension par les réseaux de neurones.
Mathématiques. Finance 20(3):383–
410 Kolm PN, Ritter G. 2019. Réplication et couverture dynamiques : une approche d'apprentissage par renforcement. J. Finance.
Science des données.
1(1):159–71 Laurière M. 2021. Méthodes numériques pour les jeux de champ moyen et le contrôle de type de champ moyen. Dans les jeux de champ moyen,
éd. F Delarue, p. 1011 22182. Providence, RI : Am. Mathématiques. Soc.
Leal L, Laurière M, Lehalle CA. 2020. Apprentissage d'un contrôle fonctionnel pour la finance haute fréquence. arXiv:2006.09611 [math.OC]
Lemieux C. 2009. Échantillonnage de Monte Carlo et quasiMonte Carlo. New York : Springer Liu S, Borovykh A,
Grzelak LA, Oosterlee CW. 2019. Un cadre basé sur un réseau neuronal pour l'étalonnage des modèles financiers. J. Math. Ind.9 (1):9 Longstaff FA,
Schwartz ES. 2001. Valorisation des
options américaines par simulation : une approche simple des moindres carrés.
Révérend Finance. Goujon. 14(1):113–47
Ludkovski M. 2018. Métamodèles de krigeage et conception expérimentale pour la tarification des options aux Bermudes. J. Informatique.
Finances 22(1):3777
Ludkovski M. 2020. mlOSP : Vers une implémentation unifiée des algorithmes de régression Monte Carlo. arXiv:2012.00729 [qfin.CP]
Ludkovski M. 2021. mlOSP : Algorithmes de régression Monte Carlo pour un arrêt optimal. Paquet R, version 1.0.
https://github.com/mludkov/mlOSP Ludkovski M. 2022.
Régression Monte Carlo pour le contrôle des impulsions. Mathématiques. Action 11 : 73–90 Ludkovski M, Maheshwari A.
2020. Méthodes de simulation pour les problèmes de stockage stochastique : un apprentissage statistique
perspective. Système énergétique. 11(2):377415
Ludkovski M, Saporito Y. 2022. KrigHedge : substituts du processus gaussien pour la couverture Delta. Appl. Mathématiques.
Finance 28(4):330–60 Maran
sèccA
.nnA
A, Pallavicini A, Scoleri S. 2021. Grecs de Chebyshev : Lisser le gamma sans biais. Travail du SSRN. Bouillie.
3872744
Mazières D, Boogert A. 2013. Une approche par fonction de base radiale pour la valorisation du stockage de gaz. J. Marque énergétique. 6(2):19–
50
Meinshausen N, Hambly BM. 2004. Méthodes de Monte Carlo pour la valorisation des options à exercice multiple.
Mathématiques. Finances 14(4):55783
Nadarajah S, Margot F, Secomandi N. 2017. Comparaison des méthodes de Monte Carlo des moindres carrés avec des applications aux options
énergétiques réelles. EUR. J. Opér. Rés. 256(1):196–204 Olivares P, Alvarez A. 2016. Options
de panier de tarification par approximations polynomiales. J. Appl. Math. 2016 : 9747394 Rasmussen CE, Williams CKI. 2006. Processus gaussiens
pour l'apprentissage automatique. Cambridge, MA : MIT Press Reppen AM, Soner HM, TissotDaguette V. 2022. Limite d'arrêt neuronale optimale.
arXiv:2205.04595
[qfin.PR]
Risk J, Ludkovski M. 2018. Conception séquentielle et modélisation spatiale pour la mesure du risque extrême du portefeuille. SIAM J. Financ.
Mathématiques. 9(4):1137–74 Roustant
O, Ginsbourger D, Deville Y. 2012. DiceKriging, DiceOptim : deux packages R pour l'analyse d'expériences informatiques par métamodélisation et
optimisation basées sur le krigeage. J.Stat. Logiciel. 51(1):1–55 Ruf J, Wang W. 2020. Réseaux de neurones pour la tarification et la
couverture des options : une revue de la littérature. J. Informatique. Finance

24(1):146
Ruf J, Wang W. 2022. Couverture avec régressions linéaires et réseaux de neurones. J.Autobus. Écon. Stat. 40(4):1442–54 Ruppert D. 2004.
Statistiques et finances : une introduction. New York : Springer Sirignano J, Spiliopoulos K. 2018. DGM :
un algorithme d'apprentissage en profondeur pour résoudre des équations aux dérivées partielles.
J. Informatique. Phys. 375 : 1339–64
Tompaidis S, Yang C. 2013. Tarification des options à l'américaine par simulation de Monte Carlo : alternatives à
moindres carrés ordinaires. J. Informatique. Finances 18(1):12143
Tsitsiklis JN, van Roy B. 2001. Méthodes de régression pour la tarification d'options complexes à l'américaine. IEEETrans.
Réseau neuronal. 12(4):694703
294 Ludkovski
Whalley AE, Wilmott P. 1997. Une analyse asymptotique d'un modèle de couverture optimal pour la tarification des options avec coûts de transaction.
Mathématiques. Finance 7(3):307–24 Yang Y, Zheng Y,
Hospedales T. 2017. Réseaux de neurones fermés pour la tarification des options : rationalité dès la conception.
Dans Actes de la trente et unième conférence AAAI sur l'intelligence artificielle, éd. S Singh, S Markovitch, pp. Palo Alto : Presse AAAI
Zanger DZ. 2018. Convergence d'un algorithme de Monte Carlo des moindres carrés pour la tarification des options américaines avec
données d’échantillon dépendantes. Mathématiques. Finances 28(1):44779
Zhang R, Langrené N, Tian Y, Zhu Z, Klebaner F, Hamza K. 2019. Optimisation dynamique de portefeuille avec coût de liquidité et impact sur le marché : une
approche de simulation et de régression. Quant. Finance 19(3):519–32 Zheng Y, Yang Y, Chen B. 2021. Intégration de connaissances antérieures
dans le domaine financier dans les réseaux de neurones pour la prédiction de la surface de volatilité implicite. Dans Actes de la 27e conférence ACM SIGKDD
sur la découverte des connaissances et l'exploration de données, pp. New York : Assoc. Calculer. Mach.
sèccA
.nnA

Examen annuel de
Statistiques et
Contenu Son application
Tome 10, 2023
Cinquante ans du modèle Cox

John D. Kalbfleisch et Douglas E. Schaubel ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣ 1
Analyse de survie en grande dimension : méthodes et applications

Stephen Salerno et Yi Li ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣25
Méthodes de fragilité partagées pour les données de survie complexes : un examen

des avancées récentes
Malka Gorfine et David M. Zucker ♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣♣♣♣♣51
Paramètres de substitution dans les essais cliniques

Michael R. Elliott ♣♣♣♣♣♣♣ 75
Renforcement durable des capacités statistiques pour l’Afrique :

Le cas de la biostatistique
Tarylee Reddy, Rebecca Nsubuga, Tobias Chirwa, Ziv Shkedy, Ann Mwangi,
Ayele Tadesse a réveillé, Luc Duchateau et Paul Janssen ♣ oration:ours
sèccA
.nnA
Protection de la confidentialité dans le recensement américain de la population de 2020

et logement
John M. Abowd et Michael B. Hawes ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣ ♣♣ 119
Le rôle des statistiques dans la promotion de la réutilisabilité des données

et transparence de la recherche
Sarah M. Nusser ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ 145
Algorithmes de risque équitables
Richard A. Berk, Arun Kumar Kuchibhotla et Eric Tchetgen Tchetgen ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ 165
Confidentialité des données statistiques : une chanson de confidentialité et d'utilité

'
Aleksandra Slavkovic et Jeremy Seeman ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣ 189
Un bref aperçu de l'apprentissage profond d'un point de vue statistique

Eric Nalisnick, Padhraic Smyth et Dustin Tran Accord estès tend S Siner traite 219
Deep Learning statistique pour les données spatiales et spatiotemporelles

Christopher K. Wikle et Andrew ZammitMangion 247
Apprentissage automatique statistique pour la finance quantitative

M. Ludkovski ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ 271
Modèles pour données entières

Dimitris Karlis et Naushad Mamode Khan ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣ 297
Modèles génératifs : une perspective interdisciplinaire

Kris Sankaran et Susan P. Holmes ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣ 325
Intégration de données en phylogénétique bayésienne

Gabriel W. Hassler, Andrew F. Magee, Zhenyu Zhang, Guy Baele,
Philippe Lemey, Xiang Ji, Mathieu Fourment, and Marc A. Suchard ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ 353
Méthodes approximatives pour le calcul bayésien

Radu V. Craiu et Evgeny Levi ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣♣ 379
Analyse bayésienne basée sur la simulation

Martyn Plummer ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ 401
Bootstrap de données haute dimension

Victor Chernozhukov, Denis Chetverikov, Kengo Kato et Yuta Koike ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ 427
Processus de diffusion de l'innovation : concepts, modèles et prévisions

Mariangela Guidolin et Piero Manfredi ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣ ♣♣♣♣ 451
Analyse des points de changement basée sur un graphique
Hao Chen et Lynna Chu ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ 475
Un examen de la généralisabilité et de la transportabilité

501
sèccA
Irina Degtiar et Sherri Rose ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣♣♣♣

.nnA
Méthodes à trois décisions : une formulation judicieuse de la signification

Tests – et bien plus encore
Kenneth M. Rice et Chloé A. Krakauer ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣ 525
Données fonctionnelles de deuxième génération

Salil Koner et AnaMaria Staicu ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣ 547
Clustering basé sur un modèle

Isobel Claire Gormley, Thomas Brendan Murphy et Adrian E. Raftery ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ 573
Diagnostic du modèle et évaluation des prévisions pour les quantiles

Tilmann Gneiting, Daniel Wolffram, Johannes Resin, Kristof Kraus,
Johannes Bracher, Timo Dimitriadis, Veit Hagenmeyer,
Alexander I. Jordan, Sebastian Lerch, Kaleb Phipps et Melanie Schienle ♣♣♣♣♣♣♣♣♣♣♣ 597
Méthodes statistiques pour la détection d'exoplanètes avec des vitesses radiales

Nathan C. Hara et Eric B. Ford ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣ 623
Applications statistiques aux tests de diagnostic cognitif

Susu Zhang, Jingchen Liu et Zhiliang Ying ♣♣♣♣♣♣ ♣♣♣ 651
Données de suivi des joueurs dans le sport

Stéphanie A. Kovalchik ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣ ♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣♣ 677
Six sens statistiques

Radu V. Craiu, Ruobin Gong et XiaoLi Meng ♣♣♣ ♣♣♣♣ 699
Errata
Un journal en ligne des corrections apportées aux articles de la Revue annuelle des statistiques et de ses applications peut
disponible sur http://www.annualreviews.org/errata/statistics
sèccA
.nnA

Ludkovski 2023 Statistical Machine Learning For Quantitative Finance

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Ludkovski 2023 Statistical Machine Learning For Quantitative Finance

Transféré par

Droits d'auteur :

Formats disponibles

Machine Translated by Google

Revue annuelle des statistiques et de leur application

Apprentissage automatique statistique pour la

Année. Tour. Stat. Appl. 2023. 10:271­95

de Chebyshev. La seconde moitié de l'article approfondit les principales applications de l'apprentissage

tarification des options et (e) l’étalonnage du modèle.

Nous détaillons également brièvement l'apprentissage statistique pour le contrôle stochastique et

R¯ ( f ) := E[L( f (X ),Y )].

1.1. Configurations motivantes

ensembles de données d'entraînement changent.

1.2. Le substitut comme outil Par

www.annualreviews.org • ML statistique pour la finance quantitative 273

LMSE := N ∑N je = 1 (oui − et ) 2 , correspond à la structure probabiliste des attentes conditionnelles.

définis comme L minimiseur. D'autres critères sont LMAE = ∑

dSt = rSt dt + σSt dWt , 3.

www.annualreviews.org • ML statistique pour la finance quantitative 275

Q où (W t ) est un mouvement brownien (multidimensionnel).

dSt = rSt dt + √ vtSt dW t 1;

h(k, Xtk )[S(Xtk+1 ) − S(Xtk )] − c(h(k, Xtk )), 8.

2. TYPES DE SUBSTITUTS COMMUNS

2.1. Les réseaux de neurones

N (x) = HL( L(HL−1(. . . ( 1(H1(x)) . . .)))),

aux sorties observées y (nℓ−1 + je

www.annualreviews.org • ML statistique pour la finance quantitative 277

2.2. Processus gaussiens

tout n ≥ 1 sites de conception {x n , GP régresse­

Étant donné l'ensemble de données je , toi

et K est une matrice de covariance N × N décrite via la fonction noyau κ(∙, ∙ ; ).

2.3. Gradient Boosting GB produit

des modèles d'ensemble de la forme f (x) =

2.4. Interpolation de Chebyshev S'appuyant

où c sont les coefficients de Fourier et Tj1 ,..., jd (x) = ∏d cos( ji arccos

www.annualreviews.org • ML statistique pour la finance quantitative 279

Swaption bermudien : 3. APPRENTISSAGE DES OPTIONS DE PRIX

3.1. Entrées et sorties Afin

3.3. Les prix des options

www.annualreviews.org • ML statistique pour la finance quantitative 281

3.4. Apprentissage de la volatilité implicite Au

4. APPRENDRE LES GRECS

(t, S) := ∂(t, S)/∂S,

ensemble d'apprentissage D = {(t ). Ceci estS très

à apprendre (t, S) → (t, S).

www.annualreviews.org • ML statistique pour la finance quantitative 283

V (t, x) := sup 16.

où la décision est d'arrêter, et définit en parallèle le premier temps de frappe correspondant,

L’ensemble d’actions Ak est caractérisé récursivement comme

c’est­à­dire qu’il faut continuer si la récompense attendue domine le gain immédiat.

q(k, x) := E [V (k + 1, Xk+1 ) |Xk = x] 19.

nous pouvons écrire de manière équivalente Ak ( x) = 1 q(k, x) > g(k, x).

1. Apprenez la valeur q qˆ(k, ∙).

Ces choix sont distincts car V(k + 1, x) = E[g(τAk+1:KT ,

Carlo. Néanmoins RMC s'est avéré extrêmement

www.annualreviews.org • ML statistique pour la finance quantitative 285

6.1. Substituts pour un arrêt optimal Parmi les

lissage des splines par Kohler (2008) ; et ■ les

bases de régression adaptative de Belomestny et al. (2018).

V (k, Xk ) = g(k, Xk )(1 − Ak (Xk )) + g(τAk+1:KT , XτAk+1:KT )Ak (Xk ).

Paramétrage de Ak via un NN A k, on procède à l'apprentissage de en maximisant à plusieurs reprises le mini­lot

www.annualreviews.org • ML statistique pour la finance quantitative 287

7. SUBSTITUTS DANS LES ALGORITHMES DE CONTRÔLE STOCHASTIQUE

V (k, x) = inf dans

V (KT , x) = V¯ (x), 21.

Historiquement, l’apprentissage statistique en QF a évolué de manière semi­indépendante à travers plusieurs applications

Année. Tour. Stat. Appl. 2023. 10:27195

tout n ≥ 1 sites de conception {x n , GP régresse

c’estàdire qu’il faut continuer si la récompense attendue domine le gain immédiat.

Paramétrage de Ak via un NN A k, on procède à l'apprentissage de en maximisant à plusieurs reprises le minilot

Historiquement, l’apprentissage statistique en QF a évolué de manière semiindépendante à travers plusieurs applications

options. Finances Stochast. 22(3):70131

modèles de Lévy exponentiels. Finances Stochast. 25(4):61557

bermudiennes/américaines en haute dimension. arXiv:1903.11275 [qfin.CP]

malédiction de la dimensionnalité. Appl. Mathématiques. Finances 26(5):387452

arbre de décision. Av. Informations neuronales. Proc. Système. 30:314654

pénalités de complexité. J.Stat. Plan. Inférence 142(8):2289307

perspective. Système énergétique. 11(2):377415

moindres carrés ordinaires. J. Informatique. Finances 18(1):12143

données d’échantillon dépendantes. Mathématiques. Finances 28(1):44779