Mathématiques Des Marchés Financiers Modélisation Du Risque Et de L'incertitude

Collection « Une Introduction à »
dirigée par Michèle Leduc et Michel Le Bellac
Mathématiques
des marchés financiers
Modélisation du risque et de l’incertitude
Mathieu Le Bellac et Arnaud Viricel
Préface de
Jean-Philippe Bouchaud
17, avenue du Hoggar

Parc d’activités de Courtabœuf, BP 112
91944 Les Ulis Cedex A, France
Dans la même collection
Les atomes froids
Erwan Jahier, préface de M. Leduc
Le laser
Fabien Bretenaker et Nicolas Treps, préface de C. H. Townes
Le monde quantique
Michel Le Bellac, préface d’A. Aspect
Les planètes : les nôtres et les autres
Thérèse Encrenaz, préface de J. Lequeux
Naissance, évolution et mort des étoiles
James Lequeux
La fusion thermonucléaire contrôlée
Jean-Louis Bobin, préface d’E. Klein
Retrouvez tous nos ouvrages et nos collections sur

http://www.edition-sciences.com
Imprimé en France.
© 2012, EDP Sciences, 17, avenue du Hoggar, BP 112, Parc d’activités de Courtabœuf,
91944 Les Ulis Cedex A
Tous droits de traduction, d’adaptation et de reproduction par tous procédés réservés pour tous pays.
Toute reproduction ou représentation intégrale ou partielle, par quelque procédé que ce soit, des pages pu-
bliées dans le présent ouvrage, faite sans l’autorisation de l’éditeur est illicite et constitue une contrefaçon.
Seules sont autorisées, d’une part, les reproductions strictement réservées à l’usage privé du copiste et non
destinées à une utilisation collective, et d’autre part, les courtes citations justifiées par le caractère scientifique
ou d’information de l’œuvre dans laquelle elles sont incorporées (art. L. 122-4, L. 122-5 et L. 335-2 du Code de
la propriété intellectuelle). Des photocopies payantes peuvent être réalisées avec l’accord de l’éditeur. S’adres-
ser au : Centre français d’exploitation du droit de copie, 3, rue Hautefeuille, 75006 Paris. Tél. : 01 43 26 95
35.
ISBN 978-2-7598-0690-4
Mathieu LE BELLAC
Ancien élève de l’École normale supérieure, Mathieu Le Bellac
a travaillé dans le département d’audit quantitatif du groupe
BPCE. Dans ce cadre, il a participé à plusieurs missions d’ins-
pection sur les problématiques de contrôle des risques, de
valorisation et de gestion d’actif au sein du groupe Banque
Populaire et de Natixis. Il est actuellement Directeur des
risques adjoint de la BRED, dont le périmètre de supervision
comprend des activités de marchés, d’assurance et de banque
de détail.
Arnaud VIRICEL
Membre de l’Institut des actuaires. Il a participé à la création de
l’activité change et dérivés de la banque Natixis à New York en
tant qu’opérateur de marché. Il a rejoint ensuite l’Autorité des
Marchés Financiers, où il est en charge de la mise en place d’un
système statistique de détection des abus de marché, avant de
renforcer l’équipe d’audit quantitatif du groupe BPCE, dont il
a pris la direction. Il est, depuis 2011, responsable des risques
de marché de Natixis New York.
This page intentionally left blank
Table des matières
Préface 1
Avant-propos 3
1 Les taux d’intérêt 5

1.1 Composition des taux et actualisation . . . . . . . . . . . . . . . . 5
1.2 Constructions de la courbe de taux . . . . . . . . . . . . . . . . . . 10
1.3 Dynamiques de la courbe des taux . . . . . . . . . . . . . . . . . . 16
2 Risque de crédit et marché du crédit 23

2.1 Taux sans risque et spread de crédit . . . . . . . . . . . . . . . . . . 24
2.2 Probabilités de défaut implicites . . . . . . . . . . . . . . . . . . . 27
2.3 Un modèle structurel, le modèle de la firme . . . . . . . . . . . . . 33
2.4 Corrélation entre les défauts . . . . . . . . . . . . . . . . . . . . . . 37
3 Théories d’aide à l’investissement 45

3.1 L’approche rendement-risque . . . . . . . . . . . . . . . . . . . . . 46
3.2 La théorie de Markowitz . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3 Le modèle d’évaluation des actifs financiers . . . . . . . . . . . . . 53
3.4 Corrélation contre cointégration* . . . . . . . . . . . . . . . . . . . 59
4 Théorie du non-arbitrage 65
4.1 Les arbres binomiaux . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.2 Le théorème du non-arbitrage (cas discret) . . . . . . . . . . . . . 73
4.3 La complétude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.4 Le cadre continu* . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
5 Le modèle de Black-Scholes 85
5.1 Le mouvement brownien . . . . . . . . . . . . . . . . . . . . . . . . 86
5.2 Les processus lognormaux . . . . . . . . . . . . . . . . . . . . . . . 91
5.3 Valorisation sous le modèle de Black-Scholes . . . . . . . . . . . . 94
5.4 La volatilité implicite . . . . . . . . . . . . . . . . . . . . . . . . . . 100
6 Modèles de volatilité 105

6.1 Valorisation avec les volatilités implicites* . . . . . . . . . . . . . . 106
6.2 Modélisation de la volatilité* . . . . . . . . . . . . . . . . . . . . . 112
7 Méthodes numériques 125

7.1 Simulations de Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . 126
7.2 Méthode des différences finies* . . . . . . . . . . . . . . . . . . . . 140
8 La Value at Risk (VaR) 149

8.1 Principe général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
8.2 La VaR en pratique . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
8.3 Limites de la VaR . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
9 Modèles non gaussiens 167

9.1 Mise à l’épreuve des modèles gaussiens . . . . . . . . . . . . . . . 168
9.2 Les lois puissances . . . . . . . . . . . . . . . . . . . . . . . . . . . 171
9.3 Les processus de Lévy . . . . . . . . . . . . . . . . . . . . . . . . . 176
Conclusion 185
Bibliographie 189
Index 195
Les sections marquées d’une étoile (*) peuvent être un peu plus techniques que les
autres, elles présentent des éléments d’approfondissement. Le lecteur qui le souhaite peut
sauter ces sections sans perdre le fil du livre.
Table des matières

Préface
L’ingénierie financière souffre depuis 40 ans d’un excès d’axiomatisation, de

théorèmes inutiles et de modèles parfois tellement inadaptés qu’ils en deviennent
source d’instabilités systémiques. La perfection de l’outil mathématique brouille
l’intuition des mécanismes, la beauté des formules masque la complexité des
phénomènes, la réalité disparaît derrière le formalisme. Les étudiants qui devien-
dront ingénieurs financiers, contrôleurs de risque ou traders se perdent souvent
dans la démonstration de théorèmes et sont fascinés par l’esthétisme des résultats,
au détriment de la critique des hypothèses et de la compréhension intuitive des
modèles et de leurs limites.
Plus encore que dans d’autres domaines, la modélisation en finance devrait
être guidée, bridée même, par les observations empiriques. Bien sur, la dyna-
mique des marchés est complexe et changeante, mais ce n’est pas une raison
pour renoncer à inventer des modèles adaptés aux phénomènes, plutôt que de
forcer des modèles mathématiques commodes mais invraisemblables, à coller
aux données financières. Comme le dit le psychanalyste Gérard Haddad : « Il
faut entrer dans le discours du patient et non tenter de lui imposer le nôtre ».
Or la majorité des livres de finance mathématique – même ceux parus après
la crise de 2008 – continuent, comme si de rien n’était, à parler de mouvement
Brownien et de modèle de Black-Scholes, de « réplication parfaite » et de risque
nul, ou même du « théorème fondamental de la finance », tout en s’abstenant de
montrer des données empiriques et de comparer les modèles à la réalité. On se
lance à corps perdu dans la calibration de modèles vides de sens, mais tellement
flexibles qu’ils pourraient « reproduire un éléphant », comme on a coutume de le
dire.
Dans ce contexte, le livre de Mathieu Le Bellac et Arnaud Viricel est particu-
lièrement précieux. Leur propos est de démystifier les modèles classiques de la
finance, en insistant sur leur interprétation et leurs limites et en conservant du
formalisme mathématique son strict minimum. Ils prennent grand soin d’illustrer
leur discours par des graphiques, qui s’appuient sur des données empiriques,
ce qui leur permet de faire apparaître de façon flagrante certaines aberrations
théoriques. Ils tentent de distiller, chez le lecteur, l’envie de comprendre en pro-
fondeur les mécanismes des marchés financiers, et d’en développer une intuition
directe, presque charnelle, avant d’en faire une modélisation quantitative. Cette
pédagogie du risque sera à coup sûr, pour qui s’en imprègne, très utile en situa-
tion de crise ou d’incertitude. Car comme le laisse entendre le sous-titre du livre,
Modélisation du risque et de l’incertitude, la limitation essentielle de l’ingénierie
financière actuelle – et le vrai défi des années à venir – c’est bien l’incertitude
radicale, les « unknown unknowns » et les cygnes noirs qu’il faudra bien, d’une
manière ou d’une autre, et tant bien que mal, tenter d’apprivoiser.
J.-P. B OUCHAUD
Paris, décembre 2011
2 Préface
Avant-propos
Les mathématiques financières ont été dénoncées par nombre de spécialistes et

amateurs comme étant responsables de la dernière crise financière. Loin de nous
le projet d’infirmer ou de confirmer de tels soupçons. Nous nous proposons en
revanche de revenir aux fondamentaux et de répondre à la question : que sont
les mathématiques financières ? Notre ambition est d’aller au-delà d’une simple
présentation descriptive et d’inviter le lecteur à pénétrer à l’intérieur de notre
discipline : comprendre ses objets, les outils qu’elle utilise, les questions qu’elle
se pose, ses problématiques, ses difficultés.
À la racine des mathématiques financières sont les instruments financiers ;
nous les présenterons au fur et à mesure des chapitres. Les produits les plus
simples sont les biens et titres de propriété, tels que les actions, l’or, le pétrole,
l’immobilier, les liquidités en euros ou autres devises. Les autres produits finan-
ciers peuvent être vus comme un ensemble de flux monétaires futurs, certains
ou incertains. Par exemple, les titres de dette tels que les obligations sont sim-
plement des prêts consentis à des entreprises ou des États. Ces titres peuvent
être représentés comme un échange de flux financiers, le prêteur apporte au
départ une somme d’argent à l’emprunteur qui rembourse à des dates fixées le
principal et les intérêts du prêt. Les produits dérivés sont des instruments plus
complexes dont les flux de paiement dépendent d’un événement prédéterminé,
selon des modalités fixées à l’avance d’un commun accord entre les parties. Par
exemple, les flux échangés suite à un « credit default swap » sont liés à l’éventuelle
faillite d’une entité de référence ; autre exemple, les « options sur action » sont
des instruments financiers qui génèrent des paiements dont le montant est lié à
l’évolution de la valeur boursière d’une action de référence.
Trois problématiques essentielles tournent alors autour de ces produits finan-
ciers :
– Comment déterminer leur prix ?
– Comment identifier les opportunités d’investissement ?
– Comment quantifier et gérer leurs risques ?
Les mathématiciens et économistes ont construit, principalement depuis la
seconde moitié du XXe siècle, un certain nombre de méthodes, de modèles et de
théories mathématiques pour donner des éléments de réponse à ces questions.
Cet arsenal d’outils mathématiques développés autour des instruments financiers
constitue les mathématiques financières. Nous souhaitons qu’en fermant ce livre
le lecteur soit familiarisé avec les notions théoriques de martingales, de structure
de corrélation, de paramètres implicites mais aussi avec les méthodes et outils
des praticiens, telles que les méthodes numériques de résolution.
Comprendre les concepts, c’est évidemment connaître leurs limites. Nous
accorderons donc une attention particulière aux hypothèses des modèles et à leurs
domaines de validité. La responsabilité principale du quant – terme désignant
les chargés de modélisation mathématique dans les banques – est justement de
maîtriser les qualités et défauts de ses modèles et de savoir précisément ce dont
ils rendent compte et ce qu’ils ne modélisent pas.
Ce livre est un ouvrage de vulgarisation. Les principes qui sous-tendent les
calculs seront détaillés mais pas les calculs eux-mêmes ; nous passerons du temps
sur les implications et interprétations des équations, non sur les équations. Ainsi,
autant que possible, nous fournirons une représentation intuitive ou physique
des phénomènes et des modèles évoqués en nous extrayant du formalisme ma-
thématique. Le livre doit être accessible aux non spécialistes ; une connaissance,
même ancienne, des fonctions mathématiques élémentaires (logarithmes, expo-
nentielles) et des probabilités est un bagage technique suffisant pour aborder
l’ouvrage.
Remerciements. L’aboutissement de notre projet doit beaucoup au soutien
de nos épouses Laetitia et Ève ainsi qu’à Joséphine qui a eu l’excellente idée
de faire rapidement ses nuits. Nos relecteurs ont su nous indiquer les voies
sans issue, les embûches mais aussi les trésors cachés et les nouvelles voies à
explorer. Que Vincent Calvet, Denys Dartigues, Rami Feghali, Samuel Launay,
Michel Le Bellac, Laetitia Nouailhat et Bruno Trentini trouvent ici l’expression de
notre reconnaissance pour avoir tant contribué à cet ouvrage. Nous remercions
également Michèle Leduc pour sa confiance et son investissement dans notre
projet. Enfin, les travaux de Jean-Philippe Bouchaud ont été pour nous une grande
source d’inspiration. Nous sommes très reconnaissants de l’intérêt qu’il a porté à
notre livre et lui exprimons notre plus grande gratitude pour sa disponibilité, ses
remarques avisées et le temps précieux qu’il nous a consacré.
4 Avant-propos
1 Les taux d’intérêt
« Le temps, c’est de l’argent. » Ce célèbre adage populaire s’applique en particulier

au monde financier où il est matérialisé par les taux d’intérêt : il semble ainsi
évident à chacun que tout argent prêté doit donner lieu à rétribution. Nous ne
développerons pas les raisons de l’existence de ces taux d’intérêt ; il nous suffira
de considérer que le paiement d’intérêts vise à compenser la perte, par le prêteur,
de l’opportunité d’investissement sur d’autres placements rémunérateurs ou
d’achats de biens de consommation. Les taux d’intérêt rendent également compte
du risque de non-remboursement de la somme prêtée. Ce risque est appelé risque
de crédit et sera abordé dans le deuxième chapitre.
Au cours de ce chapitre, nous présenterons les notions de taux d’intérêt
composé et d’actualisation (section 1) et montrerons l’existence d’une structure
par maturité des taux d’intérêt (section 2). Nous étudierons ensuite l’évolution
dans le temps de cette structure par maturité en nous appuyant notamment sur
l’Analyse en Composantes Principales introduite par [Litterman et Scheinkman
1991] (section 3).
1 Composition des taux et actualisation

Les intérêts servent à rémunérer le prêteur, ou créancier, pour avoir mis à
disposition de l’emprunteur une certaine somme d’argent, pendant un certain
temps et selon certaines modalités de remboursement. Les cas de figure peuvent
être très variés : la durée du prêt, généralement appelée maturité, peut aller
de 24 heures au demi-siècle ; le remboursement du capital peut être progressif,
comme dans un crédit immobilier classique, ou in fine comme c’est généralement
le cas pour les emprunts sur les marchés financiers. Quel que soit le type de
prêt, l’emprunteur doit être capable de calculer un taux d’intérêt pour évaluer
le coût de son emprunt et comparer les différentes configurations qui peuvent
lui être proposées. S’il existe différentes méthodes de calcul des taux d’intérêt
– beaucoup plus nombreuses que ce que l’on imagine en général – nous allons
nous concentrer sur une convention particulièrement utile : le taux composé.
Lorsque nous plaçons de l’argent sur un compte rémunéré, comme le Livret A,
nous prêtons de l’argent à notre banque et percevons une rémunération en
contrepartie. Ainsi, 1 000 e placés au taux d’intérêt annuel de 2 % capitalisent et
deviennent 1 020 e à la fin de l’année de placement. Si la somme est entièrement
réinvestie sur le même placement, après une deuxième année de capitalisation,
elle vaudra 1 020 × (1 + 2 %) = 1 040,4 e, puis 1 000 × (1 + 2 %)3 e la troisième
année, ..., et 1 000 × (1 + 2 %)n e la ne année. Ce calcul montre qu’au bout de
10 ans, nous avons près de 1 219 e : les intérêts annuels de 2 % nous ont rapporté
plus de 10 fois le taux d’intérêt annuel car tous les intérêts ont été ré-investis
et capitalisent à leur tour. C’est sur cette convention de calcul que reposent les
taux d’intérêt composés : les intérêts non payés au prêteur à l’issue de la période
d’application du taux génèrent des intérêts supplémentaires au même taux.
Dans cette convention, un montant M qui capitalise au taux d’intérêt annuel r
vaudra M × (1 + r )T au bout de T années. Ainsi, la théorie dit que si Platon avait
placé 1 e en l’an 400 avant J.-C. au taux annuel de 1 %, il possèderait (1,01)2 412 e
début 2012, soit plus de 25 milliards d’euros.
Renversons notre point de vue et supposons que nous voulions 1 000 e dans
10 ans : quel montant faut-il investir ? Le calcul est très simple : la réponse est
1 000
(1+r )10
e soit environ 820 e pour un taux d’intérêt r de 2 %. Cette propriété peut
être conceptualisée de la manière suivante :
– Il est strictement équivalent d’avoir 820 e aujourd’hui ou d’avoir 1 000 e
dans 10 ans.
– Le prix à payer aujourd’hui pour avoir 1 000 e dans 10 ans est 820 e.
– La valeur aujourd’hui de 1 000 e dans 10 ans est 820 e.
Nous venons d’introduire la notion fondamentale de valeur actualisée, égale-
ment appelée valeur présente. La valeur actualisée est simplement le prix à payer
aujourd’hui pour recevoir un flux futur. Dans notre exemple, la valeur présente
de 1 000 e à recevoir dans 10 ans est 820 e. Lorsque l’on se sert d’un taux d’intérêt
pour calculer la valeur actualisée d’un paiement, on le nomme taux d’actualisation.
Une grande part des mathématiques financières que nous allons découvrir dans
les prochains chapitres est dédiée au calcul de la valeur présente de flux futurs,
connus ou inconnus. Cette valeur est le prix de marché de ces flux, c’est-à-dire le
prix auquel les acteurs de marché sont prêts à acheter ou vendre les flux.
6 Chapitre 1. Les taux d’intérêt

Encadré 1.1. L’actualisation.
L’actualisation est le calcul permettant de donner la valeur aujourd’hui d’un flux financier
futur. Ce calcul dépend du niveau des taux d’intérêt : si le taux d’intérêt à un an est de
5 %, alors l’actualisation d’un flux de 105 e à recevoir dans un an nous donnera une
valeur présente de 100 e. L’actualisation permet donc de rendre comparables des flux
financiers versés à des dates différentes.
Récapitulons au travers d’un exemple plus élaboré. Vous êtes un État et

souhaitez emprunter sur les marchés financiers. Vous êtes prêts à payer 5 Me
(millions d’euros) pendant 2 ans et rembourser 105 Me au terme des 3 ans.
Avec un taux d’actualisation de 2 %, combien la banque vous prêtera-t-elle ? En
d’autres termes, quelle est la valeur présente des flux que vous proposez à la
banque ? La réponse se calcule simplement :
5 5 105
+ + ≈ 108,65 Me (1.1)
1 + 2 % (1 + 2 %) 2 (1 + 2 %)3
En effet, chaque flux à percevoir a un prix : le premier vaut 1+52 % = 4,9 Me,
le second (1+25 %)2 = 4,8 Me et le troisième (1+105
2 %)3
= 98,95 Me ; le prix du total
est la somme du prix de chacun des flux.
Il est très important de pouvoir calculer à tout moment cette valeur actualisée
des flux que l’État verse, car le prêt consenti par la banque pourra être revendu sur
les marchés financiers. Pour ce faire, le prêt de l’État prend souvent la forme d’une
obligation. L’obligation fonctionne exactement comme un prêt dont l’avantage est
de pouvoir s’échanger facilement sur les marchés financiers : c’est le détenteur de
l’obligation qui perçoit les flux de remboursement de la part de l’emprunteur qui
est l’émetteur de l’obligation. Tout un vocabulaire s’est développé autour de ces
obligations : le montant du capital est appelé nominal de l’obligation et les intérêts
versés sont les coupons. Généralement, les coupons sont connus à l’avance et fixés
comme un pourcentage du nominal de l’emprunt (on parlera alors d’obligations
à taux fixe) et sont versés à une fréquence donnée. Le nominal de l’emprunt est,
quant à lui, remboursé avec le dernier coupon à la maturité de l’obligation.
Encadré 1.2. Les obligations.

Une obligation est un titre de dette représentatif de la créance d’une entreprise envers
le détenteur de l’obligation. Comme il s’agit d’un titre, l’obligation peut s’échanger sur
les marchés financiers. Ainsi, l’acheteur d’une obligation acquiert le droit de recevoir
à intervalles réguliers un montant d’intérêts appelé coupon et calculé en pourcentage
du montant du capital (le nominal) que le créancier devra rembourser à la maturité de
l’obligation.
MATHÉMATIQUES DES MARCHÉS FINANCIERS 7

Dans l’exemple de l’équation (1.1), nous avons calculé la valeur présente,
c’est-à-dire le prix, d’une obligation arrivant à maturité dans 3 ans, de nominal
100 Me et à coupons annuels de 5 %. Si les taux d’intérêt sont de 2 %, une banque
achètera donc l’obligation au prix 108,65 Me, c’est-à-dire qu’elle versera à l’État
108,65 Me en échange du titre.
La présentation que nous venons de faire peut surprendre le lecteur qui essaye
d’associer les notions avec les prêts traditionnels aux particuliers. Dans notre
exemple :
– Le montant versé à l’État, 108,65 Me, n’est pas le montant du capital (le
nominal) qui est quant à lui de 100 Me.
– Le taux de coupon, 5 %, qui représente les intérêts versés, est différent du
taux d’intérêt utilisé pour l’actualisation qui est 2 %.
– Dans les obligations que nous avons présentées, le nominal est remboursé
uniquement à la fin du prêt, il n’est pas remboursé au fur et à mesure.
Si les taux d’intérêt étaient égaux au taux de coupon 5 %, le prix de l’obligation
serait bien égal au nominal 100 Me. Mais, dans les faits, les taux d’intérêt évoluent
de jour en jour sur les marchés (de la même manière que le taux du Livret A
évolue en cours d’année). Supposons que l’obligation souveraine ait été émise
à un moment où les taux d’intérêt étaient de 5 %. Les taux d’intérêt ont baissé,
puisqu’ils sont à 2 % dans notre exemple. L’obligation souveraine apporte donc
plus d’intérêts que les taux de marché : il est logique qu’elle se soit appréciée
et qu’elle vaille plus que son nominal. La baisse des taux a donc accru le prix
de notre obligation. Réciproquement, il semble évident que le droit à recevoir
des intérêts fixes devienne d’autant moins intéressant que les taux montent et
que les investisseurs ont l’opportunité d’investir dans des produits répercutant
cette hausse des taux. Cela explique la fameuse règle qui veut que les prix des
obligations baissent quand les taux montent et inversement.
Formellement, l’équation qui lie taux d’actualisation, prix, coupons, maturité
et nominal d’une obligation est :
maturité
coupon nominal
Prix = ∑ (1 + taux) t
+
(1 + taux)maturité
(1.2)
t =1
Le taux d’actualisation qui permet de vérifier l’égalité (1.2) représente ce

qu’on appelle le taux de rendement de l’obligation. Par construction, il s’agit
bien du rendement de l’obligation puisqu’il est strictement équivalent d’acheter
l’obligation ou de placer le prix de l’obligation sur un compte qui capitalise à ce
taux de rendement. En effet, nous avons déjà vu qu’il était strictement équivalent
1
de recevoir (1+taux )t
aujourd’hui ou 1 au temps t.

F IGURE 1.1. Variation des prix d’obligations en fonction du taux d’intérêt. Il faut remarquer que : (i) pour un
même taux et une même maturité, le prix des obligations croît avec la valeur des coupons (si le taux de
rendement est fixé, plus le coupon est élevé, plus l’obligation est intéressante) (ii) le prix des obligations
décroît avec le niveau des taux d’intérêt (iii) les courbes de prix ne sont pas rectilignes et leurs pentes
s’accentuent lorsque les taux diminuent.
Pour finir de s’en convaincre, plutôt que de s’intéresser à la valeur actualisée,

calculons l’argent disponible à la maturité de l’obligation. Si nous placions le prix
de l’obligation sur un livret offrant le même taux de rendement, nous obtiendrions
à maturité la somme : Prix × (1 + taux)maturité . Si nous achetions l’obligation et
replacions chacun des coupons perçus sur le même livret, nous obtiendrions
à maturité la somme : ∑maturité
t =1 coupon × (1 + taux)maturité−t + nominal. L’équa-
tion (1.2) énonce précisément que ces deux quantités sont égales.
On peut aussi bien calculer le prix d’une obligation connaissant son taux
de rendement que déduire le taux de rendement du prix d’une obligation. Un
investisseur n’achètera une obligation à un prix donné que si celle-ci lui garantit
un taux de rendement en ligne avec les rendements des autres opportunités
d’investissement. C’est grâce à cela qu’il existe une forme d’équilibre sur le
niveau général des taux d’intérêt à un instant donné, et que tous les placements
doivent être en ligne avec ce taux de rendement général.
La notion d’inflation n’a pas encore été abordée dans ce chapitre alors qu’elle
peut sembler, de prime abord, très liée aux taux d’intérêt. L’inflation exprime
l’évolution de la valeur de la monnaie, elle est généralement mesurée comme
l’évolution du nombre d’unités monétaires nécessaires pour acheter des biens
de consommation et des services. Ainsi, il s’agit d’une notion permettant de

lier un monde où la référence absolue est l’unité monétaire à un monde où la
référence est la capacité à consommer des biens et services. Une inflation positive
indique que la valeur de la monnaie baisse dans le temps, c’est-à-dire qu’avec
une somme d’argent constante dans le temps, la capacité à consommer diminue.
Dans la même logique, si le taux d’intérêt d’un placement est exactement égal
au taux d’inflation, la valeur du placement en termes de capacité à consommer
sera constante dans le temps. Cela explique que les taux d’intérêt et l’inflation
peuvent paraître liés et corrélés. Cependant, il s’agit bien de concepts distincts
et qui peuvent d’ailleurs évoluer en sens contraire. En effet, les taux d’intérêt
rémunèrent notamment le prix de la liquidité, autrement dit le fait de disposer
d’une somme d’argent aujourd’hui et pas demain. Il semble évident que même
dans un monde sans inflation, il est plus intéressant de jouir d’une somme
d’argent immédiatement que 10 ans plus tard. De manière générale, les prêts
et emprunts sont soumis à intérêts même en l’absence d’inflation. Le lien entre
l’inflation et les taux d’intérêt est donc avéré mais non systématique, les théories
économiques qui conceptualisent ces interactions sortent du cadre classique des
mathématiques financières et ne seront pas abordées dans cet ouvrage.
2 Constructions de la courbe de taux

La section précédente a permis d’établir la relation liant les prix des obligations au
niveau global des taux d’intérêt. À ce stade, nous ne savons pas encore comment
calculer en pratique ce taux d’intérêt : comment détermine-t-on quels sont les
taux d’intérêt à utiliser pour actualiser un flux ?
Les grandeurs observables sur les marchés financiers sont les prix : les prix des
transactions sur les marchés organisés sont publics, nous pouvons par exemple
tous consulter les cours de toutes les actions du CAC 40 sur Internet. Les prix
des obligations sont plus difficiles à obtenir pour les particuliers, mais beaucoup
d’obligations sont quotidiennement échangées entre les différents acteurs de
marché, dans des volumes conséquents et dans des conditions qui sont publiées
auprès des professionnels des marchés. Ainsi, nous pouvons déduire de ces
obligations de référence les niveaux des taux d’intérêt. Étudions le résultat
d’une telle analyse sur des obligations de l’État français (appelées Obligations
Assimilables du Trésor ou OAT) dans le graphique 1.2.
Cette figure met en évidence le fait que les taux sont globalement croissants
avec la maturité. Ce constat s’interprète assez naturellement si l’on considère
qu’un prêt d’argent sur une durée donnée implique que l’accès à la liquidité
investie ne sera pas possible durant tout ce laps de temps. Il semble normal que

F IGURE 1.2. Taux de rendement d’OAT de maturités différentes. Le taux paraît d’autant plus élevé que la
maturité de l’obligation est longue. Ce phénomène est souvent constaté, mais ce n’est pas une loi générale
(voir différentes formes de la courbe des taux dans la figure 1.5).
l’investisseur soit rétribué pour ce risque dit de liquidité qui est d’autant plus
grand que la durée d’investissement est longue.
De ce fait, la valeur d’un taux d’intérêt dépend de la maturité du placement
sur lequel il s’applique. Le taux d’intérêt associé à un emprunt de six mois n’est
pas le même que le taux d’intérêt associé à un emprunt de 25 ans ; un particulier
qui a dû négocier le taux de son crédit immobilier avec sa banque est d’ailleurs
normalement bien au fait de ce phénomène. Il explique pourquoi nous parlons
de courbe des taux : la courbe des taux est la fonction qui associe à chaque maturité
le taux d’intérêt correspondant.
Cette construction de la courbe des taux mérite attention, c’est à elle que nous
allons consacrer la présente section. Tout d’abord, il nous faut être vigilant dans
sa définition : nous noterons r ( T ) le taux associé à la maturité T. Par définition,
lorsque nous calculerons des valeurs présentes, chaque flux devra donc être
actualisé au taux associé à la date de versement du flux. Le prix d’une obligation
est donc par définition, en adaptant l’équation (1.2) :
maturité
coupon nominal
Prix = ∑ (1 + r (t)) t
+
(1 + r (maturité))maturité
(1.3)
t =1
Cette équation est importante car elle montre que le prix d’une obligation, et
donc son taux de rendement, qui reste défini par l’équation (1.2), est sensible non

seulement au taux d’intérêt r (maturité) associé à la date de maturité mais aussi
à tous les taux r (t) associés aux dates de paiement des coupons. Le seul cas où
le taux de rendement d’une obligation est égal au taux r (maturité) est lorsque
l’obligation ne verse pas de coupon (taux de coupon égal à 0 %). Ces obligations
s’appellent les Zéro Coupon et existent réellement sur les marchés financiers.
Pour cette raison, les taux d’actualisation r (t) sont appelés les taux Zéro Coupon
que nous noterons taux ZC dans la suite du texte.
Encadré 1.3. Les Zéro Coupons.

Un zéro coupon est une obligation ne donnant droit qu’au versement du nominal à la
maturité de l’obligation. Cette obligation ne verse ainsi aucun coupon, d’où son nom. De
ce fait, le prix d’un zéro coupon est nécessairement inférieur à son nominal.
L’équation (1.3) montre également que si l’on connaît le prix d’une obligation
et les taux ZC antérieurs à sa maturité, nous pouvons calculer le taux ZC associé
à la date de maturité de l’obligation. En d’autres termes, nous retiendrons qu’à
partir d’un jeu d’obligations de maturités différentes nous pouvons recalculer de
proche en proche les taux ZC.
Illustrons cela par un exemple dont le lecteur pourra reproduire les calculs.
Admettons que nous disposons du prix de 2 obligations, de nominal 100 e
chacune :
– L’obligation A, de maturité 1 an et de coupon annuel 5 e, vaut 102 e ;
– L’obligation B, de maturité 2 ans et de coupons annuels 6 e, vaut 104 e.
L’équation (1.3) appliquée à l’obligation A permet de calculer r (1) ≈ 2,94 %.
Appliquée à l’obligation B, cette même équation permet dans un second temps
de calculer r (2) à partir de la valeur de r (1) : r (2) ≈ 3,91 %.
À ce stade, l’objectif fixé, la construction de la courbe des taux, paraît acquis
puisque nous pouvons observer le prix d’obligations de référence et en déduire
les taux ZC ainsi que nous l’avons fait dans l’exemple précédent. Toutefois nous
avons négligé plusieurs aspects importants. Premièrement, la construction de
notre courbe des taux ZC repose sur un nombre limité d’obligations dont les
maturités ne sont pas nécessairement bien réparties : la question se pose donc
de savoir comment construire les taux ZC pour une maturité comprise entre
deux maturités consécutives des obligations pour lesquelles nous disposons des
prix. Deuxièmement, les obligations d’État sont des produits de marché dont les
prix sont sensibles au niveau des taux d’intérêt, bien sûr, mais aussi à d’autres
facteurs comme le risque de défaillance des États, les incidences fiscales, la rareté
d’une maturité influant sur le prix par le jeu de l’offre et de la demande, la
difficulté à trouver des acheteurs ou des vendeurs pour certaines obligations

dites illiquides... Enfin, la plupart des produits dérivés de taux qui nécessitent le
recours aux courbes des taux ZC pour leur valorisation sont des produits traités
entre banques. De ce fait, la courbe des taux ZC utilisée devrait refléter le niveau
des taux interbancaires (c’est-à-dire les taux auxquels les banques se prêtent entre
elles) et non le niveau des taux des obligations d’État.
C’est pour ces raisons qu’afin de construire leurs courbes des taux ZC les
banques utilisent généralement d’autres produits financiers, négociés sur les
marchés interbancaires, sur lesquels nous ne nous attarderons pas. Pour appro-
fondir le sujet, le lecteur curieux pourra s’intéresser aux dépôts interbancaires
court terme, aux futures de taux et aux swaps de taux (ces produits financiers
sont par exemple présentés dans [Hull 2011]). Nous retiendrons que ces produits
comportent de nombreux avantages :
– les maturités disponibles sont nombreuses et bien réparties ;
– les cotations de ces instruments sont fréquentes et partagées par l’ensemble
des acteurs du marché des taux ;
– ces produits n’étant pas des titres et pouvant donc être générés à l’infini, ils
sont moins soumis aux contraintes de liquidité que les obligations. De ce
fait, leurs cotations sont réputées plus pures.
Comme l’illustre la figure 1.3, les méthodes appliquées dans le cadre des
produits interbancaires nous permettent de disposer d’un maillage assez fin et
cohérent de taux ZC tandis que leur application aux obligations est susceptible
de générer un nuage de points plus difficile à interpréter et à exploiter.
(a) : Exemple d’échantillon de taux ZC (b) : Exemple d’échantillon de taux ZC

observés sur le marché interbancaire issus des prix d’obligations
F IGURE 1.3. Exemple illustratif d’échantillons de base pour la construction de courbes des taux ZC. Les
données pouvant être observées sur le marché interbancaire sont plus nombreuses et régulières.
Quelle que soit la densité du maillage obtenu, il est nécessaire de développer

des méthodes d’interpolation ou de lissage pour calculer les taux ZC entre deux

taux ZC observés. Les méthodes d’interpolation viseront à relier les taux ZC
existants entre eux alors que les méthodes de lissage n’imposeront pas à la courbe
des taux de passer par les taux ZC observés.
L’interpolation d’un nombre important de points par une unique fonction est
inapplicable. En effet, soit la fonction ne comporte pas suffisamment de degrés de
liberté et l’interpolation n’est pas possible, soit le nombre de degrés de liberté est
suffisant mais la contrainte des points de passage obligés impose alors une forme
erratique à notre courbe. Les méthodes usuellement retenues font donc appel à
des fonctions définies par morceaux. Pour chaque intervalle de maturité (c’est-à-
dire entre deux maturités de nos taux ZC observés) est construite une fonction
définie uniquement sur cet intervalle, cette dernière est en général choisie à
partir de contraintes de continuité et de dérivabilité. La fonction d’interpolation
résultante est la juxtaposition de ces fonctions individuelles.
Des techniques de lissage peuvent également être utilisées. Dans ce cas, il
s’agit généralement de faire coïncider au mieux des courbes dites paramétriques
avec les taux ZC observés. Ces formes de courbe sont :
– soit construites spécifiquement afin de répliquer au mieux les diverses
configurations de courbe des taux (courbes paramétriques de Nelson-Siegel
et Nelson-Siegel augmentée) ;
– soit déduites de modèles utilisés pour simuler l’évolution des taux d’intérêt
dans le temps (modèles de Vasiceck, Cox Ingersol Ross...). Ces modèles
définissent implicitement les formes admissibles que peut prendre la courbe
des taux Zéro Coupon.
Le choix de ces méthodes doit être cohérent avec l’objectif recherché, par
exemple :
– Une banque utilisant une courbe de taux ZC pour valoriser des dérivés de
taux qui seront vendus ou achetés à d’autres acteurs du marché recourra
à une méthode d’interpolation afin de s’assurer que les taux ZC observés
sont conservés dans la courbe des taux finale. En effet, les prix des produits
achetés ou vendus doivent être cohérents avec les prix affichés par le
marché.
– Une société de gestion d’actifs désireuse de repérer des titres obligataires
sous-cotés dans le cadre d’une décision d’investissement cherchera plutôt
une méthode de lissage apte à donner un sens économique aux résultats
obtenus. En effet, dans ce cas, répliquer parfaitement les prix des obligations
ne lui fournirait aucune information exploitable en vue de l’identification
d’obligations sous-cotées.
Le graphique 1.4 présente la construction de courbes de taux ZC à partir de
taux ZC interbancaires observés. Le graphe de gauche utilise les taux de maturités

(b) : Interpolation et lissage d’une courbe
(a) : Interpolation et lissage d’une courbe
interbancaire [1mois-6mois] [11mois]
interbancaire [1mois-6mois] [1an-20ans]
[1an-20ans]
F IGURE 1.4. Exemples d’interpolation et de lissage d’une courbe de taux ZC interbancaire. Les interpolations
par morceaux peuvent créer des perturbations techniques (creux observé sur le graphique (b)) indésirables.
Les interpolations paramétriques ([Nelson et Siegel 1987]) sont plus robustes (courbes bleues) mais elles
présentent l’inconvénient de ne pas passer par tous les taux observés (points rouges).
s’échelonnant tous les mois entre 1 mois et 6 mois puis tous les ans entre 1 an
et 20 ans. Le graphe de droite utilise les mêmes taux observés auxquels a été
rajouté un taux ZC de maturité 11 mois. Cet exemple est riche d’enseignements
puisqu’il permet de constater que la méthode paramétrique est insensible à
l’ajout du taux ZC de maturité 11 mois tandis que la méthode d’interpolation
par morceaux y est très sensible. Nous pouvons considérer que l’ajout du taux
ZC 11 mois a compromis le sens économique de l’interpolation : le creux observé
entre les maturités 1 an et 2 ans n’a pas de sens économique puisqu’il n’est
que la résultante du choix arbitraire d’une méthode d’interpolation. L’innocuité
supposée des méthodes d’interpolation n’est qu’un leurre et celles-ci devraient
donc être contrôlées continûment avant utilisation.
La construction des courbes de taux Zéro Coupon est fondamentale, qu’il

s’agisse de l’utiliser comme outil de calcul de la valeur présente des dérivés
de taux ou comme outil d’aide à la décision dans le cadre d’investissements
obligataires. Elle est l’étape préalable à toute modélisation financière car c’est
elle qui définit les taux d’actualisation des flux. Dès cette étape, des choix de
modélisation s’imposent, que ce soit dans la sélection des produits financiers à
utiliser pour placer les points de la courbe ou dans les règles de construction d’une
courbe continue à partir des points observés ; ces choix conduiront naturellement
à des prix différents dont aucun ne sera meilleur que les autres dans l’absolu
mais qui pourront être plus ou moins adaptés aux objectifs recherchés.

3 Dynamiques de la courbe des taux
Dans le présent chapitre, nous avons introduit les taux d’intérêt et le principe
essentiel d’actualisation. Nous avons ensuite remarqué qu’il n’existait non pas
un unique taux d’intérêt mais un taux associé à chaque maturité, l’ensemble de
ces taux formant la courbe des taux. Nous verrons dans cette troisième section
que cette courbe évolue dans le temps et tenterons d’identifier les principales
composantes de ce mouvement. Premier élément de cette étude, l’échantillon de
courbes des taux en figure 1.5 montre que l’histoire mouvementée des marchés
financiers modernes a pu déboucher sur des configurations de taux d’intérêt
variées.
F IGURE 1.5. Différentes configurations de courbes des taux au fil de l’histoire. La courbe des taux peut
prendre des formes très diverses.
Nous constatons ainsi qu’au moins cinq formes de courbes sont possibles :
– courbe croissante (Courbe interbancaire Euro du 03/02/2010) ;
– courbe plate (Courbe interbancaire Euro du 05/10/2006) ;
– courbe décroissante (Courbe d’État britannique du 11/01/2001) ;
– courbe décroissante puis croissante (Courbe interbancaire Euro du
07/12/2007) ;
– courbe croissante puis décroissante puis croissante (Courbe interbancaire
Euro du 03/11/2008).
Le graphique 1.5 permet de formuler une première constatation : les taux
court terme semblent plus volatils que les taux long terme. Cette hypothèse est

d’ailleurs confirmée par la variance des taux de la courbe du trésor britannique
entre 2000 et 2009 : 3,6 10−7 pour le taux 2 ans contre 2,5 10−7 pour le taux 20 ans
(variance de l’évolution quotidienne des taux).
Cela étant dit, ces cinq configurations ne nous donnent que peu de renseigne-
ments sur la dynamique réelle de la courbe des taux. Si chaque point de la courbe
évoluait indépendamment des autres, nous serions confrontés à une infinité de
sources de variabilité. Heureusement, l’histoire montre que la dynamique de
la courbe des taux est guidée par quelques mouvements caractéristiques ; cela
simplifie et structure grandement les analyses de risque. Nous allons montrer
dans cette section comment identifier ces mouvements principaux.
Pour ce faire, plaçons-nous dans le cas théorique où la courbe des taux est
restreinte à deux points de maturité, par exemple les maturités 2 ans et 7 ans.
L’ensemble des déformations peut alors être représenté sur le plan constitué, en
abscisses, des variations des taux ZC 2 ans et, en ordonnées, des variations des
taux ZC 7 ans. Cette représentation appliquée aux variations quotidiennes des
taux de la courbe du trésor britannique entre 2000 et 2009 figure sur le graphe 1.6.
L’objectif est de trouver le mouvement de courbe s’approchant le plus de la
plupart des déformations observées sur le graphe. Ce mouvement peut être par
exemple :
– une hausse parallèle des taux ZC de maturités 2 et 7 ans ;
– une hausse du taux ZC de maturité 2 ans deux fois plus importante que
celle du taux ZC 7 ans ;
– une baisse du taux ZC de maturité 2 ans d’une amplitude équivalente à
celle de la hausse du taux ZC 7 ans.
Chacun de ces mouvements peut être représenté sur le plan par une droite.
Ainsi, une hausse parallèle des taux ZC sera représentée par la droite d’équation
y = x par exemple. Il est évident qu’une droite unique ne pourra décrire
l’intégralité du plan et donc du nuage, cependant, nous allons chercher la droite
permettant de s’approcher le plus de chacun des points. Intuitivement, il s’agit
de la droite indiquant la direction de la plus grande largeur de notre nuage.
Mathématiquement, il s’agit de la droite minimisant la somme des distances au
carré entre les points du nuage et cette même droite. Le lecteur intéressé pourra
vérifier que le critère utilisé revient à maximiser la variance des projections
orthogonales des points du nuage sur la droite (en utilisant le théorème de
Pythagore par exemple). L’axe rouge en trait plein tracé sur la figure 1.6 est
la droite ainsi définie, elle est approximativement la droite d’équation y = x.
Compte tenu du critère retenu pour sa construction, nous sommes assurés que
la variance portée par cet axe sera la plus grande possible et que la variance

F IGURE 1.6. Représentation conjointe des variations de taux ZC 2 ans et 7 ans : chaque point représente
une variation quotidienne enregistrée sur les taux ZC 2 ans et 7 ans. Les points se concentrent autour de la
droite rouge en trait plein proche de la diagonale y = x, cela signifie que les cas où les variations des taux 2
ans et 7 ans sont à peu près d’égale proportion constituent un axe de variation privilégié. Au contraire, les
variations proches de l’axe en trait pointillé perpendiculaire au premier axe (variations opposées des taux
2 ans et 7 ans) semblent les moins probables.
résiduelle sera portée par l’axe orthogonal (droite en traits pointillés sur la
figure 1.6). Dans notre exemple, le premier axe explique 79 % de la variance
totale contre 21 % pour l’axe en pointillé. En synthèse, nous avons appris que la
variation des taux 2 ans et 7 ans est constituée à 79 % de mouvements parallèles
et de même amplitude, alors que les 21 % restants s’expliquent par des variations
de sens opposés.
La méthodologie évoquée dans l’exemple précédent s’appelle Analyse en

Composantes Principales (ACP). Elle est classiquement utilisée pour identifier les
axes principaux (ou vecteurs principaux) de déformation de la courbe des taux.
Dans notre exemple, nous avions deux dimensions de déformations possibles,
2 ans et 7 ans, et nous avons identifié un axe de déformation principal, la variation
parallèle des taux 2 et 7 ans, et un axe de déformation secondaire, la variation
en sens contraire des deux taux. Cette construction se généralise à l’intégralité
des points de maturité de la courbe, en dimension N si la courbe est constituée

de N points de maturité. Dans ce cas, l’ACP identifie N axes de déformations
qui peuvent être ordonnés du plus important au plus marginal. En ne retenant
que les axes principaux, nous pouvons donc réduire les dimensions d’analyse
des déformations de la courbe en nous concentrant sur les déformations les plus
importantes. Le graphique 1.7 présente les trois premiers vecteurs maximisant
la part de variance expliquée dans le cadre de l’application d’une ACP aux
variations quotidiennes des taux de la courbe du trésor britannique entre 2000
et 2009.
F IGURE 1.7. Les trois principaux vecteurs de déformation de la courbe des taux. Chacun de ces vecteurs est
associé à une déformation de la courbe des taux représentée dans la figure 1.8.
Reste désormais à interpréter ces résultats :

– La forme du premier vecteur peut être assimilée à une droite horizontale.
Cela signifie que les déformations proportionnelles à ce facteur correspon-
dront à une translation de la courbe vers le haut ou vers le bas, comme
l’indique la figure 1.8.
– La forme du second vecteur peut être assimilée à une droite décroissante
coupant l’axe des abscisses au point de maturité 11,5 ans. Cela signifie
que les déformations proportionnelles à ce facteur correspondront à une
rotation centrée autour du point de maturité 11,5 ans, comme l’indique la
figure 1.8. On parlera alors de pentification ou d’aplatissement de la courbe
des taux.
– La forme du troisième facteur peut être assimilée à une parabole dont
le minimum se situe au point de maturité 7,5 ans. Cela signifie que les

déformations proportionnelles à ce facteur correspondront à l’accroisse-
ment des taux aux extrémités de la courbe et à la diminution des taux situés
à proximité de la maturité 7,5 ans. On dira alors que la courbe subit un
accroissement de sa convexité. Dans le sens contraire, le mouvement sera
une atténuation de la convexité.
3e facteur : Augmentation
1er facteur : Translation 2e facteur : Pentification
de la convexité
F IGURE 1.8. Illustration des déformations de la courbe des taux induites par les trois vecteurs principaux de
l’ACP. Les graphiques illustrent l’impact sur la courbe des taux d’une variation des taux alignée sur l’un des
trois vecteurs identifiés dans la figure 1.7.
Nous avons donc identifié les trois principaux types de déformation de la

courbe des taux : translation (à la hausse ou à la baisse), pentification (ou aplatis-
sement dans le sens contraire) et augmentation de la convexité (ou atténuation
dans le sens contraire). Ces trois facteurs concentrent, dans notre exemple, 92 %
de la variance du nuage de points. L’essentiel des mouvements peut désormais
être exprimé à partir de trois vecteurs alors qu’il était nécessaire, avant la mise en
œuvre de l’ACP, d’utiliser chaque point de la courbe. Cependant, il est important
de s’interroger sur le sens de ces résultats.
En premier lieu, cette méthode repose sur la variance. Ainsi, les facteurs
identifiés comme étant principalement responsables de la déformation de la
courbe des taux ne seront pas nécessairement les plus fréquents, mais uniquement
ceux qui génèrent les plus importantes variations dans l’historique d’étude. En
second lieu, la question de la stabilité temporelle des résultats obtenus se pose. Les
diverses études de décomposition de la dynamique de la courbe des taux par le
biais de l’ACP ont pu conclure à une grande stabilité, temporelle et géographique,
de la décomposition sur les trois premiers facteurs (translation, pentification et
convexité). La figure 1.9 illustre ce constat en présentant des résultats comparables
pour deux périodes distinctes (2003 à 2006 puis 2006 à 2009).
La plupart des éléments présentés dans ce chapitre sont fondés sur l’hypo-
thèse que toute variation dans les taux zéro coupon est due à une modification
de la structure des taux d’intérêt purs. Or, dans la pratique, d’autres éléments

F IGURE 1.9. Stabilité des trois facteurs principaux de déformation de la courbe des taux. Les trois principaux
vecteurs de déformation identifiés se retrouvent quelle que soit la période étudiée, l’analyse semble robuste
dans le temps.
interfèrent avec cette notion de taux d’intérêt et en particulier le risque de crédit

que nous verrons dans le prochain chapitre. Ainsi, il est impossible de distinguer
dans les variations de prix des obligations la part imputable au seul risque de va-
riation des taux d’intérêt. La prise de conscience de cette impossibilité a d’ailleurs
été renforcée récemment par la crise des dettes souveraines qui a contribué à
fragiliser l’hypothèse de l’existence de taux sans risque. Il n’en demeure pas
moins que cette construction est indispensable à la modélisation des produits
financiers et à la compréhension de leur fonctionnement.

2
Risque de crédit et marché du crédit
Nous avons étudié au précédent chapitre les taux d’intérêt purs rémunérant la
perte d’opportunité d’investissement par le prêteur. L’identité de l’emprunteur
n’avait alors que peu d’importance puisque nos raisonnements présupposaient
que tous les flux futurs étaient versés de manière certaine. Dans la pratique, et
ainsi que nous avions commencé à l’évoquer en filigrane, cette hypothèse est loin
d’être acquise ; il suffit de discuter quelques instants avec les ex-créanciers de
Worldcom, Enron ou encore Lehman Brothers pour s’en convaincre. En réalité,
tout prêt ou emprunt d’argent est soumis à au moins deux risques :
– le risque de variation des taux d’intérêt que nous avons vu lors du chapitre
précédent ;
– le risque de non-versement des flux d’argent prévus dans les termes du
contrat, suite à la faillite ou au défaut de paiement d’une contrepartie ; c’est
ce que l’on appelle le risque de crédit.
L’existence de ce risque supplémentaire va conduire les prêteurs, comme
c’est toujours le cas en finance, à demander un surcroît de rémunération visant à
compenser le risque pris. Les théories du risque de crédit modélisent ce risque
supporté par le prêteur, elles le quantifient par la notion de spread de crédit que
nous aborderons dans la première partie. Le cas des Credit Default Swaps nous
permettra dans un second temps d’illustrer comment le développement des
produits dérivés de crédit a nécessité la construction de modèles cohérents avec
les prix de marché et dont quelques exemples simples seront présentés ([Jarrow
et Turnbull 1995]). Le modèle de [Merton 1974], appartenant à la famille des
modèles dits structurels – modélisant le risque réel de défaut et les événements
conduisant au défaut – sera ensuite évoqué. La modélisation des corrélations
entre les défauts sera abordée dans le dernier volet de ce chapitre.
1 Taux sans risque et spread de crédit
Il semble assez simple de dégager intuitivement une hiérarchie grossière du

risque de crédit en fonction de l’emprunteur ou de l’émetteur d’une obligation.
Ainsi, un fonctionnaire semblera un emprunteur plus sûr qu’un chômeur en fin
de droit ; un État de la zone Euro, un émetteur plus fiable qu’une PME russe.
La justification et le raffinement de cette hiérarchie constitue en revanche une
question bien plus épineuse. C’est ce à quoi s’emploient les agences de notation
de crédit comme Standard & Poor’s (S&P), Moody’s ou Fitch à partir d’une
analyse fondamentale de la structure et du fonctionnement des émetteurs notés.
À l’issue de ces travaux, les agences de notation publient une note censée être
représentative de la qualité de crédit de l’entité. Durant la crise dite des subprime,
ces agences ont révélé leurs limites sur certaines typologies d’investissement.
Toutefois, elles restent à ce jour les référents les plus indépendants et sérieux
permettant de qualifier la qualité de crédit des émetteurs d’obligations. Les
formats des notes diffèrent légèrement selon les agences et nous présentons ici
une nomenclature simplifiée fondée sur celle de S&P :
– AAA est la note maximale représentative de la meilleure qualité de cré-
dit. Cette note regroupe certains États, entreprises ou organisations para-
publiques.
– de AA à BBB (AA puis A puis BBB selon un ordre de qualité de crédit
décroissant) les émetteurs sont considérés comme étant Investment Grade
(dits « catégorie d’investissement » en français), c’est-à-dire relativement
sûrs.
– de BB à D (BB puis B puis CCC et ainsi de suite, D signifiant que l’émetteur
est en défaut) les émetteurs sont considérés comme étant Non Investment
Grade (dits « investissements spéculatifs » en français), c’est-à-dire faisant
état d’une situation fragile.
La répercussion du niveau de risque de crédit sur les prix des obligations

n’est pas identifiable immédiatement. En effet, le prix des obligations dépend
de différents facteurs (montant des coupons, maturité, etc.) et il est difficile d’en
isoler la composante rémunérant le risque de crédit. Il est donc nécessaire de
passer par les taux de rendement des obligations. La figure 2.1 présente par
exemple certaines obligations dont les prix sont supérieurs à d’autres obligations
pourtant a priori moins risquées. La représentation de leurs taux de rendement
permet, en revanche, de rendre compte des différences de niveaux de risques
de crédit attendus : les taux de rendement des obligations les plus risquées sont
plus élevés, les investisseurs demandent bien un rendement supplémentaire en
contrepartie du risque pris.
24 Chapitre 2. Risque de crédit et marché du crédit

(a) Prix des obligations (b) Taux de rendement des obligations
(c) Spread de crédit des obligations
F IGURE 2.1. Les différentes étapes de construction du spread de crédit. Les graphiques présentent six
obligations identifiées par le nom de l’émetteur, la notation de l’émetteur, le coupon de l’obligation et sa
maturité. La représentation des prix sur le graphique (a) ne permet pas de rendre compte de la hiérarchie du
risque de crédit, les prix ne sont pas ordonnés en fonction de la qualité de crédit. Le recours aux taux de
rendement sur le graphique (b) permet de rétablir cette hiérarchie pour peu que l’on se place sur une même
maturité. Enfin, le calcul du spread de crédit, écart entre le taux sans risque et le taux de rendement, sur le
graphique (c) isole la part du rendement de l’obligation associée au risque de crédit.
Le graphique 2.1b ne permet toutefois que de comparer deux obligations de

même maturité. En effet, le taux de rendement rémunère tant la perte d’opportu-
nité d’investissement (le taux d’intérêt pur) que le risque de crédit. Or, les taux
d’intérêt purs dépendent de la maturité – ils croissent en général avec la maturité
– cela explique pourquoi l’obligation EDF notée A et de maturité 11 ans offre un
taux de rendement plus élevé que l’obligation Lafarge notée BB de maturité 2 ans
alors qu’elle est mieux notée et donc supposée moins risquée.
Pour cette raison, nous devons introduire la notion de taux sans risque qui est
un taux non soumis au risque de crédit, c’est-à-dire pour lequel les versements
d’intérêts futurs sont certains. Ce taux sans risque comporte une structure par

maturité qui peut être déduite d’obligations non risquées au sens du risque
de crédit. Ainsi pour chaque point de maturité, il est désormais possible de
déterminer, pour chaque obligation risquée, la part de rendement imputable au
risque de crédit. Il s’agit de la différence entre le taux de rendement de l’obligation
risquée et le taux sans risque correspondant à la même maturité. On appelle cette
différence le spread de crédit de l’obligation risquée. Par exemple, si le taux de
rendement d’une obligation est η et que le taux sans risque est r, le spread de
crédit est par définition s = η − r.
Comment construit-on en pratique la courbe des taux sans risque ? Tradi-

tionnellement, il était considéré que les grands États occidentaux (États-Unis,
Allemagne, France...) étaient peu susceptibles de faire défaut et que, par consé-
quent, les taux de rendement de leurs obligations pouvaient être assimilés à des
taux sans risque. Or, sans remettre en cause le principe selon lequel les États
comme l’Allemagne ou la France sont plus sûrs que la plupart des entreprises
privées, la récente crise des dettes souveraines a pu montrer la fragilité de cer-
tains États comme la Grèce, le Portugal et l’Italie ; même les notes financières
des États-Unis et de la France ont été dégradées par S&P en 2011/2012. Le gra-
phique 2.2 présentant l’historique des taux de rendement d’obligations d’États
de la zone Euro de maturité 10 ans illustre parfaitement ces événements.
F IGURE 2.2. Historique des taux de rendement des obligations de maturité 10 ans émises par différents
États de la zone Euro. Les résultats de la crise bancaire consécutive au défaut de la banque Lehman Brothers
sont manifestes à partir de la fin d’année 2008. Les écarts de rendement s’amplifient durant la crise des
dettes souveraines au cours de l’année 2010.

Il existe par ailleurs des mécanismes de collatéralisation qui permettent au
prêteur de recevoir des titres en garantie de l’argent versé ; ceux-ci réduisent
fortement le risque de crédit de certaines transactions effectuées sur les marchés
interbancaires. Les taux d’intérêt en vigueur pour de telles opérations de marché
peuvent donc également prétendre à la qualité de taux sans risque. Il n’existe
pas à l’heure actuelle de référence absolue pour le taux sans risque. S’il est
possible d’inférer par des études empiriques des références de taux sans risque
à privilégier, il reste toutefois important de comprendre que le taux sans risque
reste une notion théorique et non observable dans la pratique.
2 Probabilités de défaut implicites

Nous avons jusqu’ici présenté le risque de crédit comme une notion intuitive
et relativement vague : le risque de non-versement de sommes dues. En réalité,
la source du risque se manifeste à deux niveaux. Tout d’abord, la situation de
trésorerie d’une entreprise peut la conduire à ne pas être en mesure d’honorer
certains des paiements dus ; on dira alors que l’entreprise est en situation de
défaut. Il s’agit du premier niveau de risque, qui peut être représenté par la
probabilité que l’émetteur fasse défaut.
Pour autant, cette probabilité n’est pas suffisante pour quantifier le risque
de perte finale. En pratique les entreprises en défaut possèdent un reliquat de
richesses suffisant pour faire face, en partie au moins, aux engagements qu’elles
ont contractés. La perte sera ainsi limitée pour l’investisseur : certes l’entreprise
aura fait défaut, mais au final, la perte issue du défaut sera partiellement com-
pensée par la liquidation des actifs de l’entreprise. On parlera alors du risque de
perte conditionnée au défaut, ou de perte en cas de défaut. La perte en cas de
défaut est, en général, exprimée en pourcentage du nominal de l’obligation de
même que son complémentaire, le taux de recouvrement (taux de recouvrement =
1 − perte en cas de défaut). La figure 2.3 illustre cette dualité dans le cadre d’une
obligation zéro coupon risquée (valant initialement ZC) versant 100 à maturité si
l’émetteur n’a pas fait défaut ou 100 × R (taux de recouvrement) sinon. Le défaut
intervient avec une probabilité Pdef ( T ).
Supposons que nous soyons en mesure d’estimer les deux paramètres Pdef ( T )
et R, peut-on retrouver le prix de marché ZC de l’obligation ? La réponse intuitive
est qu’il faut calculer la valeur actualisée moyenne des flux, de la même manière
que recevoir 1 000 avec 50 % de chance est à peu près comme recevoir 500. Si
l’expérience était infiniment renouvelable, cette réponse serait rigoureuse car au
bout d’un certain nombre de tirages, le flux versé serait bien en moyenne très
voisin de 500 par tirage. Dans le cas de l’achat d’une obligation, l’expérience

F IGURE 2.3. Représentation du risque de défaut dans le cadre d’une obligation zéro coupon. Le défaut se
produit avec une probabilité Pdef et, dans ce cas, le détenteur de l’obligation ne touchera pas le nominal de
100 mais le recouvrement 100 × R qui sera inférieur à 100.
n’est pas renouvelable : l’entreprise fait défaut ou ne fait pas défaut. Un inves-
tisseur demandera alors à recevoir une rémunération supérieure à la moyenne
probabilisée des flux à percevoir (sinon, il n’a pas de prime de risque) :
100
ZC > × [(1 − Pdef ( T )) + Pdef ( T ) × R] (2.1)
(1 + r ) T
Dans cette équation, r est le taux sans risque associé à la maturité T. Cepen-
dant, les mathématiciens de la finance ne calculent généralement pas un prix à
partir de paramètres économiques mais recherchent les paramètres économiques
qui rendent compte du prix de marché. Dans ce cadre, nous ne travaillerons donc
pas sur les probabilités de défaut et taux de recouvrement réels qui satisfont
l’inégalité (2.1) mais sur des données dites implicites : ce sont des paramètres
Pdef ( T ) et R qui sont les solutions de l’équation :
100
ZC = × [(1 − Pdef ( T )) + Pdef ( T ) × R] (2.2)
(1 + r ) T
Cette manière de voir le monde peut surprendre le lecteur. C’est un aspect

essentiel des mathématiques financières, sur lequel nous reviendrons régulière-
ment. Notre objectif n’est pas de calculer des prix de marché ex nihilo mais de
partir d’un ensemble de prix de marché constatés pour en déduire le prix d’autres
produits similaires mais non cotés sur les marchés. C’est exactement ce que nous
avons fait au premier chapitre lorsque nous avons interpolé les courbes de taux.

À ce sujet, [Derman 2003] explique « If you want to know the value of a security, use
the price of another security that’s as similar to it as possible. All the rest is modelling. » 1
L’équation (2.2) pose cependant un problème : il existe deux inconnues
(Pdef ( T ) et R) pour une seule équation. Afin de contourner ce problème, le taux de
recouvrement R peut être fixé forfaitairement : une probabilité de défaut Pdef ( T )
est alors déduite de l’équation et se nomme probabilité de défaut implicite. Il y aura
ainsi autant de probabilités de défaut implicites qu’il y aura de façon de fixer
forfaitairement le taux de recouvrement.
Nous avons vu précédemment que le risque de crédit d’une obligation
pouvait se mesurer par son spread de crédit que nous notons ici s. Par définition
du spread, le taux de rendement de l’obligation est r + s (r est le taux sans risque).
On peut donc calculer ce spread, en remplaçant ZC dans l’équation (2.2) par
l’expression idoine :
100 100
= × [(1 − Pdef ( T )) + Pdef ( T ) × R] (2.3)
(1 + r + s ) T (1 + r ) T
Au premier ordre (en considérant que Pdef ( T ) et r sont petits devant 1), nous
obtenons l’expression du spread :
Pdef ( T )
s≈ (1 − R ) (2.4)
T
Le spread peut ainsi être interprété doublement : c’est par définition l’excès de
rendement sur le taux sans risque rémunérant le risque de défaut, c’est également,
au premier ordre, la probabilité de défaut implicite annualisée et pondérée par
la perte en cas de défaut. Une autre manière de le formuler est de considérer
qu’il s’agit de la perte moyenne annuelle que l’investisseur peut attendre. En ce
sens il devrait représenter, au premier ordre également, la prime annuelle qu’un
investisseur est prêt à payer pour acheter une protection en cas de défaut. Ce
type de protection existe réellement sur le marché du crédit, il s’agit d’un dérivé
de crédit qui peut par exemple prendre la forme d’un Credit Default Swaps (CDS)
et que nous introduirons ci-dessous.
1 Si vous voulez connaître le prix d’un titre, partez d’un titre qui lui est le plus proche possible. Le
reste n’est que de la modélisation.

Encadré 2.1. Les Credit Default Swaps (CDS).
Un credit default swap, ou CDS, est un contrat signé entre deux contreparties, l’acheteur et
le vendeur. Par ce contrat, le vendeur s’engage à verser à l’acheteur la perte générée en
cas de défaut de l’émetteur d’une obligation donnée. En contrepartie, l’acheteur paye une
prime fixe. Ainsi, le CDS peut être utilisé comme une protection sur le risque de crédit
issu d’une obligation. Toutefois, l’acheteur ne détient pas nécessairement l’obligation de
référence, il peut simplement spéculer sur le risque de défaut de l’émetteur de l’obligation.
Les CDS font partie de la famille des dérivés de crédit.
Les dérivés de crédit sont des produits financiers prévoyant le versement de

flux financiers futurs dont le montant et la date de versement dépendent d’un
événement de crédit comme le défaut d’un émetteur d’obligation par exemple.
Parmi ceux-ci, les Credit Default Swaps (CDS) sont les plus répandus. Un contrat
de CDS est un instrument financier offrant à son détenteur une protection sur
le risque de crédit d’un émetteur donné contre le versement, à une fréquence
régulière, de primes au vendeur du CDS. En cas de défaut, le vendeur du CDS
compensera l’écart entre le recouvrement sur l’obligation et la valeur du nominal.
Le détenteur du CDS ne perdra ainsi pas le montant investi : seuls les intérêts
non encore perçus seront perdus. Naturellement, le raisonnement n’est valide
qu’à condition que le vendeur de CDS ne fasse pas faillite à son tour. La crise
récente a montré que la corrélation entre le risque de faillite du fournisseur de
protection, le vendeur de CDS, et le risque de faillite de l’entité sur laquelle porte
la protection pouvait être forte : la protection apportée par le CDS est d’autant
plus illusoire que le vendeur de protection risque de faire faillite si l’entité de
référence fait faillite (par exemple, si le vendeur de CDS a vendu plus de CDS
qu’il ne pouvait honorer). Les financiers parlent dans cette situation de wrong
way risk.
Les CDS initialement prévus pour fournir de la protection aux détenteurs
d’obligations sont devenus très rapidement des produits très liquides, c’est-à-
dire qu’ils ont connu de forts volumes de transaction. Ce faisant, ils sont même
devenus la référence utilisée par les marchés pour quantifier le risque de crédit
des émetteurs d’obligation. Le développement du marché des CDS a permis aux
trader d’investir sur le risque de crédit en s’exonérant des contraintes physiques
liées au marché des obligations. La prime à payer pour la protection est, au
premier ordre, le spread de crédit de l’émetteur de référence (celui sur lequel porte
le risque de défaut).
Après cette parenthèse sur les dérivés de crédit, revenons à notre exemple
initial (figure 2.3 et équation (2.3)). Le marché nous propose des prix d’obligations
et de CDS sur différentes maturités T1 , T2 , etc., ce qui nous permet de calibrer
les probabilités de défaut implicites pour ces maturités. Les modèles de crédit

doivent permettre de calculer cette probabilité de défaut implicite pour n’importe
quelle maturité T.
Prenons l’exemple présenté dans le tableau ci-dessous. Supposons que nous
connaissons les prix ZC ( Ti ) de 5 obligations zéro coupon d’un même émetteur
et de maturités (Ti ) s’échelonnant de 1 à 5 ans. Supposons également connaître
les prix ZC ∗ ( Ti ) de 5 obligations zéro coupon réputées sans risque. En faisant,
par exemple, l’hypothèse que le taux de recouvrement R est nul, nous pouvons
déduire de ces 10 instruments un vecteur de 5 probabilités de défaut implicites
Pdef ( Ti ) :
Prix de Taux sans Prix de Probabilité

Maturité l’obligation risque l’obligation Spread de défaut
(Ti ) sans risque associé (r) risquée de crédit (s) implicite
(ZC∗ (Ti )) (ZC (Ti )) (Pdef (Ti ))
1 an 97,1 % 3,0 % 96,6 % 0,50 % 0,48 %
2 ans 92,5 % 4,0 % 90,7 % 1,00 % 1,90 %
3 ans 87,6 % 4,5 % 85,4 % 0,90 % 2,54 %
4 ans 83,2 % 4,7 % 80,5 % 0,87 % 3,26 %
5 ans 78,4 % 5,0 % 75,3 % 0,85 % 3,95 %
Afin de déduire de ces données une structure des probabilités de défaut

implicites par maturité, nous allons désormais introduire le principe général des
modèles à intensité qui constituent la base des modélisations du risque de défaut
déduites des données de marché. Ces modèles introduits par [Jarrow et Turnbull
1995] reposent sur l’hypothèse fondamentale que la probabilité de défaut d’un
émetteur sur un court intervalle de temps est proportionnelle à la longueur dt
de cet intervalle. Le coefficient de proportionnalité, appelé intensité du défaut et
généralement représenté par λ(t), peut prendre plusieurs formes :
– il peut être constant (λ(t) = λ) ;
– il peut être constant par morceaux (λ(t) = λi pour t compris entre Ti et
Ti+1 ) ;
– il peut être une fonction déterministe quelconque du temps ;
– il peut varier aléatoirement et être ainsi corrélé à d’autres facteurs écono-
miques.
L’hypothèse de proportionnalité de la probabilité de défaut à l’intervalle de
temps ne peut être valide (au premier ordre) que sur de très courtes durées.
En outre, il faut avoir à l’esprit qu’il s’agit d’une probabilité s’appliquant à des

intervalles de temps futurs et qui n’a de sens que si l’émetteur n’a pas fait défaut
avant le début de l’intervalle. C’est pourquoi la probabilité modélisée n’est pas
une probabilité absolue mais conditionnelle au fait que l’émetteur n’ait pas fait
défaut avant le début de l’intervalle. La transposition rigoureuse en langage
mathématique de cette hypothèse de proportionnalité ainsi que les calculs qui
permettent d’en déduire la structure des probabilités de défaut par maturité est
expliquée dans [Schönbucher 2003] et n’est pas détaillée ici. Nous constaterons
simplement que cette hypothèse mène au résultat suivant dans le cas où λ est
constant :
Pdef ( T ) = 1 − e−λT (2.5)
F IGURE 2.4. Probabilités implicites de défaut d’un émetteur entre l’instant présent et une maturité future dans
un modèle à intensité. Ces probabilités sont données par l’équation (2.5), elles sont d’autant plus élevées
que l’intensité λ est forte.
L’intérêt des modèles à intensité réside dans le fait qu’ils permettent, par-
tant des prix de marché des obligations ou des CDS, de déduire une structure
cohérente des probabilités de défaut permettant de valoriser presque tous les
dérivés de crédit. La figure 2.5 montre que le modèle à intensité constante ne
permet pas de rendre compte de la réalité des prix de marché. En effet, ce dernier
ne comporte qu’un seul paramètre et est trop rigide pour approcher les prix
de marché. Le modèle à intensité constante par morceaux comporte quant à
lui autant de degrés de liberté qu’il y a de maturités disponibles pour le calcul.
De ce fait, il permet d’approcher parfaitement leurs prix. À ce sujet, toutes les
problématiques que nous avons abordées sur l’interpolation de la courbe des
taux se posent également pour l’interpolation des intensités de défaut.

F IGURE 2.5. Probabilités implicites de défaut calculées sur un jeu d’obligations zéro coupon risquées
dans deux modèles à intensité : un modèle à intensité constante et un modèle à intensité constante par
morceaux. Le modèle à intensité constante par morceaux permet de mieux ajuster la structure par maturité
des probabilités de défaut aux probabilités déduites des prix de marché observés.
Avant de clore cette section, retenons que :

– le risque de crédit est dual et dépend de la probabilité de défaut et de la
perte en cas de défaut ;
– les modèles à intensité permettent de calculer une structure par maturité
des probabilités de défaut implicites, cohérente avec les prix de marché, et
permettant de valoriser d’autres produits dérivés ;
– le caractère prédictif des jeux de paramètres calculés doit être considéré
avec circonspection.
3 Un modèle structurel, le modèle de la firme
Les modèles à intensité présentent la particularité de ne pas s’intéresser à la

nature réelle du risque de crédit mais uniquement de déduire, à partir des prix
des obligations, une représentation de la perception du risque par le marché.
Ainsi leur utilisation à des fins de mesure du risque de crédit ou d’interprétation
économique de la structure financière d’une entreprise n’est pas pertinente.
L’approche retenue par les modèles de risque de crédit dits structurels est toute
autre. En effet, ces derniers visent à répliquer la structure du bilan des émetteurs
pour en déduire notamment une mesure du risque de crédit.

Comment une information issue de la comptabilité des entreprises peut-elle
être utilisée pour mesurer un risque de crédit ? [Black et Scholes 1973] puis
[Merton 1974] répondent à cette question par la construction du modèle dit de la
firme qui s’appuie sur une des caractéristiques fondamentales de la comptabilité :
l’équilibre du bilan comptable. Cette notion n’étant sans doute pas familière à
l’ensemble des lecteurs, une incursion brève et simplificatrice dans le domaine
de la comptabilité s’impose.
Le bilan d’une entreprise est supposé recenser l’état de ses richesses et de
ses engagements à un instant donné. Parmi les richesses, que l’on appellera
par la suite l’actif, figurent notamment la trésorerie, les valeurs des moyens de
production, des matières premières, du parc immobilier... Les engagements, que
l’on appellera par la suite le passif, comprennent quant à eux le montant des
dettes qu’a contractées l’entreprise (découvert bancaire ou émissions obligataires
par exemple), le capital, le résultat à distribuer aux actionnaires... Le passif peut
donc être subdivisé en deux sous-catégories : les dettes et les engagements de
l’entreprise envers ses actionnaires (capital et résultats). En théorie, en cas de
liquidation instantanée de l’entreprise, les actionnaires devraient se partager le
capital et le résultat. Ainsi, la valeur de la totalité des actions de l’entreprise,
c’est-à-dire la capitalisation boursière de l’entreprise, peut être théoriquement
considérée comme étant égale à la somme du capital et des résultats. Nous n’irons
pas plus loin dans la description du bilan qui sera donc modélisé par ces trois
valeurs :
– la valeur des richesses de l’entreprise, ou de l’actif (At ) ;
– la valeur de la dette (Dt ) ;
– la valeur des engagements de l’entreprise envers les actionnaires qui est
assimilée à la capitalisation boursière (St ).
Le bilan comptable d’une société doit être équilibré, c’est-à-dire que la valeur
de l’actif doit être égale à la valeur du passif. Ce principe comptable découle du
fait que le résultat comptable absorbera les variations de valeur de la dette et des
actifs. Ainsi, il existe une relation valable à tout instant entre valeur des actifs,
valeur de la dette et capitalisation boursière :
A t = S t + Dt (2.6)
Le modèle structurel de la firme repose également sur le principe qu’il existe,

dans le cas où une entreprise fait défaut, une priorité de remboursement des
créanciers en fonction de leur nature. En France, à titre d’exemple, l’État et
les salariés seront remboursés en priorité, les fournisseurs puis les porteurs
d’obligations seront ensuite servis tandis que les actionnaires se partageront le

résidu des actifs non encore distribués. Pour simplifier, nous supposerons par
la suite que toute la dette peut être représentée par des obligations. Dans notre
modélisation, cela signifie que si l’entreprise fait défaut, les actifs seront vendus
pour rembourser d’abord le nominal des obligations puis éventuellement les
actionnaires. Plus généralement, que l’entreprise ait fait défaut ou non, si l’on
suppose que le nominal N des obligations émises doit être remboursé en T, le
même principe s’appliquera : le montant des actifs (A T ) sera affecté en priorité
au remboursement du nominal, et le résidu, s’il y en a, sera la propriété des
actionnaires. Mathématiquement, cela se traduira par les formules suivantes 2 :
ST = max(0; A T − N ) (2.7)
DT = min( N; A T )
La capitalisation boursière est proportionnelle à la valeur d’une action puis-

qu’elle est égale au nombre d’actions multiplié par leur valeur. L’équation (2.7)
montre que l’action peut être assimilée à un produit financier qui verserait, au
temps T, 0 si la valeur de l’actif est en dessous d’un certain seuil N et la diffé-
rence A T − N sinon. Cette catégorie de produits est très répandue, ce sont les
options d’achat, appelées call en anglais. Nous reviendrons aux chapitres 4 et
5 sur ces options et sur la manière de calculer leur prix. Il suffit pour l’heure
de comprendre que la modélisation du bilan comptable de l’entreprise permet
de lier les valeurs de sa dette avec celles de ses actions et de ses actifs. À partir
d’hypothèses relatives à l’évolution de la valeur des actifs de l’entreprise – nous
étudierons de tels modèles à partir du chapitre 5 – plusieurs exploitations de
cette relation sont alors possibles, en particulier :
– identifier des incohérences entre le prix des obligations de l’entreprise et le
prix de ses actions ;
– estimer la probabilité de défaut de l’entreprise, ainsi que nous allons le voir
dans le paragraphe suivant.
Le modèle de Merton suppose ainsi que les lois d’évolution de la valeur des
actifs de l’entreprise est défini. Cela ne signifie pas que toutes ses valeurs futures
sont déterministes et connues mais uniquement que l’on connaît la probabilité
que l’actif atteigne une valeur donnée à chaque instant dans le futur. Si l’on
connaît ces probabilités, cela signifie que l’on peut lier l’occurrence du défaut à
la valeur de l’actif de l’entreprise puis en déduire une probabilité de défaut. En
effet, l’équation (2.7) induit une première définition du défaut : les actionnaires
2 La fonction max( x; y) renvoie le plus grand des arguments x ou y ; la fonction min( x; y) renvoie le
plus petit. Par exemple, max(0; −1) = 0 et min(2; 1) = 1.

déposeront le bilan de l’entreprise si son actif A T est insuffisant pour rembourser
le nominal N. Dans ce cas, les créanciers perçoivent le résultat de la liquidation
de l’actif A T (inférieur à N). Partant de ce principe, il est possible de choisir
des modélisations plus élaborées où le défaut peut survenir à d’autres moment
qu’à T :
– Le défaut ne peut survenir qu’aux dates de remboursement des emprunts
lorsque la valeur de l’actif est inférieure au nominal.
– Le défaut peut survenir à tout moment dès que la valeur des actifs est
inférieure à un seuil constant fixé ou dépendant du temps. Une telle
modélisation du défaut conduit à un modèle à intensité, dont l’intensité du
défaut est une variable dépendant du temps (cf. illustration graphique 2.6).
F IGURE 2.6. Intensité du défaut et probabilité de défaut dans un modèle de Merton (défaut intervenant
lorsque l’actif passe en dessous d’un seuil de référence). Le modèle structurel de Merton conduit à un modèle
à intensité, dont l’intensité est une fonction de la maturité. Par rapport à un modèle à intensité constante, les
défauts du modèle de Merton sont moins probables à court terme et à long terme et plus probables à moyen
terme.
Le modèle de la firme est séduisant car il rend compte de la structure réelle

des comptes de l’entreprise et de son impact sur la qualité de crédit. En revanche,
les hypothèses et approximations qui ont été nécessaires pour parvenir à la dé-
duction des probabilités de défaut sont légion : modélisation du bilan comptable
de l’entreprise, hypothèses d’évolution de la valeur de l’actif, modélisation de
l’occurrence du défaut... Aux premières approximations frustes présentées briè-
vement dans ce chapitre peuvent être substituées des modélisations plus fines

rendant compte plus fidèlement du mode de fonctionnement de l’entreprise dans
la vie réelle. Malheureusement, cette complexification a pour contrepartie un
accroissement des paramètres à estimer, ce qui est préjudiciable à la fiabilité
des modèles dans un contexte où les caractéristiques des phénomènes que l’on
cherche à modéliser sont difficilement observables. Il n’existe en effet pas d’infor-
mation explicite disponible permettant de déduire à tout instant la valeur des
paramètres. Conséquence de cette accumulation d’hypothèses, les informations
déduites de ce type de modèles n’ont, là encore, pas vocation à être prédictives
ni même à être compatibles avec les prix de marché. Il semble en revanche acquis
qu’ils permettent une classification assez fiable et robuste de la qualité de crédit,
permettant par exemple d’attribuer une note de crédit à une entreprise.
4 Corrélation entre les défauts
Nous nous sommes jusqu’ici intéressés au risque de crédit selon un critère de

risque individuel : l’objectif que nous nous étions fixé était de proposer une
mesure du risque de perte sur une créance donnée indépendamment de l’état de
l’économie ou de tout autre critère exogène à la vie de l’émetteur de la dette. Or, il
est communément admis et abondamment démontré que les défauts d’entreprises
surviennent en grappe au fil du temps ainsi que le présente le graphique 2.7.
Cela signifie qu’il existe une relation de dépendance liant l’occurrence des défauts :
en simplifiant à l’extrême, si plusieurs entreprises ont fait défaut dans un passé
récent, il est probable que l’on observe d’autres défauts dans un futur proche.
Ce phénomène de dépendance des défauts impose donc une attention parti-

culière dans l’analyse du risque de crédit attaché à un portefeuille de plusieurs
créances. En effet, la connaissance des probabilités de défaut individuelles ne
permet pas de mesurer la propension qu’auront les émetteurs à faire défaut
simultanément. Or, le risque d’accumulation des défauts est justement le risque
principal auquel les établissements financiers doivent faire face. La prise en
compte de ce risque est donc un enjeu crucial pour les banques.
Imaginons-nous un instant à la tête d’une banque comptant 1 000 clients

détenteurs, chacun, d’un prêt de 1 000 000 e. Le risque maximum que prend la
banque est donc que la totalité de ses 1 000 clients fasse défaut ce qui représente-
rait une perte de 1 milliard d’euros ; nous considérons, dans cet exemple, que si
un client fait défaut, la totalité de sa créance est perdue. En tant que dirigeants
de cette banque, nous souhaitons estimer le risque que la banque fasse faillite
dans l’année sachant qu’elle ne pourra pas supporter de pertes supérieures à
500 Me. Ce phénomène se produira si au moins 50 % des clients font défaut :

F IGURE 2.7. Historique du taux de défaut des émetteurs de la zone Euro. Les défauts surviennent générale-
ment par grappes en fonction des cycles de l’économie : des pics sont observés autour de 1991, 2002 et
2009 tandis que les périodes entre chaque crise ne présentent que peu de défauts.
comment peut-on calculer la probabilité d’occurrence de cet événement ? Com-

ment connaître les probabilités du défaut conjoint de plusieurs émetteurs alors
que nous avons vu combien il était délicat d’estimer une simple probabilité de
défaut individuelle ? Ce problème illustre parfaitement la nécessité de réduire
le champ des dimensions possibles, autrement dit d’éviter la multiplication des
paramètres à estimer ou à fixer, notamment sur les règles définissant la relation
de dépendance entre les défauts. Une solution simple, traditionnelle et cohérente
avec le constat issu du graphique 2.7, est de lier l’occurrence des défauts à une
unique variable d’état : la conjoncture économique.
L’idée sous-jacente à ce modèle est de considérer que l’état de l’économie est
représenté par le tirage aléatoire d’un nombre réel X. Plus X sera grand, plus la
conjoncture économique sera favorable. Inversement, si X est petit, l’économie
pourra être considérée comme étant en récession. Bien évidemment, toutes les
valeurs de X possibles ne se produiront pas avec la même probabilité : bien que la
répétition récente des crises économiques soit de nature à ébranler ces certitudes,
les périodes d’euphorie ou de crise économiques sont moins fréquentes que les
états intermédiaires. C’est pourquoi il est nécessaire que la modélisation retenue
rende compte de cette caractéristique. Il devra ainsi être plus probable que X
prenne des valeurs proches de 0 plutôt que des valeurs extrêmes. La probabilité
associée à chaque valeur possible de X est traditionnellement modélisée par
une loi normale, également appelée loi gaussienne, dont la fonction de densité est

présentée en figure 2.8a. Ce choix de modéliser la conjoncture économique par
une loi normale est pratique, car les statisticiens connaissent bien les propriétés
des lois normales, mais il est arbitraire.
(a) : Densité de la loi normale
(b) : Impact de la moyenne (c) : Impact de la variance

(variance fixée à 1) (moyenne fixée à 0)
F IGURE 2.8. Modélisation de l’état de l’économie par une loi normale. L’aire en bleu sous la courbe (a) peut
être interprétée comme la probabilité que X prenne une valeur comprise entre 1 et 2. Ainsi, la fonction
de densité permet de déterminer toutes les probabilités de tirage d’une variable aléatoire. La moyenne est
un paramètre qui permet de définir l’abscisse autour de laquelle sera centrée la courbe comme le montre
le graphe (b). La variance contrôle l’écartement de la courbe par rapport à sa moyenne ainsi que l’illustre
le graphe (c). La loi normale est entièrement définie par ces deux paramètres que sont la moyenne et la
variance.
Notre objectif est de lier le risque de défaut d’un ensemble d’émetteurs à l’état
de l’économie, c’est-à-dire à la valeur de la variable X (c’est notre consigne 1).
Nous souhaitons également que ce modèle soit cohérent avec les probabilités
de défaut individuelles Pdef i que nous supposons déjà estimées (consigne 2). La
démarche présentée dans la section précédente consacrée au modèle de la firme

va nous y aider. Pour répondre à la consigne 2, nous allons construire pour
chacun de nos émetteurs i une variable aléatoire Yi , qui suit une loi normale
de moyenne nulle et de variance égale à 1, représentative de l’état de santé de
l’émetteur i. Ces variables seront utilisées d’une façon similaire à la valeur de
l’actif des entreprises que nous avions modélisée dans la section précédente : si

Yi est inférieure à un seuil Ki alors l’émetteur i fait défaut. De façon à respecter
la consigne 2, les seuils Ki doivent être bien calibrés : la probabilité que Yi Ki
doit être exactement Pdefi . Reste désormais à lier ces variables Y à la variable X
i
afin de respecter la consigne 1. Les propriétés de la loi normale permettent de
résoudre cette ultime étape : il est possible de définir Ni , une variable aléatoire
suivant une loinormale de moyenne 0 et de variance 1 indépendante 3 de X,
telle que Yi = 1 − ρ2 Ni + ρX. Le paramètre ρ, qui doit être compris entre −1
et 1, est appelé la corrélation entre X et Yi . Ce paramètre contrôle l’intensité de
la dépendance entre l’état de l’économie et le caractère probable du défaut de
l’émetteur i, ainsi que l’illustre le graphique 2.9 :
– Si ρ est proche de 1 ou −1, la probabilité de défaut de l’émetteur i sera très
influencée par le niveau de X.
– Si ρ est proche de 0, Pdef
i sera insensible au niveau de X.
Encadré 2.2. Variable aléatoire, espérance, et variance.

Une variable aléatoire peut prendre différentes valeurs selon une certaine loi de probabi-
lité. Par exemple, le résultat d’un lancer de dés équilibré est une variable aléatoire qui
vaut 1 avec une probabilité de 1/6, 2 avec une probabilité de 1/6 également, ..., jusqu’à 6.
L’espérance d’une variable aléatoire n’est autre que sa valeur moyenne, 3,5 pour notre
lancer de dés. La variance d’une variable aléatoire mesure la variabilité autour de cette
espérance : plus elle est élevée plus les valeurs de la variable aléatoire sont dispersées.
Parmi les lois que peuvent suivre les variables aléatoires, les lois normales, nommées
également lois gaussiennes, tiennent une place particulière dans le monde mathématique.
Comme l’illustre la figure 2.8, ces lois sont entièrement définies par deux paramètres :
leur espérance et leur variance.
En résumé, l’état de santé global d’un émetteur i est représenté par une
variable aléatoire Yi . Si l’état de santé est inférieur à un seuil Ki , l’émetteur
fait défaut. Cet état de santé se décompose en la somme pondérée de deux
variables aléatoires, X, qui est l’état de la conjoncture économique et Ni qui
représente la santé spécifique de l’émetteur, indépendante du reste de l’économie.
La pondération de la somme est paramétrée par une variable ρ, la corrélation,
qui mesure à quel point la santé globale de l’émetteur est influencée par l’état de
l’économie globale.
L’application de cette modélisation à chaque émetteur permet donc de bâtir
une structure de dépendance entre leurs probabilités de défaut par le biais
d’une variable théorique reflétant, selon notre interprétation, l’état de santé
de l’économie. Dans la formulation du modèle, le paramètre ρ aurait pu être
indexé par les numéros des émetteurs (i). En effet, rien n’indique que tous les
3 Cela signifie que les valeurs de Ni ne sont aucunement liées aux réalisations de X.

F IGURE 2.9. Impact du paramètre de corrélation ρ entre l’état de l’économie X et la probabilité de défaut de
l’émetteur i. Si ρ est proche de 1, la probabilité de défaut de l’émetteur i sera très influencée par le niveau de
X . Pour des réalisations de X faibles, par exemple proches de −3, Pdef i sera très élevée, c’est-à-dire proche
i sera très faible, c’est-à-dire
de 1. Pour des réalisations de X plus élevées, par exemple proches de 1, Pdef
proche de 0. Si ρ est nul (courbe orange), la probabilité Pdef
i sera insensible au niveau de X et donc constante
et égale à 10 % dans notre exemple.
émetteurs connaissent la même sensibilité aux états de l’économie. En pratique,

le choix d’une corrélation unique pour tous les émetteurs est souvent privilégié :
il est en effet très difficile d’estimer statistiquement cette corrélation à partir de
données historiques. Les effets d’une corrélation unique seront mieux maîtrisés
que dans le cas où chaque émetteur est affecté d’une corrélation particulière
fixée arbitrairement. Il est bien évident que ce choix générera en contrepartie
une vision simpliste et manquant de souplesse qui s’est déjà avérée préjudiciable
durant la crise que connaissent les marchés du crédit depuis 2007.
Nous disposons maintenant d’un modèle, certes imparfait, mais qui nous
permet de répondre à notre mandat initial : quelle est la probabilité que la banque
dont nous assurons la direction fasse faillite ? Par souci de simplification, nous
supposerons que les probabilités individuelles de défaut de chacun des clients
sont identiques et égales à 10 %. Le graphique présenté en figure 2.10 illustre la
réponse à cette question pour différentes valeurs de la corrélation. Il présente,
en ordonnées, la probabilité que le nombre de défauts du portefeuille soit égal
à la valeur en abscisses. Ce modèle que nous venons de construire est la base
des formules de calcul des exigences en capitaux propres des banques telles que
spécifiées par les normes internationales Bâle 2 et, bientôt, Bâle 3.

F IGURE 2.10. Ce graphique présente en ordonnées la probabilité que le nombre de défauts d’un portefeuille
de 1 000 créances soit égal à la valeur en abscisses, pour différentes valeurs de la corrélation. L’augmentation
de la corrélation ne rend pas le portefeuille plus risqué en moyenne mais il déforme la densité de probabilité
du défaut en rendant plus probables les cas extrêmes et moins probables les cas intermédiaires.
Dans le graphique 2.10, lorsque la corrélation est nulle, la perte se concentre

autour de 10 %. Chaque individu ayant une probabilité d’entrer en défaut de 10 %
et chaque individu étant indépendant des autres, il est naturel, qu’en moyenne,
un individu sur dix fasse défaut. Lorsque la corrélation s’approche de 100 %, il
n’y a que deux modes possibles :
– Soit tous les clients sont en défaut, auquel cas la perte est de 1 milliard
d’euros (100 % des prêts). La probabilité de cet événement est 10 %.
– Soit personne n’est en défaut, auquel cas la perte est nulle. La probabilité
de cet événement est 90 %.
Dans tous les cas la perte moyenne est 10 millions d’euros, soit 10 % de l’investis-
sement.
La modélisation du risque de crédit demeure un enjeu crucial de la sphère

bancaire et financière, qu’il s’agisse de modéliser le comportement d’un porte-
feuille de créanciers à des fins de mesure des risques ou de fournir des outils
de valorisation cohérents pour les produits dérivés de crédit. La crise financière
des années 2007 à 2009 a, à tort ou à raison, jeté le discrédit sur une catégorie de
modèles utilisés jusqu’alors comme des standards de marché. En particulier, la
modélisation de la dépendance des défauts a cristallisé la plupart des critiques
formulées à l’encontre des dérivés de crédit. Ces dernières pointaient des défauts

dont certains ont été évoqués au cours de ce chapitre :
– amalgames entre des paramètres extraits des prix de marché (probabilités
de défauts implicites, corrélations implicites) et l’estimation des paramètres
réels ;
– manque de souplesse dans le nombre de degrés de libertés pour la modéli-
sation de la corrélation ;
– absence de possibilité de variation dans le temps de la relation de dépen-
dance (corrélation constante) alors que sont observés des phénomènes
d’augmentation de la dépendance en période de crises...
Toutefois, certaines de ces faiblesses sont endémiques au risque de crédit car
liées au caractère inobservable des comportements que l’on cherche à modéliser.
Le défi majeur des praticiens à l’avenir ne sera donc pas tant de raffiner les
modèles existants que de veiller avec vigilance à leur bonne utilisation et de
prévenir et informer quant à leurs limites.

3 Théories d’aide à l’investissement
Nous abordons ce chapitre du point de vue d’un investisseur qui doit choisir
entre toutes les possibilités de placement qu’offre le marché. Cet investisseur
peut être un particulier, un gérant de fonds réglementés (fonds d’assurance vie
notamment) ou non (hedge fund) ; son objectif est de constituer un portefeuille,
c’est-à-dire d’acheter un certain nombre d’actifs qui peuvent être des actions, des
obligations, des parts de titrisations, des immeubles, etc. Cette activité s’appelle
la gestion d’actif, asset management en anglais. À titre d’exemple, AXA Investment
Manager, Natixis Asset Management, Amundi (issue de la fusion de Crédit Agricole
Asset Management et de Société Générale Asset Management) sont des filiales de
grands groupes français chargées de la gestion des OPCVM 1 , des fonds de
retraite complémentaire, des plans d’épargne entreprise...
Diverses théories d’aide à l’investissement ont été élaborées. Parmi elles, celle
de Markowitz, appelée théorie moderne du portefeuille, occupe une place prépon-
dérante. Développée dans les années 1950 – voir [Markowitz 1952], [Tobin 1958]
et [Markowitz 1959] – la théorie définit une notion d’optimalité d’investissement :
l’efficience. Nous expliquerons cette notion de base dans la première section et
le détail de la théorie dans la deuxième section. Dans les années 1960, [Sharpe
1964], [Lintner 1965] et [Mossin 1966] ont indépendamment utilisé la théorie de
Markowitz pour bâtir un modèle d’équilibre économique, dénommé modèle
d’évaluation des actifs financiers, qui est l’objet de notre troisième section. Ce mo-
dèle a ensuite été largement étudié, raffiné et étendu. Parmi les développements
1 Organisme de Placement Collectif en Valeurs Mobilières ; il s’agit de fonds d’investissements de
droit français ouverts aux particuliers et dont l’organisation doit répondre à des contraintes visant
à protéger les investisseurs.
plus récents, nous nous arrêterons dans la quatrième section sur la notion de
cointégration, introduite par [Engle et Granger 1987], qui est notamment à la base
de stratégies de trading actuelles comme le pair trading.
1 L’approche rendement-risque
Avant d’entrer dans le cœur du sujet, il est nécessaire de s’attarder quelque
peu sur le principe fondamental de toute stratégie d’investissement : l’équi-
libre rendement-risque. Plaçons-nous dans le cas théorique où les opportunités
d’investissement sont restreintes à quatre actifs A, B, C et D. Ces quatre actifs
possèdent chacun :
1. un niveau de risque attendu ;
2. un rendement attendu.
F IGURE 3.1. Représentation théorique de 4 actifs sur le plan risque (abscisses) / rendement (ordonnées).
Dans cette configuration, les actifs A et B sont efficients alors que C et D ne le sont pas.
On considère par ailleurs que les actifs sont entièrement décrits par ces deux
caractéristiques comme sur le graphique 3.1. Selon toute logique, ce graphique
impose deux constats à tout investisseur :
– A devrait être préféré à D car, pour un même niveau de risque, le rendement
de A est supérieur au rendement de D.
– B devrait être préféré à C car, pour un même rendement, le niveau de risque
de B est inférieur à celui de C.
Le principe sous-jacent de cette observation est que l’investisseur cherche
à maximiser son rendement à un niveau de risque donné ou, inversement, à
minimiser le niveau de risque sous la contrainte d’un objectif de rendement. Les
actifs C et D ne présentent pas d’intérêt dans cette configuration, on dit qu’ils
sont inefficients. Qu’en est-il maintenant du choix entre A et B ? Compte tenu des
46 Chapitre 3. Théories d’aide à l’investissement

informations dont nous disposons, il nous est impossible de nous prononcer. Il
faudrait, pour ce faire, connaître la préférence individuelle de notre investisseur,
son profil d’aversion au risque. Les deux actifs A et B sont dits efficients.
Revenons maintenant sur les notions de rendement attendu et de risque. En
pratique, quelles données peut-on choisir pour les représenter ? Le rendement
est mesuré comme le taux de croissance attendu du prix de l’actif, ce point est
relativement consensuel. Le risque peut, quant à lui, être appréhendé de multiples
façons. Il doit être représentatif de l’incertitude autour du rendement attendu. La
mesure de risque la plus utilisée dans les théories du portefeuille est la volatilité.
Elle représente la variabilité des rendements autour de leur moyenne ; le lecteur
statisticien notera que cette volatilité n’est autre que l’écart-type des rendements
ou encore la racine de la variance. D’autres mesures sont cependant souvent
étudiées, citons en particulier :
– La Value at Risk, que nous présenterons plus en détail au chapitre 8, qui
représente le montant de perte maximal à un horizon de confiance donné
(par exemple, dans 95 % des cas, la perte sera inférieure à x).
– La perte moyenne, qui est simplement la moyenne des rendements négatifs.
En toute rigueur, les rendements et risques prévisionnels devraient être
utilisés. Toutefois, ces données sont difficilement prévisibles et les praticiens
sont en général contraints d’utiliser l’hypothèse selon laquelle les mesures du
passé sont prédictives des mesures du futur. Le graphique 3.2 place ainsi quelques
actions françaises sur le plan constitué des rendements 2 et de leurs volatilités
calculés sur la période allant de novembre 1993 à novembre 2008.
On constate sur cette figure une diagonale efficiente constituée des actions
de Danone, Total et Sanofi. Celle-ci est représentative des choix optimaux selon
le critère rendement-risque tel que nous l’avons mesuré. Les actions Société
Générale, Saint Gobain et BNP ne présentent-elles pour autant aucun intérêt
pour un investisseur ? Trois arguments permettent de répondre à cette question
d’ordre purement illustratif.
Premier argument, l’estimation des rendements et des volatilités, telle que
conduite dans la figure 3.2, est très délicate. Les périodes d’estimation doivent
être très longues pour que les moyennes mesurées soient les plus fiables possibles.
Cependant, sur une longue période d’estimation, les résultats sont pollués
par le biais des survivants : les entreprises qui restent en vie longtemps sont
probablement les plus solides, ce qui biaise l’échantillon d’estimation. En outre,
2 Par simplicité, les rendements sont bruts et ne prennent pas en compte les dividendes et autres
opérations sur titre (augmentation de capital, etc.). Leur prise en compte serait susceptible de
modifier la répartition des actifs sur le plan.

F IGURE 3.2. Représentation de quelques actions françaises sur le plan risque (en abscisses) / rendement
(en ordonnées)
plus la période d’observation est longue, plus les paramètres économiques sont
susceptibles de changer. À ce titre, le graphique 3.3 montre que l’analyse est
très sensible au choix de la période d’observation : la Société Générale qui est
efficiente sur la période 1998-2003 ne l’est absolument plus sur la période 2003-
2008. Il faut donc garder constamment à l’esprit que définir la bonne fenêtre
d’historique est un problème difficile, voire insoluble.
F IGURE 3.3. Représentation de quelques actions françaises sur le plan risque (en abscisses) / rendement
(en ordonnées) pour différentes périodes. La hiérarchisation des couples rendement-risque est très sensible
à la période d’étude.
À ce sujet, l’estimation du rendement moyen est, de notre point de vue, le

talon d’Achille de tous les modèles s’appuyant sur une approche rendement-
risque. En effet, l’erreur moyenne autour de l’estimation du rendement est donnée

par la formule √σ où σ est la volatilité des rendements et N le nombre de périodes
N
d’observation. La leçon à tirer est alors la suivante : si nous voulons connaître
les rendements avec une précision de 1 %, sachant que la volatilité annuelle
d’une action est souvent proche de 25 % (c’est un ordre de grandeur), le nombre
d’années d’observation nécessaires se calcule ainsi :
25 %
1 % = √ ⇒ N = 625 ans ! (3.1)
N
Deuxième argument, la mesure de risque choisie, en l’occurrence la volatilité,
n’est pas nécessairement adaptée. L’utilisation de la Value at Risk pourrait, par
exemple, modifier la perception du risque associé aux actions et donc leur degré
d’efficience. Enfin, dernier argument, seules les caractéristiques individuelles des
actifs ont été utilisées jusqu’ici. Nous n’avons pas considéré la possibilité de les
combiner pour bénéficier, par exemple, des effets de diversification. Markowitz
a précisément bâti un modèle dans lequel on peut calculer explicitement les
portefeuilles qui utilisent au mieux les possibilités de diversification.
2 La théorie de Markowitz
La diversification est un concept fondamental de la gestion de portefeuille. La
théorie et l’expérience concourent à démontrer son intérêt dans la construction
d’un portefeuille d’investissement. Pour aborder la théorie, nous modéliserons
les rendements des actifs par une structure de probabilité et de corrélation
gaussiennes. Précisons que, dans ce cadre, la dépendance entre deux actifs est
décrite par un unique paramètre, la corrélation ρ (rho). Ce modèle nous permet de
calculer le profil rendement-risque d’un portefeuille de deux actifs : les courbes
de la figure 3.4 montrent ce profil lorsque l’on fait varier la proportion de la
richesse investie sur l’actif S1 dans différentes configurations de corrélation.
Encadré 3.1. Modélisation gaussienne des rendements.

De nombreux modèles mathématiques partent de l’hypothèse que les rendements des
actifs suivent une loi normale. S’il existe des justifications de cette hypothèse, que nous
verrons ultérieurement, elle est le plus souvent posée par commodité pour simplifier
les calculs. La modélisation permet de limiter à deux paramètres la caractérisation des
rendements : leur moyenne et leur volatilité.
Les manières de lier des variables aléatoires entre elles, pour tenir compte de leur
dépendance, sont également multiples. Là encore, pour simplifier, les modélisations
traditionnelles supposent que les dépendances entre les variables aléatoires suivent une
structure de corrélation gaussienne. Nous évoquerons le sujet plus en détail au chapitre 8.

Retenons pour l’instant que cette structure de dépendance est un modèle parmi d’autres
et qu’il présente l’avantage d’être caractérisé par une unique grandeur, comprise entre
−1 et 1 : la corrélation.
F IGURE 3.4. Variation des profils rendement-risque d’un portefeuille en fonction de la corrélation des deux
actifs qui le composent. Par exemple, chaque point de la courbe rouge représente le profil rendement-risque
d’un portefeuille d’actifs pouvant être construit en investissant dans S1 et S2, dans le cas où la corrélation
entre les rendements de S1 et S2 est −0,5. La réduction du risque apportée par la diversification est d’autant
plus marquée que la corrélation entre les actifs est faible. Dans le cas limite où Rho = −1, il est même
possible de construire un portefeuille sans risque en investissant dans les deux actifs.
Dans le cas ρ = 1 le risque et le rendement du portefeuille évolueront sur le

segment borné par les actifs S1 et S2. Lorsque la corrélation diminue, la courbe se
déforme vers la gauche ce qui témoigne d’une réduction du risque : c’est l’effet
de la diversification. Le cas limite d’une corrélation égale à −1 est intéressant : le
fait que les rendements futurs des actifs évoluent de façon contraire permet de
construire un portefeuille sans risque, avec une volatilité nulle.
La théorie de Markowitz exploite ce résultat en le systématisant et le générali-
sant à un univers d’investissement composé d’un nombre quelconque d’actifs
risqués. L’objectif de cette théorie est de résoudre le problème d’optimisation
suivant : déterminer l’ensemble des portefeuilles dont la volatilité est minimale
étant donné un rendement attendu. On parle alors de portefeuilles efficients. La
théorie permet de mettre ces portefeuilles en équation, mais nous n’entrerons
pas dans ces détails. Il suffit d’admettre que la méthode détermine une courbe

appelée frontière efficiente. Chaque point de cette courbe représente la volatilité
la plus faible pouvant être obtenue pour l’ensemble des portefeuilles dont le
rendement est égal à la valeur en ordonnées. La méthode permet également de
connaître la composition de ces portefeuilles efficients. Nous savons qu’il existe,
pour chaque valeur de rendement en ordonnées, un portefeuille se situant sur
cette courbe. Sa composition ne peut être représentée explicitement sur le plan
rendement-risque, mais sera néanmoins calculée par la méthode d’optimisation.
Le graphe 3.5a présente les résultats de l’application de la théorie à notre
univers d’actions françaises. L’apport du modèle est flagrant : la courbe des
portefeuilles efficients – la frontière efficiente – domine largement les actions
individuelles constitutives des portefeuilles. Nous avons réussi à exploiter au
maximum les effets de la diversification.
(a) Frontière efficiente d’un univers (b) Frontière efficiente avec ajout d’un
d’actifs risqués actif sans risque
F IGURE 3.5. Le graphique de gauche montre la frontière efficiente d’un univers d’actif risqués. Elle représente
les meilleurs couples rendement-risque pouvant être obtenus par une combinaison linéaire des différents
actifs risqués. Le point à l’extrême gauche de la frontière représente le portefeuille de variance minimum
pouvant être obtenu. Lorsqu’un actif sans risque est ajouté à l’univers, dans le graphique de droite, la frontière
efficiente devient une droite (représentée en pointillés dans le graphique). Le seul point de cette nouvelle
frontière efficiente commun avec l’ancienne représente le seul profil rendement-risque efficient pouvant être
obtenu à partir d’actifs risqués uniquement. Le portefeuille d’actifs risqués qui possède ce profil est nommé
« portefeuille tangentiel ».
L’introduction dans l’univers d’investissement d’un actif non risqué, c’est-à-

dire de volatilité nulle, apporte un élément nouveau. Là encore, nous demandons
au lecteur d’admettre que le problème d’optimisation évoqué plus haut produit
une nouvelle frontière efficiente. Comme présenté sur le graphique 3.5b, cette
nouvelle frontière efficiente est la droite qui part de l’actif sans risque et qui est
tangente à la frontière efficiente des actifs risqués. Le point d’intersection entre
la droite et la parabole représente un portefeuille que l’on appelle portefeuille
tangentiel. Ce résultat montre que les nouveaux portefeuilles efficients seront
constitués d’une combinaison de l’actif sans risque et du portefeuille tangentiel.

En pratique, l’actif non risqué peut être assimilé à un placement au taux sans
risque défini au chapitre précédent. Acheter l’actif sans risque est donc équivalent
à placer au taux sans risque tandis que sa vente correspond à un emprunt. Notons
que la demi-droite continuant en haut et à droite du portefeuille tangentiel
représente les portefeuilles construits en empruntant au taux sans risque dans le
but d’investir une somme plus importante dans le portefeuille tangentiel. C’est
ce que l’on appelle l’effet de levier.
Les résultats apportés par cette théorie sont séduisants. Cependant, ils de-
meurent très théoriques. Tout d’abord, nous avons vu que les paramètres utilisés,
en particulier les rendements, sont très instables voire inobservables. En outre,
Markowitz suppose que les actifs peuvent être modélisés par une structure de
probabilité et de corrélation gaussiennes. Nous aurons l’occasion de revenir
sur cette hypothèse qui est fondamentale en finance de marché mais largement
invalidée.
Autre hypothèse : il n’y a aucune restriction à l’échange d’actifs. Il n’y a pas
de coûts de transaction ni de taxes, il est possible de détenir n’importe quelle
proportion d’un actif même négative. De prime abord, cette hypothèse semble
être une approximation de la réalité sans grandes conséquences. Les impacts des
taxes et réglementations peuvent au contraire être très structurants. La limitation
de l’efficacité des marchés constitue, d’ailleurs, un des leviers des régulateurs
pour éviter ou contrôler leurs emballements.
Encadré 3.2. Les ventes à découvert.

Les ventes à découvert consistent à vendre un actif que l’on ne possède pas encore, de la
même manière qu’emprunter de l’argent consiste à s’engager à rembourser une somme
que l’on ne possède pas encore. Une vente à découvert de titres représente donc une
dette, que l’on traduit mathématiquement par la détention d’une quantité négative de
titres. Par exemple, vendre à découvert 3 actions suppose :
– d’emprunter 3 actions auprès d’une contrepartie A possédant ces titres ;
– de vendre les 3 actions à une autre contrepartie B et recevoir une somme d’argent
en échange de cette vente.
Étant donné qu’il sera nécessaire, à terme, de racheter 3 actions afin de les rendre à la
contrepartie A, nous perdons 3 e si le cours de l’action augmente de 1 e. Tout se passe
comme si nous détenions −3 actions.
Aussi, la fiabilisation de la théorie et son adaptation aux réalités des mar-

chés présentent un grand intérêt. À ce titre, l’intégration de contraintes sur les
investissements permet de mieux rendre compte de la réalité. Par exemple, les
ventes à découvert peuvent être difficiles à mettre en œuvre en pratique, voire
interdites sur certains actifs. Le graphique 3.6 montre comment l’interdiction

des ventes à découvert change les équilibres de la théorie. La résolution de ce
type de problèmes d’optimisation sous contrainte est en général plus délicate et
nécessite le recours à des algorithmes d’optimisation numérique. L’utilisation de
mesures alternatives du risque (Value at Risk en particulier), l’utilisation d’autres
structures de corrélation et la désensibilisation des portefeuilles efficients aux
erreurs d’estimation des rendements attendus comptent également parmi les
nouvelles voies explorées autour de la théorie de Markowitz.
F IGURE 3.6. Impact de la contrainte d’interdiction des ventes à découvert sur la frontière efficiente. L’inter-
diction des ventes à découvert réduit le spectre des portefeuilles pouvant être constitués ; les portefeuilles
pouvant être construits sans vente à découvert offrent un profil rendement-risque moins intéressant.
3 Le modèle d’évaluation des actifs financiers

Nous venons de voir que les portefeuilles efficients peuvent tous être structurés
à partir de deux investissements, l’un dans l’actif sans risque et l’autre dans
le portefeuille tangentiel. La seule caractéristique permettant de distinguer les
différents portefeuilles efficients est la proportion investie dans chacun de ces
deux actifs. Le capital asset pricing model (CAPM), en français « modèle d’évalua-
tion des actifs financiers » (MEDAF), exploite au maximum cette observation.
Schématiquement, notre raisonnement sera le suivant :
1. Tous les portefeuilles efficients peuvent être représentés comme une
combinaison linéaire de deux fonds (l’actif sans risque et le portefeuille
tangentiel).

2. Les investisseurs étant rationnels, tous les acteurs du marché doivent
posséder un portefeuille efficient.
3. Les prix des actifs s’équilibrent par l’offre et la demande.
4. L’équilibre entre l’offre et la demande peut être déduit de (1) et (2).
5. Grâce à cet équilibre, il doit être possible d’évaluer le prix et le rendement
des actifs.
Les hypothèses qui seront nécessaires pour mener à bien le raisonnement

précédent sont particulièrement contraignantes. Tout d’abord, le modèle se place
dans le cadre de la théorie de Markowitz, il utilise donc les hypothèses que nous
avons vues dans la section précédente : structure gaussienne des rendements,
absence de restriction à l’investissement. L’hypothèse supplémentaire, essentielle
au CAPM, est que tous les investisseurs ont les mêmes analyses des couples
rendement-risque. Cette hypothèse est à la fois la grande force du modèle, car
elle permet de pousser jusqu’au bout le raisonnement de Markowitz, et sa grande
faiblesse car elle est très restrictive. Les investisseurs peuvent en effet avoir
notamment :
– différentes anticipations de rendement et de volatilité ;
– différents modèles d’évaluation des risques ;
– différents horizons d’investissement ;
– différentes restrictions d’investissement, comme l’impossibilité ou non de
vendre à découvert.
Les résultats que nous allons exposer ne sont donc valables que dans un cadre
théorique très idéalisé. On peut donc d’ores et déjà prévoir que ces résultats ne
seront pas directement utilisables pour définir des stratégies d’investissement ;
ce n’est pas pour autant qu’ils n’apportent pas des clés de lecture structurantes
pour la compréhension des marchés financiers.
Revenons au modèle. Notons, pour chaque action a, wa sa contribution au
portefeuille tangentiel. Par exemple, si le portefeuille tangentiel est constitué
de 10 e d’actions LVMH et de 20 e d’actions Total, nous aurons wLVMH = 33 %
et wTotal = 67 %. Rappelons qu’en vertu des hypothèses précédentes, tous les
investissements sur les marchés sont proportionnels au portefeuille tangentiel.
C’est pourquoi, dorénavant, nous privilégierons l’expression « portefeuille de
marché » à « portefeuille tangentiel ». La demande globale pour l’action a, en
proportion de la demande totale, ne peut ainsi être que wa . Or, la capitalisation
boursière de a, c’est-à-dire la somme de la valeur de toutes les actions de a, doit
justement être guidée par cette demande globale (plus il y a de demande pour
une action, plus son prix monte). En d’autres termes, wa ne peut être que la
proportion de la capitalisation boursière de a dans la capitalisation totale (la

somme de toutes les capitalisations boursières). Dans notre exemple précédent,
cela signifie que si le portefeuille de marché est bien constitué de 10 e d’actions
LVMH et de 20 e d’actions Total, cela implique d’une part que Total et LVMH
sont les seules entreprises cotées et d’autre part que la capitalisation boursière de
Total est deux fois celle de LVMH.
La première leçon du CAPM est donc que le portefeuille de marché est
construit en détenant toutes les actions du marché proportionnellement à leur
capitalisation boursière respective. Nous venons de réussir à court-circuiter tous
les calculs de Markowitz nécessaires à la construction du portefeuille tangentiel.
La définition du portefeuille de marché comme combinaison linéaire de toutes les
actions pondérées par leur capitalisation boursière est plus simple, plus intuitive
et moins sujette à l’instabilité des paramètres. En revanche, cette équivalence reste
très théorique, le CAPM ne permettant pas de construire le portefeuille tangentiel
en présence de contraintes d’investissement non universellement partagées par
les investisseurs.
Avant de passer à un second résultat, il nous faut définir la sensibilité des
actions au portefeuille de marché. Nous notons β a cette sensibilité, sa définition
est la suivante 3 : pour une variation de 1 % du marché, l’action a varie en
moyenne de β a %. Par cette définition du β a et en utilisant l’hypothèse de la
structure gaussienne des rendements, le rendement de l’action que nous notons
A est une variable aléatoire qui peut se décomposer de la manière suivante :
A = β a Πm + ˜ a (3.2)
où Πm est le rendement du portefeuille de marché et ˜ a est une variable aléatoire

indépendante du portefeuille de marché. Nous retrouvons bien la définition du
β a : si β a = 50 %, alors le rendement de l’action sera 50 % du rendement du
marché plus un chiffre aléatoire indépendant ; si β = 150 %, le rendement de
l’action sera 150 % du rendement du marché auquel il faut ajouter un chiffre
aléatoire indépendant.
Quelle est alors l’espérance de rendement de l’action ? Nous n’expliciterons
pas les calculs qui mènent au résultat suivant : si R a est le rendement moyen
attendu de l’action (R a est l’espérance de A), R M celui du marché et R0 le
rendement sans risque, alors :
R a = R0 + β a ( R M − R0 ) (3.3)
3 Formellement, β a est le rapport entre la covariance de l’action et du portefeuille de marché et la
Cov( A, Πm )
variance du portefeuille de marché : β a = Cov(Πm , Πm )
.

Cette équation permet de tracer ce que l’on appelle la droite d’évaluation des
actifs financiers (Security Market Line, cf. graphique 3.7). Ce graphique exhibe
les quantités R a − R0 et R M − R0 que l’on appelle les primes de risque : c’est
l’excédent de rendement attendu par rapport au taux sans risque en contrepartie
du risque pris. Le résultat principal du CAPM que nous venons d’exposer dans
l’équation (3.3) affirme que la prime de risque de l’action est égale à la prime
de risque du marché pondérée par la sensibilité de l’action au risque de marché.
Ainsi, le rendement escompté d’un actif ne dépend que de son β, c’est-à-dire
de sa dépendance au risque systémique. Le risque propre à l’actif, que l’on
appelle traditionnellement risque idiosyncratique, n’apporte aucun rendement
supplémentaire au-delà du taux sans risque.
F IGURE 3.7. Droite d’évaluation des actifs financiers
Que constate-t-on dans les faits ? Nous avons vu qu’il y a peu de chances,
au regard des hypothèses nécessaires, que les résultats présentés soient effec-
tivement observés dans la réalité. Le modèle prédit que le risque spécifique
d’une action ne doit pas apporter de rendement en moyenne. Pour le vérifier, il
suffit de mesurer ce rendement idiosyncratique que nous noterons α. Avec les
notations précédentes, l’excès de rendement de A par rapport à la somme du
taux sans risque et de la prime de risque systémique se calcule par la formule
A − ( R0 + β a (Πm − R0 )), la moyenne de cette variable est donc α. Dans le cadre
théorique du CAPM, le α d’un actif doit être nul.
À titre indicatif, précisons que la quantité α est très importante dans la
pratique de la gestion d’actif. Elle mesure, en théorie, le surplus de rentabilité
apporté par un actif (une action ou un fonds par exemple) par rapport au
rendement apporté par le marché. La capacité pour un gérant de générer du α,

c’est-à-dire de gérer un fonds avec un α > 0, est souvent considérée comme la
preuve que le gérant est capable de sur-performer le marché, c’est-à-dire que
l’intervention du gérant permet un surplus de rentabilité par rapport au marché.
Cela contredit le CAPM qui impose que tous les acteurs n’investissent que dans
le portefeuille de marché et l’actif sans risque.
Les résultats de ces calculs sur des données françaises sont présentés dans le
graphique 3.8 où nous avons simplement utilisé l’indice CAC 40 comme référence
de marché et l’EONIA comme taux sans risque. Les résultats sont désastreux par
rapport aux prédictions du modèle : le α est loin d’être nul – il n’est négligeable
ni devant les taux d’intérêt, ni devant les rendements et les primes de risque – le
β n’est pas proportionnel à la prime de risque.
F IGURE 3.8. Droite d’évaluation des actifs financiers (rendement en fonction du β) : exemple de mise en
œuvre du CAPM sur des données françaises 1999-2010. Les calculs numériques contredisent les prédictions
du CAPM : le α n’est pas nul, la prime de risque n’est pas proportionnelle au β. La droite théorique du
graphique 3.7 n’est ainsi pas reproduite dans les faits.
Il faut toutefois prendre quelques précautions avant de conclure que nous

avons réussi à trouver un α de 5 % grâce à l’action d’Air Liquide (cf. graphique 3.8).
Tout d’abord certaines de nos hypothèses de travail devraient être validées préci-
sément : l’utilisation du CAC 40 comme portefeuille de marché, l’utilisation de
l’EONIA comme taux sans risque de référence, l’absence de prise en compte des
opérations sur titre. Ensuite, il nous faudrait vérifier que l’instabilité temporelle
des paramètres (cf. à ce sujet le graphique 3.3) ne perturbe pas trop nos résultats.
Enfin, nous avons utilisé la même période pour estimer le β et le rendement, ce

qui constitue une hérésie pour un statisticien. En effet, le CAPM se veut prédictif :
il aurait fallu utiliser les β du passé (par exemple sur la période 1999-2005) pour
prédire les rendements du futur (sur la période 2006-2010).
La vérification du CAPM est donc un exercice délicat qui a fait l’objet de
nombreuses recherches depuis les années 1960. Appuyons-nous sur une célèbre
étude de Fama & French de 1992 pour étayer nos propos. Cette étude approfondit
les liens entre β, rendements, capitalisation boursière et autres agrégats financiers
sur la période 1963-1990. La conclusion de l’article est sans appel : le β n’explique
aucunement les rendements observés sur la période (même si une relation entre β
et rendement peut être identifiée avant 1969). Le β est essentiellement corrélé à la
capitalisation boursière, cette dernière est, quant à elle, corrélée aux rendements.
En revanche, le β n’est pas directement lié aux rendements. Nous voyons en effet
dans la figure 3.9, réalisée à partir des données publiées par Fama & French, que :
– Graphique (a) : Si l’on segmente les entreprises par classe de capitalisation
boursière (le portefeuille 1A correspondant aux plus petites capitalisations
et 10B aux plus grandes), on constate que les entreprises les plus impor-
tantes possèdent un β plus faible et un rendement plus faible, laissant ainsi
apparaître un lien quasi-linéaire entre β et rendement.
– Graphique (b) : Si l’on segmente les entreprises par classe de β (le porte-
feuille 1A correspondant aux plus petits β et le 10B aux plus élevés), le lien
entre β et rendement est complètement annulé.
(a) : segmentation des entreprises par (b) : segmentation des entreprises par β
taille
F IGURE 3.9. Représentation du rendement (en ordonnées) en fonction du β (en abscisses) sur 12 porte-
feuilles classés par taille ou par β (données Fama & French 1992).
Bien qu’inutilisables en pratique, les principes du CAPM restent cependant

très attrayants et l’on pourra retenir malgré tout la leçon suivante : la prime
de risque d’un actif se décompose en (i) une prime de risque liée au marché et
(ii) une prime de risque spécifique. Cette analyse est généralement développée

dans ce que l’on appelle « le modèle à 1 facteur » que nous avons décrit au
chapitre 2 lors de l’étude de la corrélation entre les défauts. Ce modèle s’écrit
avec l’équation (3.2) :
A = β a Πm + ˜ a
où :
– On ne fait aucune hypothèse sur le rendement de ˜ a , par opposition au
résultat du CAPM qui prévoit que les rendements du risque spécifique sont
nuls en moyenne.
– On suppose, comme pour le CAPM, que ˜ a est indépendant de Πm .
– On suppose en outre (cette hypothèse n’est pas nécessaire au CAPM) que
les risques spécifiques ˜ a sont indépendants entre eux pour deux actions
différentes.
Ce modèle peut ensuite être étendu pour prendre en compte plusieurs facteurs
de risque. Ainsi, le rendement d’une action peut, par exemple, être décomposé
en un rendement général de marché, un rendement sectoriel et un rendement
géographique, sans oublier le rendement sécifique ˜ a : nous sommes ici dans
un modèle multi-facteurs. Cela constitue les bases de l’asset pricing theory (APT)
introduite dans l’article [Ross 1976]. Le lecteur souhaitant approfondir le sujet
peut par exemple consulter l’ouvrage [Sharpe et al. 1998].
4 Corrélation contre cointégration*

Les modèles que nous venons de développer reposent très fortement sur la notion
de corrélation. Or, comme le montre le graphique 3.10a, il s’agit d’une mesure
très instable dont la variabilité se répercute naturellement sur les β. D’un autre
point de vue, le graphique 3.10b est pourtant sans appel : il existe bien un lien
entre les indices CAC et DAX, il ne fait aucun doute que les courbes se suivent.
L’un des grands enjeux de la gestion de portefeuille est de rendre compte, par
une méthode robuste, de ce lien entre actifs ; c’est l’exercice auquel nous allons
nous livrer dans la présente section.
Qu’entendons-nous par méthode robuste ? Notre objectif est d’exhiber une
mesure qui soit stable dans le temps. Cette stabilité dans le temps est essentielle
car c’est elle qui assure que les propriétés observées dans le passé seront valides
dans le futur. Le graphique 3.10a est un excellent contre-exemple de la stabilité
temporelle : il montre des corrélations qui passent de 40 % à 95 %. Dans ce cadre,
il est évident que les corrélations du passé ne prédisent pas les corrélations du
futur. Mathématiquement, la stabilité dans le temps des processus aléatoires

(a) Corrélations entre les indices estimées
(b) Cours en base 100 en janvier 1988
g
sur 1 an glissant
F IGURE 3.10. Historiques du DAX (indice allemand) et du CAC (indice français) de janvier 1988 à juin 2010.
est exprimée par la notion de stationnarité. Une suite de variables aléatoires Xt ,

indexée par le temps par exemple, est dite stationnaire si :
– Tous les Xt suivent une même loi : la loi ne dépend pas du temps t.
– Les liens entre Xt et Xt−s ne dépendent que de s : les liens entre deux
variables ne dépendent que du temps qui les sépare s mais ne dépendent
pas de l’instant t auquel on constate le lien.
En d’autres termes, les lois de probabilité de la série – c’est ainsi que l’on
nomme la suite de variables aléatoires – sont homogènes dans le temps, elles ne
se déforment pas. Si Xt représente le résultat de tirages indépendants de pile ou
face, la série est bien stationnaire :
– Xt vaut toujours pile avec 50 % de chance et face avec 50 % de chance
(indépendamment du tirage t).
– Xt et Xt−s sont égales si s = 0 et indépendantes sinon : la structure de
corrélation entre les variables n’évolue pas avec le temps t.
Un contre-exemple naturel de la stationnarité est la température journalière :
il fait plus souvent froid en hiver, la série des températures présente une saison-
nalité ; nous sommes en période de réchauffement climatique, la série présente
une tendance long terme. Le graphique 3.10a a montré que les corrélations ne
sont pas stationnaires non plus. À l’opposé, le graphique 3.11 montre l’évolution
d’une série parfaitement stationnaire. On remarque en particulier que les valeurs
d’une série stationnaire ne dérivent pas de la moyenne (3 dans le graphique 3.11)
et que la variabilité autour de cette moyenne est très stable.
Si l’on pouvait trouver un portefeuille d’actifs financiers stationnaire, cela
nous permettrait d’avoir un portefeuille dont le prix est confiné autour d’une
certaine moyenne, il ne pourrait s’en écarter que suivant une loi connue et

F IGURE 3.11. Exemple de série stationnaire. On observe notamment que la variabilité et la moyenne de la
série sont constantes dans le temps.
toujours identique. Cela serait un outil de trading idéal. C’est exactement cette
propriété qui définit la cointégration. Un ensemble de séries At , Bt , Ct , ..., est dit
cointégré s’il est possible de créer une combinaison linéaire stationnaire des séries.
En d’autres termes, les séries At , Bt et Ct sont cointégrées s’il existe a, b et c tels
que la série Xt = aAt + bBt + cCt soit stationnaire.
Nous avons peu de chance de trouver un jeu d’actifs stationnaires. En effet,

les actifs possèdent une structure plus multiplicative qu’additive. Nous sommes
plus intéressés par le rendement d’une action (gain de 10 % par exemple) que par
son gain en valeur absolue (gain de 10 e par exemple). Cela est assez raisonnable
dans la mesure où la valeur de l’action est assez arbitraire : il est équivalent
d’émettre 10 actions de 50 e et 5 actions de 100 e. De la même manière, savoir
que l’action LVMH a gagné 5,35 e entre le 20 et le 21 octobre 2010 et que l’action
Total a gagné 0,095 e dans la même période ne permet pas de comparer les
performances des actions : la valeur absolue du gain doit être pondérée par la
valeur de l’action.
Pour transformer une structure multiplicative en une structure additive, il

suffit de passer au logarithme : on ne considère plus le prix St d’un actif mais son
logarithme lt = ln(St ). Le rendement de l’actif St peut alors être approximé par
l’incrément 4 des logarithmes lt :
S t − S t −1
lt − lt−1 = ln(St ) − ln(St−1 ) ≈ (3.4)
S t −1
4 Nous utiliserons toujours la convention suivante : le rendement est le taux de progression

( xt − xt−1 )/xt−1 et l’incrément est l’accroissement linéaire xt−1 − xt .

Grâce au logarithme, nous sommes bien passés à une structure additive. Il est
maintenant plus raisonnable d’espérer que, étant donné une ensemble d’actifs St1 ,
St2 , ..., Stn , on puisse construire une série α1 ln(St1 ) + α2 ln(St2 ) + ... + αn ln(Stn ) qui
soit stationnaire. Si l’on renomme lti = ln(Sti ), nous voulons que les séries lt1 , ...,
ltn soient cointégrées.
Nous avons désormais deux mesures distinctes de la dépendance entre actifs,
la corrélation et la cointégration. La corrélation se mesure à partir des rendements
ou, de manière équivalente, entre les incréments des logarithmes lt − lt−1 . La
cointégration est évaluée directement à partir des logarithmes de la valeur des
actifs.
La corrélation entre les rendements se manifeste lorsque les mouvements des
actifs sont synchrones. Pour que deux actions a et b soient corrélées, il faut que les
jours où a baisse et ceux où b baisse se recoupent. La cointégration rend compte
quant à elle d’un effet de retour à la moyenne. Pour que deux actions a et b soient
cointégrées, il faut que les variations de a soient corrigées par des variations de b,
mais pas nécessairement le même jour. En d’autres termes, lorsque deux actions
a et b sont cointégrées, les mouvements d’une action permettent de prédire
statistiquement les mouvements de l’autre : cela peut être les mouvements de
a qui expliquent ceux de b ou les mouvements de b qui expliquent ceux de a,
voire les deux phénomènes imbriqués. Par exemple, si l’action a baisse le jour J et
ne remonte plus, il sera nécessaire que les mouvements futurs de b ramènent la
combinaison linéaire de a et b à sa moyenne initiale. Cette propriété constitue ce
que l’on appelle la causalité de Granger ; cette causalité est nécessaire pour que
deux séries soient cointégrées.
Corrélation et cointégration sont donc des notions proches, qui mesurent
toutes deux une forme de dépendance entre les actifs, mais clairement distinctes.
Il est d’ailleurs possible d’observer des séries cointégrées dont les mouvements ne
sont pas corrélés. Le graphique 3.12a montre des séries qui évoluent parallèlement
mais avec un décalage temporel : la série B bouge avec cinq jours de retard
sur la série A. Les mouvements journaliers sont donc indépendants mais la
tendance globale est liée. Le graphique 3.12b montre quant à lui des séries dont
les mouvements sont corrélés mais qui ne sont pas cointégrées. Plus précisément,
les mouvements de A et B ont la même composante aléatoire mais les deux
séries s’écartent progressivement l’une de l’autre par un phénomène de dérive
déterministe.
La cointégration est réputée plus robuste que la corrélation, au sens où les
phénomènes de cointégration observés sont plus stables dans le temps. L’un
des problèmes de la corrélation est que la mesure est facilement perturbée par

(a) Séries cointégrées dont les (b) Séries non cointégrées dont les
mouvements sont décorrélés mouvements sont corrélés
F IGURE 3.12. Opposition entre corrélation et cointégration.
des imperfections de données (par exemple, un décalage temporel entre les

instants de mesure des données) et par des mouvements extrêmes ; ce point est
approfondi dans [Alexander 2001]. Cet ouvrage expose également les méthodes
pour identifier en pratique les phénomènes de cointégration.
Il est important de noter que la cointégration contredit l’hypothèse d’efficience

des marchés. En effet, la causalité de Granger implique que l’on puisse anticiper,
au moins en moyenne, les mouvements d’une action cointégrée à une autre
action. Cette capacité de prédiction est à l’origine de stratégies de trading, telles
le pair trading dont un exemple est donné dans le tableau ci-dessous. Grâce à la
cointégration des deux actions At et Bt , nous avons ainsi pu réaliser un profit
certain.
Exemple de stratégie de pair trading
Actifs At et Bt sont deux actions

Hypothèse 2ln( At ) − ln( Bt ) est stationnaire de moyenne μ
Déclenchement de l’investissement Au temps t0 , dès que 2ln( At0 ) − ln( Bt0 ) < μ − Δ
Description de l’investissement 2 e d’actions A et −1 e d’actions B
Valeur de l’investissement 2−1 = 1e
Au temps T > t0 , dès que 2ln( A T ) − ln( BT ) revient
Déclenchement du débouclage
à sa moyenne μ. Le retour à la moyenne est garanti
(revente du portefeuille)
par la stationnarité.
Valeur de l’investissement au
2 AAtT − BT
Bt0 ≈ (1 + Δ ) e
débouclage 0
Rendement de l’investissement Δ

L’hypothèse d’efficience des marchés – à ne pas confondre avec l’efficience des
portefeuilles – suppose quant à elle que les investisseurs sont bien informés et
donc que toute l’information disponible transparaît dans le prix. Les variations de
prix ne peuvent venir que de nouvelles informations qui sont par nature aléatoires.
Dans notre exemple, l’efficience assure le résultat suivant : si la propriété de
cointégration était vraie, il ne serait pas possible que 2ln( At ) − ln( Bt ) s’écarte
de sa moyenne car les moindres écarts seraient instantanément corrigés par les
investisseurs. En d’autres termes, tout le monde mettrait en œuvre notre stratégie
de pair trading, ce qui la rendrait tout à fait inutilisable.
La discussion que nous venons d’avoir est celle de deux économistes qui
flânent dans la rue lorsque l’un deux aperçoit un billet de 100 e au sol. Lorsqu’il
se baisse pour s’en saisir, son collègue lui dit « Imbécile, si le billet était réel,
il aurait déjà été ramassé. » ([Joshi 2008]). Globalement, c’est sur cette position
sceptique que s’appuie la majeure partie des mathématiques financières. Le cœur
des théories des mathématiques financières, que nous allons développer par la
suite, repose en effet sur la théorie du non-arbitrage que nous aborderons au
chapitre suivant.

4 Théorie du non-arbitrage
L’adage traditionnel there is no free lunch, souvent utilisé par les économistes
pour rappeler que toute faveur a sa contrepartie, s’est intégré au vocabulaire des
marchés financiers pour traduire l’idée suivante : on ne gagne pas d’argent sur
les marchés sans prendre de risque. Les quant parlent d’arbitrage pour qualifier
un profit certain, sans risque ; ils en ont même fait un verbe : arbitrer. « Arbitrer »
signifie tirer un profit certain d’un produit qu’une contrepartie a acheté trop cher
ou vendu trop bon marché.
Cette observation nous permet de classer les modèles mathématiques dans
deux catégories :
– Ceux qui visent à identifier les possibilités d’arbitrage. Les modèles de
recherche de cointégration que nous avons vus au chapitre précédent sont
de cette catégorie. En général, ces modèles ne garantissent pas réellement
un profit certain et sans risque – il n’est par exemple jamais certain qu’un
phénomène de cointégration observé par le passé se prolonge dans le futur.
– Ceux qui visent à modéliser les risques et les évolutions des actifs dans
un environnement sans possibilité d’arbitrage. Il est en effet essentiel que
les prix calculés ne soient pas arbitrables : aucune contrepartie ne doit
pouvoir utiliser une éventuelle sur-évaluation ou sous-évaluation du prix
calculé pour en tirer un profit certain. C’est cette catégorie de modèles qui
nous intéressera désormais et dont nous définirons le cadre dans le présent
chapitre.
Nous ouvrirons le chapitre sur les arbres binomiaux qui constituent un
modèle simple et riche pour aborder les problématiques du non-arbitrage. Ils
nous confronteront à différents concepts que nous formulerons dans la seconde
section ; nous pourrons alors énoncer le célèbre théorème du non-arbitrage
formalisé par Harrison, Kreps et Pliska entre 1979 et 1981. Ce théorème ne permet
malheureusement pas de définir systématiquement un prix unique non arbitrable.
Parfois, tout un intervalle de prix est possible : c’est le problème de la complétude
que nous étudierons dans la troisième section. Le théorème originel a été formulé
dans un cadre simplifié, son adaptation au cadre général a fait l’objet de travaux
techniques par [Delbaen et Schachermayer 1994] et [Delbaen et Schachermayer
1998]. Nous tenterons d’expliquer dans la dernière section certains des problèmes
posés par cette généralisation. Le mathématicien confirmé souhaitant approfondir
le sujet trouvera matière dans [Delbaen et Schachermayer 2005].
Encadré 4.1. Les quant.

Le terme quant désigne les chargés de modélisation mathématiques dans les banques et
dans l’industrie financière plus généralement, sauf dans l’assurance où les mathémati-
ciens sont plutôt les actuaires. L’expression dérive de l’adjectif « quantitatif », très utilisé
en anglais puisque les mathématiques financières se disent Quantitative Finance et les
chargés de modélisation sont les Quantitative Analysts.
1 Les arbres binomiaux

Les arbres binomiaux sont des modèles d’évolution des actifs particulièrement
simples, utiles et riches d’enseignements. Dans ces modèles, à chaque instant t,
les actifs n’ont que deux possibilités d’évolution. Par exemple, l’actif qui vaut
100 à T = 0 dans la figure 4.1 ne peut valoir que 95 ou 110 au temps T = 1. Si
l’actif valait 110 à T = 1, à T = 2 il ne peut évoluer que vers 115 ou 100, et ainsi
de suite.
F IGURE 4.1. Exemple d’arbre binomial. À chaque nœud, l’actif a deux possibilités d’évolution.
Le nombre de nœuds de l’arbre croît exponentiellement dans cette configura-

tion : au début, l’actif ne peut avoir qu’une seule valeur, celle que l’on constate
66 Chapitre 4. Théorie du non-arbitrage

sur les marchés. Au premier pas de temps, 2 valeurs sont possibles ; il y en a 4 au
second pas, puis 8, 16, 32 ... et 2n à T = n. Gardant à l’esprit que 2365 est supérieur
au nombre d’atomes de l’Univers, nous risquons d’arriver vite à un problème
technique. Ce problème est contourné par l’utilisation d’arbres dits recombinants :
dans ces arbres, il est équivalent de monter puis descendre ou de descendre puis
monter. Les nœuds se recombinent. Dans cette nouvelle configuration, illustrée
par la figure 4.2A, le nombre de nœuds terminaux évolue linéairement : il existe
deux valeurs possibles pour l’actif au premier pas de temps, 3 au second, 4 au
troisième, ..., 101 après cent itérations. Cela est beaucoup plus raisonnable.
Exemple d’arbre recombinant (A) Exemple d’arbre non recombinant (B)
F IGURE 4.2. Arbres recombinants ou non après 4 pas de temps. Le premier possède 5 nœuds terminaux et
le second 16 nœuds terminaux.
Nous avons ainsi décrit nos arbres binomiaux : l’actif part au temps t = 0
d’une valeur connue et évolue à chaque instant dans un arbre tel que représenté
par 4.2A. Les différents arbres seront différenciés par :
– la valeur de l’actif dans chaque nœud ;
– la probabilité pour l’actif d’accéder au nœud supérieur ou au nœud infé-
rieur.
Intéressons-nous tout d’abord à un arbre dégénéré, celui de la figure 4.3. Dans
cet arbre, l’actif ne peut qu’augmenter de valeur. En investissant dans un tel
actif, nous pouvons réaliser un profit certain, un arbitrage. Une telle situation est
peu probable sur les marchés : si tel était le cas, tout le monde investirait sur cet
actif, ce qui augmenterait immédiatement son prix jusqu’à ce que son évolution
ne garantisse plus de gain certain. Nous pouvons aussi voir le problème ainsi :
aucune contrepartie rationnelle ne vendra 100 un actif dont on sait qu’il évoluera
soit vers 105 soit vers 110 ; elle demandera nécessairement un prix compris entre
105 et 110.

F IGURE 4.3. Exemple d’arbre dégénéré où la valeur de l’actif ne peut que croître.
Un petit raffinement doit être apporté : nous n’avons pas parlé des phéno-
mènes d’actualisation étudiés au premier chapitre. Comme nous l’avons vu au
chapitre précédent, les gains réels se mesurent par l’excès de rendement par
rapport au taux sans risque. Ainsi, si les taux d’intérêt en un pas de temps sont
de 7 %, le graphe 4.3 ne présente pas d’opportunité d’arbitrage. En effet, l’actif
peut bien apporter soit un gain (s’il monte à 110) soit une perte (s’il monte à 105)
relativement au taux sans risque. Pour rendre le raisonnement du paragraphe
précédent parfaitement valide, il suffit d’étudier à chaque nœud de l’arbre le
prix actualisé des actifs plutôt que leurs prix futurs projetés. Ce prix actualisé
rend effectivement compte de la valeur aujourd’hui (à T = 0) d’un bien qui est
financé au taux d’actualisation. Plutôt que de parler systématiquement de prix
actualisé, ce qui nuit à la lisibilité et ne change pas structurellement les principes,
nous négligerons par la suite les taux d’intérêt et phénomènes d’actualisation. En
d’autres termes, nous supposons que les taux d’intérêt sont nuls.
Encadré 4.2. L’arbitrage.

L’arbitrage est le fait de profiter d’une imperfection des marchés financiers, par exemple
d’une contrepartie qui vend des produits financiers trop bon marché, pour gagner de
l’argent sans risquer d’en perdre. Autrement dit, une stratégie d’arbitrage génère un
profit avec une probabilité non nulle mais ne provoque jamais de pertes. La théorie
du non-arbitrage vise à explorer les conséquences mathématiques de l’hypothèse selon
laquelle il n’existe pas d’opportunités d’arbitrage sur les marchés. Cette hypothèse se
justifie par l’idée que toute opportunité est immédiatement saisie par les trader, ce qui
rééquilibre le marché. Elle est posée par les quant non par certitude qu’il n’existe pas
d’opportunité d’arbitrage sur les marchés, mais afin de garantir que leurs modèles ne
conduisent pas à des prix arbitrables, dont une contrepartie pourrait tirer profit à nos
dépens. Il peut cependant arriver qu’un modèle soit arbitrable en théorie mais pas
dans la pratique compte tenu des coûts et marges de transaction, de l’impossibilité
d’intervenir continûment sur les marchés, de la difficulté à mettre en œuvre certaines
ventes à découvert, etc.
La contrainte de non-arbitrage rend donc la situation de la figure 4.3 impos-

sible, le prix de l’actif aujourd’hui est nécessairement entre ses valeurs possibles
futures minimales et maximales. Gardons en mémoire cette première propriété

et étudions une seconde conséquence qui porte sur le prix des produits dérivés.
Imaginons que l’on souhaite commercialiser le produit financier suivant : notons
S1 le prix d’une action à T = 1 et offrons à nos clients, à T = 1, la valeur S1 si
S1 > 98 et 98 sinon. Il s’agit d’un produit dérivé simple et lisible : nous faisons
profiter nos clients de la hausse possible de l’actif tout en garantissant que le
paiement final sera supérieur à 98.
⎧
⎨ S si S > 98
1 1
Paiement à T = 1 : (4.1)
⎩ 98 sinon
Notre question est alors la suivante : à quel prix doit-on vendre notre pro-
duit financier ? Dans les modèles d’arbres binomiaux, sous hypothèse de non-
arbitrage, il n’y a qu’une seule bonne réponse à cette question. En effet, supposons
que notre action évolue conformément à l’arbre binomial de la figure 4.4 et consti-
tuons le portefeuille suivant :
– achat de 22 e de cash, c’est-à-dire placement de 22 e sur notre compte
courant ;
– achat de 4/5 d’action, soit 80 e d’action (puisque l’action s’échange à 100 e
à T = 0).
F IGURE 4.4. Exemple de modèle d’évolution d’une action dans un arbre binomial recombinant.
Le prix de ce portefeuille est, sans aucune ambiguïté, 102 e. C’est le prix qu’il
a coûté à l’achat (22 + 80). Au temps T = 1, il reproduit exactement le produit
financier :
– Cas 1 : S1 = 110. Le portefeuille vaut à T = 1, 22 + 80 % × 110 = 110 e
– Cas 2 : S1 = 95. Le portefeuille vaut à T = 1, 22 + 80 % × 95 = 98 e

Nous venons de répliquer le produit financier que nous souhaitions commer-
cialiser et qui est décrit par l’équation (4.1) ; autrement dit, nous avons reproduit
à l’identique le comportement du produit financier à partir d’un portefeuille
constitué de cash et de l’action sous-jacente. Cette possibilité de réplication du
produit financier n’est pas un hasard, nous y reviendrons. Elle assure que le seul
prix possible du produit financier est 102 e. Le tableau suivant montre en effet
comment réaliser un arbitrage, un profit certain, si quelqu’un tentait de vendre le
produit à un autre prix.
Cas d’un prix supérieur à 102 Cas d’un prix inférieur à 102
Prix proposé pour

100 e 104 e
le dérivé
Achat du produit dérivé, soit 100 e Vente du dérivé, soit −104 e
Stratégie
Vente de 4/5 d’action, soit −80 e Achat de 4/5 d’action, soit 80 e
d’abitrage
Emprunt de 20 e, soit −20 e Placement de 24 e, soit 24 e
Coût d’entrée
0e 0e
dans la stratégie
Valeur de la
stratégie à t = 1 si 110 − 80 % × 110 − 20 = 2 e −110 + 80 % × 110 + 24 = 2 e
S = 110
Valeur de la
stratégie à t = 1 si 98 − 80 % × 95 − 20 = 2 e −98 + 80 % × 95 + 24 = 2 e
S = 95
Gain de la
2 e dans tous les cas 2 e dans tous les cas
stratégie
Cette capacité de réplication des produits financiers à partir de cash et des

actions sous-jacentes peut s’étendre à l’ensemble des arbres binomiaux. La
figure 4.5 montre la réplication d’un produit similaire à celui que nous venons de
voir mais dont la date d’application de la formule est T = 2 et non T = 1.
Fondamentalement, ce résultat n’est autre qu’une conséquence de l’algèbre
élémentaire : répliquer un produit dérivé revient, pour chaque nœud, à résoudre
un système de deux équations à deux inconnues. Dans un arbre binomial,
l’actif ne peut à chaque nœud que monter ou descendre ; il n’existe qu’un
seul degré de liberté d’évolution. Lorsque nous répliquons un produit, nous
choisissons à chaque nœud la proportion de cash et la proportion du sous-jacent
que nous pouvons détenir, nous avons également un degré de liberté. Il y a donc
autant de possibilités de réplication que de possibilités d’évolution de l’actif.

Naturellement, dans un modèle plus complexe d’évolution de l’actif, ce résultat
n’est plus nécessairement valide.
F IGURE 4.5. Réplication d’un produit dérivé dans le cadre d’un arbre binomial.
Grâce à la possibilité, offerte par les arbres binomiaux, de répliquer les

produits financiers, nous avons pu calculer un prix du produit qui est le seul prix
non arbitrable. Vous aurez peut-être été surpris de constater que nous n’avons
fait jusqu’ici aucune hypothèse sur les probabilités d’évolution de l’actif. Quelles
que soient les probabilités de hausse et de baisse de l’actif, le raisonnement que
nous avons tenu est toujours valide et le prix du produit dérivé ne peut être
que 102 ! Pourtant, il semble évident qu’un investisseur qui pense que l’actif
n’a quasiment aucune chance de baisser aura des réticences à acheter 102 un tel
produit (ce dernier n’ayant, d’après les anticipations de l’investisseur, quasiment
aucune chance de différer de l’action qui s’achète à 100 < 102). Rappelons que
notre objectif n’est pas de prédire les évolutions de marché mais de déduire de
la structure du marché les propriétés des actifs. S’il est effectivement vrai que
l’action n’a quasiment aucune chance de baisser, c’est que le marché se trompe en
donnant la valeur 100 à l’action. Étant donné cette valeur aujourd’hui de 100 et
les valeurs possibles demain de 95 et 110, le produit dérivé étudié ne peut valoir
que 102 e.

Tout se passe en fait comme si la probabilité de hausse de l’actif était 1/3 et
si les prix actuels étaient la moyenne des prix futurs possibles. En effet, dans
ce cas, la valeur moyenne du prix futur de l’actif est 110/3 + 95 × 2/3 = 100 ;
la valeur moyenne du prix futur du produit dérivé défini par l’équation (4.1)
est 110/3 + 98 × 2/3 = 102. Cette probabilité d’évolution est une probabilité
fictive, rien ne dit que l’actif a effectivement 33 % de chances de monter. Tout
porte d’ailleurs à croire le contraire : si l’on investit dans une action, ce n’est
pas dans l’idée que sa valeur moyenne future soit égale à celle d’aujourd’hui.
La prise de risque doit être rémunérée et la valeur moyenne future doit être
supérieure à la valeur actuelle. Le résultat que nous venons de voir est qu’il existe
une probabilité fictive sous laquelle nous pouvons calculer les prix d’aujourd’hui
comme la moyenne des prix futurs. Ce résultat est illustré dans la figure 4.6.
On appelle cette probabilité la probabilité risque neutre, justement parce que le
risque n’est pas rémunéré.
F IGURE 4.6. Probabilité risque neutre dans l’arbre binomial étudié.
L’existence de cette probabilité simplifie nettement les calculs. Supposons par

exemple que les valeurs futures possibles de l’actif ne soient plus 95 et 110 mais
90 et 115. La probabilité risque neutre de ce nouvel arbre se calcule facilement,
elle correspond à 40 % de chances de monter et 60 % de descendre. Ce sont les
seules probabilités phausse et pbaisse qui vérifient phausse × 115 + pbaisse × 90 = 100.
Connaissant ces probabilités risque neutre, nous pouvons calculer la valeur du
produit dérivé par la formule 40 % × 115 + 60 % × 98 = 104,8 ; nous n’avons pas
eu à décomposer la stratégie de réplication pour calculer le prix.

Cette probabilité existe-t-elle toujours ? Oui, grâce au non-arbitrage. Rappe-
lons la première conséquence du non-arbitrage que nous avons exhibée, celle qui
affirme l’impossibilité de l’arbre 4.3 : le prix actuel de l’actif doit être entre ses
valeurs futures maximales et minimales. S’il existe une valeur possible supérieure
et une valeur possible inférieure, on peut toujours attribuer correctement une pro-
babilité aux événements pour que la valeur de l’actif aujourd’hui soit la moyenne
pondérée des valeurs futures. Le non-arbitrage garantit donc l’existence de cette
mesure de probabilité fictive.
Cette probabilité est-elle toujours unique ? Dans le cas des arbres binomiaux,
oui. L’unicité de cette probabilité vient de l’algèbre des degrés de liberté : il y
a un degré de liberté pour le choix de la probabilité – la probabilité de monter
détermine la probabilité de descendre et inversement – et une équation de
contraintes (le prix futur moyen pondéré est égal au prix aujourd’hui).
Le modèle de l’arbre binomial est riche en enseignements. Nous avons vu
que, dans ce modèle :
– Il est possible de répliquer tous les produits dérivés car il y a autant de
degrés de liberté de réplication que de degrés de liberté d’évolution.
– Le prix des produits dérivés ne dépend pas de la probabilité réelle qu’a
l’actif de monter ou baisser.
– On peut définir une unique probabilité sous laquelle le prix de tous les
actifs est leur valeur moyenne future.
– Cela permet de calculer l’unique prix non arbitrable des produits dérivés.
– Le prix dépend, en revanche, de la structure de l’arbre c’est-à-dire de la
valeur inscrite à chaque nœud de l’arbre.
Nous allons dans la section suivante sortir du cadre spécifique de l’arbre
binomial et étudier ces propriétés dans un cadre général.
2 Le théorème du non-arbitrage (cas discret)

Nous sommes désormais familiers avec la modélisation du prix des actifs finan-
ciers par un processus aléatoire St : S0 est le prix de l’actif aujourd’hui et St , pour
t > 0, est une variable aléatoire – c’est-à-dire qu’elle peut prendre différentes
valeurs selon une certaine loi de probabilité – représentant le prix de l’actif au
temps t. C’est ainsi que dans l’arbre binomial 4.4 nous avons S0 = 100, S1 = 110
avec une certaine probabilité et S1 = 95 sinon.
Une stratégie consiste simplement à détenir au temps t une certaine quantité
d’actif St et une certaine quantité de liquidité, que l’on appelle cash. Ces quantités
sont elles-mêmes des variables aléatoires, qui peuvent dépendre des valeurs

passées de l’actif mais pas de ses valeurs futures. Une stratégie sera dite auto-
financée s’il n’est pas nécessaire d’apporter de l’argent au cours de la stratégie
pour la mettre en œuvre. Par exemple, la stratégie déployée dans la figure 4.5
est bien autofinancée : lorsque l’on change les proportions d’action et de cash
détenu, cela se fait sans entrée ni sortie d’argent. La propriété d’autofinancement
se matérialise par une équation simple ; le lecteur curieux peut la chercher en
guise d’exercice (définir ct la quantité de cash et αt la quantité d’action et lier ct ,
ct+1 , αt , αt+1 , St et St+1 ).
Cette formalisation nous permet de définir rigoureusement ce qu’est une
opportunité d’arbitrage : il s’agit d’une stratégie autofinancée qui peut générer
de l’argent mais qui n’en perd jamais (la stratégie est gagnante si la valeur de
l’investissement à un instant donné est supérieure à sa valeur initiale). En d’autres
termes, on gagne de l’argent avec une probabilité non nulle tout en étant sûr de
ne pas en perdre. L’hypothèse du non-arbitrage dit précisément que ce type de stratégie
n’existe pas. C’est aux conséquences de cette hypothèse que nous allons nous
intéresser.
Continuons notre généralisation : nous avons vu que sous une certaine
probabilité, la valeur moyenne future de l’actif est égale à la valeur actuelle.
Cette propriété porte un nom en mathématique : les martingales. Il ne faut pas
les confondre avec les « martingales » fantasmées des joueurs de casino : les
martingales mathématiques sont exactement le contraire. Un processus aléatoire
St est une martingale si, à tout instant T et sachant que ST = s, la valeur moyenne
de ST +1 est s. En d’autres termes, si la valeur de St en T est s – les mathématiciens
disent conditionnellement à ST = s – la valeur moyenne de ST +1 ne peut être
que s. C’est exactement cette propriété que l’on observe sur l’arbre binomial 4.6 :
la valeur de chaque nœud est égale à la moyenne pondérée des valeurs futures
de l’actif aux nœuds suivants.
Les martingales mathématiques possèdent de nombreuses propriétés que
nous ne passerons pas en revue. L’une d’entre elle est cependant utile pour
bien les comprendre, le « théorème du temps d’arrêt ». Prenons une martingale
Mt . On rappelle que la valeur moyenne d’une martingale, à n’importe quel
instant, est sa valeur initiale M0 . Imaginons que l’on définisse une stratégie qui
nous dicte d’arrêter le jeu à un temps τ. Ce temps τ peut lui-même être une
variable aléatoire qui dépend des valeurs passées de Mt mais pas des valeurs
futures. Encore une fois, nous interdisons toute prédictibilité. L’essentiel est que
le temps τ soit borné, c’est-à-dire qu’il existe un temps Tmax , prédéterminé, tel
que τ Tmax (par exemple Tmax = 100 ans, dans l’idée que toute stratégie qui
finit dans plus d’un siècle nous est inutile). Par exemple, la stratégie peut être
d’arrêter le jeu au temps τ dès que Mτ = 10 000 e ou au bout de 100 ans si

Mt n’a jamais atteint 10 000 e dans le siècle. Le théorème du temps d’arrêt dit
que la valeur moyenne de Mτ , c’est-à-dire le gain moyen après application de la
stratégie d’arrêt, est M0 : une stratégie qui se déboucle en temps borné ne peut
pas être profitable en moyenne. C’est bien pour cette raison que les joueurs de
casino ne peuvent pas gagner : comme l’évolution des gains d’un jeu équilibré
suit une martingale (au sens mathématique), toute stratégie qui s’arrête en temps
fini est de gain nul en moyenne. Si le jeu est biaisé en défaveur du joueur, la
stratégie sera nécessairement perdante en moyenne. Pourtant, nous pouvons
adopter la stratégie de jeu classique suivante : à chaque coup, si le gain total est
positif on arrête le jeu, sinon, on double la mise. Cette stratégie apporte bel et bien
un gain certain puisqu’elle ne s’arrête que lorsqu’un gain est constaté. Certes,
mais le théorème du temps d’arrêt démontre alors que cette stratégie peut être
infiniment longue ! Les martingales mathématiques démontrent ainsi que l’on ne
peut pas biaiser en notre faveur un jeu équilibré, c’est-à-dire qu’il n’existe pas de
« martingale » au sens des joueurs de casino qui s’arrête en un temps fini.
Avant de conclure, il nous reste à introduire un dernier pilier : la mesure de
probabilité équivalente. Les mathématiciens voient les actifs financiers comme
des variables aléatoires soumises à certaines lois de probabilité. Ils se donnent la
possibilité de construire un monde imaginaire dans lequel les probabilités seraient
déformées. La difficulté est alors de construire les liens entre le monde fictif et le
monde réel. Nous avons vu dans le cadre de l’arbre binomial que nous pouvions
nous placer dans un monde fictif dans lequel les prix réels des actifs étaient leur
valeurs moyennes futures pondérées par les probabilités fictives. C’est exactement
ce que nous ferons dans le cadre général avec cependant une précision : il faut
que les mesures de probabilité réelle et fictive soient « équivalentes », c’est-à-dire
que les événements de probabilité non nulle soient les mêmes dans les deux
mesures. Dans le cadre d’un arbre binomial, cela signifie que la mesure fictive
doit avoir exactement les mêmes nœuds, elle ne peut ni rajouter un nœud qui
n’existe pas dans la mesure réelle (que l’on pourrait voir comme un nœud de
probabilité nulle), ni en enlever. Nous disposons maintenant des trois notions
clés (stratégie d’arbitrage, martingale, mesure de probabilité équivalente) pour
formuler le théorème du non-arbitrage.
Théorème : En l’absence d’opportunité d’arbitrage, il existe une mesure de
probabilité fictive, équivalente à la mesure de probabilité réelle, sous laquelle les
prix réels de tous les actifs sont des martingales.
Ce théorème nous apporte en pratique trois choses :
– Le processus aléatoire St ne peut pas être n’importe quel processus : il faut
qu’il admette une mesure de probabilité, équivalente à la mesure réelle,
sous laquelle il est une martingale. Cela implique de ne pas faire n’importe

quoi dans la construction de nos modèles et, par exemple, d’éviter les
situations du graphique 4.3.
– Il suffit de nous placer dans le monde imaginaire de la probabilité fictive
pour simplifier les calculs. Le prix aujourd’hui est le même dans la me-
sure réelle et dans la mesure fictive, sinon, les mesures ne seraient pas
équivalentes. Les prix réels aujourd’hui peuvent donc être calculés comme
la moyenne de leurs valeurs futures pondérées par les probabilités de la
mesure fictive.
– Dans certains modèles, comme l’arbre binomial, il n’existe qu’une seule
mesure équivalente qui redresse le processus St en martingale : le théo-
rème nous permet donc de calculer sans ambiguïté le prix des actifs, peu
importent les probabilités réelles.
Nous aborderons en détail les deux derniers points dans les chapitres suivants,
puisque tous nos modèles se placeront dans la mesure risque neutre équivalente.
Revenons sur le premier point. Supposons que quelqu’un vous propose d’investir
dans un placement dont la valeur est à tout moment le carré de la valeur du
CAC 40. Vous pouvez être sûr que cet interlocuteur est incompétent car il vous
offre un free lunch : son produit contredit le non-arbitrage. Il n’existe en effet
pas de mesure de probabilité telle que St et St2 soient des martingales (sauf si St
est une constante, ce qui n’est pas le cas pour le CAC). L’exercice qui consiste
à construire la stratégie d’arbitrage associée est intéressant et laissé au lecteur.
En revanche, un banquier compétent peut vous proposer un placement dont la
valeur à un instant T donné sera le carré de la valeur du CAC en T. Entre t et T,
la valeur du placement sera en revanche nécessairement différente du carré de la
valeur du CAC.
3 La complétude
Le théorème du non-arbitrage est très puissant, mais il ne résout pas tous les
problèmes : le cas de l’arbre binomial où la mesure risque neutre équivalente est
unique est un heureux événement mais n’est pas généralisable. En effet, dans
le cas général, rien ne garantit qu’il n’existe qu’une seule mesure de probabi-
lité risque neutre. Voyons par exemple le cas des arbres trinomiaux tels que
représentés dans la figure 4.7.
Il est clair qu’il existe plusieurs probabilités sous lesquelles l’actif évoluant
le long de l’arbre 4.7 est une martingale. Cela est illustré par la figure 4.8.
Contrairement au cadre de l’arbre binomial, nous avons un degré de liberté
supplémentaire qui rend possible l’existence de plusieurs mesures.

F IGURE 4.7. Exemple d’arbre trinomial.
F IGURE 4.8. Deux mesures risque neutre équivalentes sur un même arbre trinomial.
Dans la section relative aux arbres binomiaux, nous avons considéré deux
produits financiers : le premier payait, à T = 1, S1 si S1 > 98 et 98 sinon, le second
payait, à T = 2, S2 si S2 > 98 et 98 sinon. Il s’agit bien d’actifs financiers, donc
leur prix doit être une martingale sous les mesures risque neutre. Or, en utilisant
les mesures A et B de la figure 4.8, nous tombons sur des prix différents :

Produit financier 1 Produit financier 2
Paye, à T = 1, S1 si S1 > 98 Paye, à T = 2, S2 si S2 > 98

Description
et 98 sinon et 98 sinon
Prix sous la 16 % × 110 + 16 % × 105 + 36 % ×

40 % × 105 + 20 % × 100 + 40 % ×
mesure risque 100 + 16 % × 98 + 16 % × 98 =
98 = 101,2
neutre A 101,76
Prix sous la
30 % × 105 + 40 % × 100 + 30 % × 3 % × 110 + 42 % × 105 + 13 % ×
mesure risque
98 = 100,9 100 + 36 % × 98 + 6 % × 98 = 101,56
neutre B
Quel est le bon prix pour nos produits financiers ? Compte tenu de nos
informations, les deux prix sont bons : il n’est pas possible de discerner un prix
qui serait meilleur que l’autre. En effet, il n’existe pas de stratégie d’arbitrage
qui permette de tirer profit des prix calculés par la mesure A et ni de ceux
calculés par la mesure B. Tous les prix calculables à partir de mesures risque
neutre équivalentes sont corrects au sens où ils n’engendrent pas d’opportunité
d’arbitrage. Aussi, dans le cadre d’un arbre trinomial, le non-arbitrage ne nous
garantit pas un prix unique mais un ensemble de prix non arbitrables.
Il est tout à fait possible de calculer précisément cet ensemble. Concentrons-
nous sur le produit financier 1 qui s’arrête à T = 1. Si l’on note p95 , p100 et p105 les
probabilités risque neutre d’évolution de l’actif, on peut montrer que p95 = p105
et bien sûr p100 = 1 − p95 − p105 . Nous avons par rapport à l’arbre binomial un
degré de liberté en plus, qui est le choix, arbitraire, de p95 . Pour que toutes les
probabilités restent entre 0 et 1 il faut et il suffit que 0 < p95 < 50 %. Les prix non
arbitrables du produit financier 1 seront tous les prix qui peuvent se calculer par
la formule :
105 × p95 + 100 × (1 − 2 × p95 ) + 98 × p95 = 100 + 3 × p95

(4.2)
∈ ]100; 101,5[
Ainsi, le non-arbitrage nous a permis de dire que le prix du produit financier

est compris entre 100 et 101,5. C’est déjà une information, mais cela n’est pas
suffisant pour donner un prix.
Les modèles mathématiques d’évolution des prix des produits financiers se
segmentent clairement en deux catégories. Les modèles complets (arbre bino-
mial, modèle de Black-Scholes que nous verrons au chapitre suivant) sont ceux

qui admettent une mesure risque neutre équivalente unique. Ces modèles sont
simples et irréalistes. En revanche, l’avantage de l’unicité du prix non arbitrable
est immense. Dans ces modèles, les produits financiers sont réplicables par des
stratégies simples. Il n’est pas besoin de faire des hypothèses sur les probabilités
réelles d’évolution des actifs, puisque la capacité de réplication permet de s’af-
franchir des probabilités réelles. Ce point est fondamental car la modélisation
des probabilités des événements futurs est par définition un exercice divinatoire
que les mathématiciens détestent généralement.
Les modèles incomplets sont ceux pour lesquels il n’y a pas d’unicité de la
mesure risque neutre. Malheureusement, cela représente une très grande partie
des modèles plus raffinés (modèles à volatilité stochastique, modèles à saut,
modèles de taux instantanés) dont certains seront étudiés aux chapitres 6 et 9.
Dans ces modèles, la seule hypothèse de non-arbitrage ne suffit pas et des choix
supplémentaires sont nécessaires pour déterminer le prix des produits financiers.
4 Le cadre continu*
Dans les sections 1 et 2, nous avons implicitement admis être dans un univers
discret, c’est-à-dire dans lequel le temps T = 0, 1, 2, 3... et la valeur des actifs
(95, 100, 105) pouvaient être énumérés. Dans le cadre général, nous travaillons
plutôt avec un temps T et des possibilités de prix ST continus, qui peuvent
prendre n’importe quelle valeur réelle positive. L’adaptation de la théorie du
non-arbitrage au cadre continu est très importante car la plupart des modèles
d’évolution des actifs sont, de fait, continus.
Nous avons vu, dans le cadre discret, qu’il est essentiel que le processus St
présente en toute situation une opportunité de gain ou une opportunité de perte.
Cette caractéristique est de fait équivalente aux deux propriétés (i) il n’existe
pas d’opportunité d’arbitrage et (ii) il existe une mesure martingale équivalente.
C’est d’ailleurs l’équivalence entre (i) et (ii) qu’affirme le théorème du non-
arbitrage. Dans le cadre continu, il existe une composante supplémentaire à
prendre en compte : la variabilité du processus. Cette variabilité représente le
caractère erratique du processus, autrement dit à quel point ses variations en un
temps infinitésimal peuvent être grandes. Elle induit une dimension d’analyse
supplémentaire qui complexifie l’approche.
Sur un processus aléatoire St , nous pouvons nous intéresser aux différentes
valeurs possibles de ST à un instant donné T. Nous pouvons également nous
intéresser aux différents chemins St pour 0 < t < T que le processus peut prendre
pour aller de S0 jusqu’à la valeur ST . Naturellement, plusieurs chemins peuvent
partir du même point, s’écarter et arriver au même point. Dans le cadre continu,

ces chemins peuvent être plus ou moins erratiques ; ils peuvent être lisses et
continus, continus mais avec beaucoup de fluctuations brutales, complètement
discontinus, etc.
Le problème de variabilité ne se pose pas dans le cadre discret puisque le
temps lui-même est discret et les variations d’un instant à l’autre ne peuvent
être que des sauts. Il est intéressant de remarquer qu’un actif risqué ne peut pas
suivre un processus aléatoire dont tous les chemins sont lisses : cela créerait des
opportunités d’arbitrage. En effet, les courbes lisses possèdent une tangente et
elles évoluent à proximité de leur tangente, au moins pendant une petite période
de temps. Pendant cette période de temps, l’évolution est prévisible (au moins au
premier ordre) puisqu’elle suit la tangente : si la pente est négative par exemple,
on est sûr que, au moins pendant un bref laps de temps, l’actif va baisser quel
que soit le chemin emprunté. Cela est illustré par la figure 4.9. Si l’évolution est
prévisible, il y a une opportunité d’arbitrage. Ainsi, en l’absence d’opportunité
d’arbitrage, les processus qui modélisent les actifs risqués ne peuvent pas être
trop réguliers.
F IGURE 4.9. Exemple de processus aléatoire dont les trajectoires (3 trajectoires ci-dessus) sont lisses. Les
trajectoires ne s’écartent que lentement de leur tangente.
La première idée est donc que les processus doivent être suffisamment va-
riables, instables, pour ne pas être prévisibles. Réciproquement, si les processus
sont complètement erratiques, nous sommes confrontés à d’autres problèmes.
Nous verrons plus loin que les martingales ont une variabilité bien définie et
qu’aucun processus trop erratique ne peut être une martingale (même en pas-
sant par une mesure de probabilité fictive équivalente). Prenons l’exemple d’un

processus aléatoire où chaque valeur St est indépendante des autres variables
St (t = t ). Un tel processus est parfaitement erratique car St est complètement
déconnecté de St+ aussi petit puisse être. Cette situation conduit à une oppor-
tunité d’arbitrage également puisqu’il suffit d’investir dès que St est en dessous
de sa moyenne 1 et de liquider l’investissement dès que St repasse par-dessus.
Comme les valeurs de St sont totalement indépendantes, la stratégie marche
certainement en un temps infiniment court puisqu’entre T et T + l’actif prend
une infinité de valeurs indépendantes les unes des autres : il est sûr qu’au moins
une d’entre elles, la valeur de Sτ par exemple, sera supérieure à la moyenne, et
comme ST était inférieure à la moyenne, il y a réalisation d’un gain en achetant
ST et revendant Sτ .
La variabilité des chemins d’un processus est donc une composante essentielle,
il faut la mesurer. La première indication est la longueur des chemins. Supposons
qu’une action vaille 100 à T = 0 et 110 à T = 10. Le chemin le plus court d’un
point à un autre est la droite, donc le trajet le moins variable serait l’interpolation
linéaire : pour 0 < t < 10, l’action vaudrait 100 + t (courbe 1 de la figure 4.10) ; la
longueur du chemin parcouru par l’action est alors 14,14. Mais, l’action ne suit
naturellement pas une ligne droite. Si elle suivait la courbe 2 de la figure 4.10,
son trajet serait plus long, on le constate visuellement, et le calcul montre que
la longueur exacte est 24,12. Mais, nous venons de voir que l’action ne peut pas
suivre une courbe lisse, les trajets ressemblent plutôt à la courbe 3. La longueur
de cette courbe est en réalité infinie. Ainsi, nous venons de définir une première
notion qualitative de variabilité : est-ce que la longueur des trajectoires est finie ?
Si la longueur de tous les chemins d’un processus aléatoire est finie, on

dit que le processus est à variation finie. Si tous les chemins sont de longueur
infinie, le processus est dit à variation infinie. Naturellement, il peut exister des
processus dégénérés dont certaines trajectoires sont de longueur finie et d’autres
de longueur infinie. Si toutes les trajectoires d’un processus sont de longueur
finie, alors cette propriété sera vraie dans toutes les mesures de probabilités
fictives équivalentes. En effet, nous pouvons reformuler cette propriété de la
manière suivante : la probabilité que le processus ait un chemin de longueur
infinie est nulle. Comme, par définition de la mesure de probabilité équivalente,
nous ne pouvons pas modifier les événements de probabilité nulle, dans toutes
les mesures de probabilités fictives équivalentes la propriété sera vraie. Ainsi, le
fait qu’un processus aléatoire soit à variation finie ne dépend pas de la mesure
1 Nous supposons implicitement que tous les St ont la même moyenne, il est possible de s’affranchir
de cette hypothèse avec un raisonnement un peu plus complexe.

de probabilité utilisée, pour peu que la mesure fictive soit bien équivalente à la
mesure réelle.
F IGURE 4.10. Illustration de la variabilité des chemins : pour aller de 100 à 110, il existe plusieurs trajectoires
plus ou moins régulières, plus ou moins erratiques.
Parmi les chemins de longueur infinie, il est possible de discerner ceux

qui sont plus réguliers que les autres. Nous n’entrerons pas dans les détails
mathématiques, mais il est important de savoir que l’on peut calculer une
variation de second niveau, qui est un raffinement de la variation du premier
ordre (la longueur des chemins). Cette variation du second ordre s’appelle
variation quadratique. Les processus à variation finie auront, en général, une
variation quadratique nulle ; les processus à variation quadratique non nulle
auront en général une variation infinie. La variation quadratique mesure la
variabilité des chemins à un degré supérieur. Par exemple, la courbe 3 du
graphique 4.10 est à variation infinie mais à variation quadratique finie ; elle
est plus régulière que la courbe 4 dont la variation et la variation quadratique
sont infinies. Nous pourrions continuer à élaborer d’autres mesures de variabilité
pour distinguer les processus à variation quadratique infinie, mais nous nous
arrêterons là pour une raison simple : les martingales sont des processus aléatoires
à variation quadratique finie, c’est-à-dire dont tous les chemins sont à variation
quadratique finie.
L’analyse de la variabilité nous permet également de décomposer les proces-
sus en deux composantes : la tendance (ou la dérive) et l’aléa. La tendance repré-
sente l’évolution de la moyenne, cette dernière ne doit pas être trop erratique,

c’est un processus à variation finie. Dans les modèles standards, l’aléa est à varia-
tion quadratique finie et sans dérive : c’est une martingale. Ainsi, les processus
aléatoires modélisant les actifs financiers sont la somme de deux composantes :
– Une composante représentant l’aléa pur, qui doit être une martingale.
– Une composante représentant la dérive, l’évolution prévisible, qui doit être
un processus à variation finie.
De tels processus s’appellent des semi-martingales. Pour caractériser ces semi-

martingales, les quant écrivent :
dSt = u × dt + dMt (4.3)
Cela traduit la décomposition que nous venons de voir :

– Le terme dSt représente la variation entre deux instants très proches du
processus St , c’est-à-dire la progression St+dt − St .
– Le terme u × dt est la dérive. En effet, dt est la variation du temps et
u donne la valeur de la dérive. Plus u est grand, plus le processus St
croît avec le temps. Si u est négatif, St va décroître en moyenne avec le
temps. Cette dérive u peut dépendre du temps, par exemple pour prévoir
que l’accroissement du processus va s’affaiblir avec le temps. Elle peut
également dépendre de la valeur St elle-même, par exemple pour prévoir
que si St est trop grand, la dérive sera négative pour ramener le processus
à sa moyenne et inversement.
– Le terme dMt n’est autre que l’évolution Mt+dt − Mt d’une martingale Mt .
En l’état actuel de nos connaissances, le théorème du non-arbitrage en version

continue s’applique uniquement au cadre des semi-martingales et non à l’inté-
gralité des processus aléatoires. Avant de l’énoncer, il est nécessaire de raffiner la
notion d’absence d’opportunité d’arbitrage. Il nous faut introduire la notion de
no free lunch with vanishing risk, c’est-à-dire d’absence d’opportunité d’arbitrage
dont le risque tend vers zéro. Dans le cadre discret, nous nous sommes interdit de
gagner éventuellement de l’argent en étant sûrs de ne pas en perdre. La stratégie
d’arbitrage est stricto sensu sans risque : la probabilité de perte de cette stratégie
est nulle. Dans le cadre continu, nous nous interdisons de gagner de l’argent
avec un risque arbitrairement faible. Plus le risque pris est faible, plus le gain
possible doit être faible. S’il est possible de réaliser un gain donné avec un niveau
de risque arbitrairement petit, il y a opportunité d’arbitrage au sens du free lunch
with vanishing risk. Cela nous permet d’énoncer la version continue du théorème
du non-arbitrage, dans la version démontrée par [Delbaen et Schachermayer
1998] :

Théorème : Si les actifs sont représentés par des semi-martingales et s’il
n’existe pas d’opportunités d’arbitrage avec un risque arbitrairement faible, alors
il existe une mesure de probabilité équivalente sous laquelle les prix des actifs
sont des martingales.
Il est important de constater que nous sommes entrés dans un monde com-
plètement abstrait : celui des processus continus. De fait, les prix des actions sont
discrets (en centimes d’euros en général). De fait, nos horloges et notre temps
de réaction n’ont pas une précision infinie : le temps continu reste une abstrac-
tion. Nous avons donc construit un monde imaginaire et, pour que ce monde
imaginaire soit cohérent nous avons dû imposer des restrictions, dont une de
taille : les prix des actions ne peuvent pas être trop erratiques, leur évolution est
nécessairement représentée par une courbe à variation quadratique finie. Mais
cette idée de variabilité est quelque part une abstraction puisqu’elle n’existe
que dans le monde imaginaire des processus continus... La question est donc de
savoir si modéliser les processus réels par des processus continus à variation
quadratique finie est une bonne approximation ou non de la réalité ; c’est une
question ouverte.

5 Le modèle de Black-Scholes
En 1997, Robert Merton et Myron Scholes reçoivent le prix Nobel d’économie pour
leurs travaux, accomplis avec Fisher Black (décédé en 1995), sur la valorisation
des produits dérivés. Il s’agit du modèle de Black-Scholes, également appelé
modèle de Black-Scholes-Merton, que nous allons étudier au présent chapitre. Ce
modèle constitue l’armature de la majeure partie des mathématiques financières.
Il pose un cadre général de modélisation, des méthodologies et des schémas de
raisonnements fondateurs.
La base mathématique des modèles que nous allons étudier est le mouvement
brownien ; nous l’aborderons dans la première section. La paternité de l’introduc-
tion du mouvement brownien en finance revient à Louis Bachelier, dans sa thèse
[Bachelier 1900]. Mais la structure du mouvement brownien n’est pas directement
adaptable aux produits financiers : les valeurs du mouvement brownien peuvent
par exemple être négatives alors que les valeurs des actifs financiers ne peuvent
être que positives. Nous verrons dans la deuxième section en quoi l’exponentielle
des mouvements browniens, appelée mouvement lognormal, caractérise quant à
elle convenablement les actifs financiers. C’est en 1973 que [Black et Scholes 1973]
et [Merton 1973] introduisent et structurent l’utilisation de ce mouvement lognor-
mal en finance. Ils construisent un environnement risque neutre permettant de
valoriser et d’étudier les produits financiers ; ce modèle de Black-Scholes sera
l’objet de notre troisième section. Nous conclurons le chapitre sur la notion de
volatilité implicite qui est une manière d’adapter le modèle de Black-Scholes aux
réalités des marchés financiers et de prendre en compte le fait que le mouvement
des actions n’est pas exactement lognormal.
1 Le mouvement brownien
Le chapitre précédent nous a conduit vers un objet mathématique fondamental
en finance : les processus stochastiques continus. Ces processus stochastiques
continus sont des variables aléatoires Xt indexées par un temps t continu. Dans
la présente section, nous allons étudier le plus célèbre d’entre eux : le mouvement
brownien. Intuitivement, on doit pouvoir construire un processus stochastique
continu comme limite de processus à temps discrets, de la même manière qu’une
fonction continue peut être approchée par des fonctions en escalier dont le pas
tend vers zéro. Dans le cadre des processus stochastiques, notre brique de base
est l’arbre binomial. Nous allons donc construire le mouvement brownien comme
limite d’arbres binomiaux de pas de temps de plus en plus faibles.
Pour ce faire, nous allons partir des arbres les plus simples : le pas de temps
de l’arbre est noté dt et, à chaque nœud de l’arbre, le processus a 50 % de chances
de monter et 50 % de chances de descendre. La taille des variations est constante
dans le temps mais dépend du pas de temps dt, on la note u(dt). À chaque nœud,
le processus peut ainsi monter de u(dt) ou baisser de −u(dt) comme dans l’arbre
représenté en figure 5.1. La valeur du processus au temps T, c’est-à-dire après
T/dt pas de temps, est une variable aléatoire notée BT . Afin de nous approcher
des processus continus, nous nous plaçons dans le cas où le pas de temps dt est
proche de 0.
F IGURE 5.1. Arbre binomial régulier dont le pas de temps est dt et dont le pas de variation est u(dt). Cette
représentation permet d’imaginer des arbres dont le pas de temps dt est infinitésimal.
86 Chapitre 5. Le modèle de Black-Scholes

Plaçons-nous à la date T = 1, après 1/dt pas de temps, et regardons les
valeurs possibles de B1 selon les différents choix de u(dt). La figure 5.2 montre
les phénomènes suivants que l’on peut prouver mathématiquement :
√
– Si u(dt) est de l’ordre de dt (dans les deux graphiques du haut dans la
figure 5.2), la distribution de B1 converge vers une fonction en cloche, qui
n’est autre qu’une loi normale.√
– Si u(dt) est très petit devant dt, par exemple si u(dt) = dt, la distribution
de B1 se concentre autour de la valeur 0 (la distribution se rapproche de
l’axe vertical). Plus le pas de temps diminue, plus la probabilité que B1 soit
proche de 0 est forte. En d’autres termes, l’arbre converge vers un processus
constant de valeur nulle. √ √
– Si u(dt) est très grand devant dt, par exemple si u(dt) = dt, la
distribution s’étale de plus en plus, elle se rapproche de l’axe horizontal.
Les valeurs extrêmes sont donc de plus en plus probables, l’arbre diverge.
F IGURE 5.2. Distribution de probabilité de B1 lorsque le processus évolue dans un arbre binomial tel que
représenté par la figure 5.1 en fonction des pas de temps dt et des valeurs de u(dt). Dans les cas où
√
u(dt) est proportionnel à dt, la distribution converge vers une courbe en cloche. Dans les autres cas, les
distributions s’écrasent sur l’axe vertical (la seule valeur probable étant alors 0) ou horizontal (les valeurs
infinies sont de plus en plus probables, ce qui empêche la convergence).

Il n’existe qu’une seule situation dans laquelle l’arbre binomial converge vers
un processus stochastique
√ non dégénéré : le cas où la taille des variations est
proportionnelle à dt. Si les variations sont plus fortes, alors l’arbre diverge ;
si elles sont plus faibles, alors l’arbre s’écrase vers 0. Nous touchons du doigt
la même problématique que celle évoquée au chapitre précédent, la question
de la variabilité des processus stochastiques continus. Le cadre mathématique
habituel dans lequel évoluent ces processus stochastiques est celui des processus
stochastiques à variation infinie mais à variation quadratique finie. Cela revient
exactement à dire que, sur un court pas de√temps dt, la taille caractéristique des
variations des processus est de l’ordre de dt.
Connaître cette taille caractéristique
√ est très important pour bien comprendre
le mouvement. La grandeur dt est très grande devant dt, cela veut dire qu’un
processus stochastique varie très fortement sur un pas de temps très court. C’est
le fait que toutes ces variations sont dans des sens aléatoires différents, certaines
positives et d’autres négatives, qui assure que le processus stochastique reste √en
général fini et ne diverge pas à l’infini. Pour des variations plus grandes que dt,
les compensations ne suffisent pas à contenir l’arbre et il y a divergence à l’infini.
√
Lorsque u(dt) est proportionnel à dt, les arbres binomiaux réguliers
convergent vers un processus stochastique qui n’est autre que le célèbre mou-
vement brownien. Dans nos exemples, il s’agira d’un mouvement brownien
centré car nous nous sommes restreints à des probabilités équilibrées (50 % de
chances de monter, 50 % de chances de descendre). Dans ce cadre, le mouvement
ne dérive pas, il reste nul en moyenne. Dans le cadre général, les distributions de
probabilité du processus à T = t suivent une loi normale de moyenne m × t et de
variance ν × t où m et ν > 0 sont des paramètres du mouvement qui dépendent
des probabilités de hausse et de baisse des arbres binomiaux et de la taille de
leurs variations u(dt). Par exemple, les arbres binomiaux décrits dans la figure 5.3
sont réguliers mais avec des probabilités non équilibrées, ils convergent vers un
mouvement brownien de paramètres de moyenne m et de variance ν = σ2 . Le
facteur m sert ainsi à décentrer les probabilités de hausse et de baisse : si m = 0,
l’arbre est équilibré ; si m > 0 alors la probabilité de hausse est supérieure à la
probabilité de baisse, et inversement si m < 0. Cela explique que la limite de
l’arbre soit un mouvement qui dérive à la hausse (si m > 0) ou à la baisse (si
m < 0).
Le mouvement est donc caractérisé par deux grandeurs (nous prenons systé-
matiquement l’année comme unité de temps) :
– la dérive annuelle du processus m, appelée drift en anglais ;
– la volatilité annuelle du processus σ qui est, on le rappelle, la racine carrée
de la variance du processus.

√
F IGURE 5.3. Nœud d’un arbre binomial dont le pas de temps est dt, dont le pas de variation est σ × dt et
dont les probabilités de hausse et baisse sont décentrées par un facteur m. Lorsque dt tend vers 0, cet arbre
converge vers un mouvement brownien de dérive m et de volatilité σ.
F IGURE 5.4. Exemple de tirages aléatoires représentant des mouvements browniens. Les tirages sont
centrés autour de leur dérive (0 pour les courbes rouges, 0,2 par an pour les courbes bleues) et s’en écartent
d’autant plus que la volatilité est forte.
Nous aurions pu partir d’autres processus à temps discrets pour aboutir

au mouvement brownien. Par exemple, des arbres trinomiaux correctement
paramétrés convergent tout autant vers un mouvement brownien. Cependant, les
arbres binomiaux ont non seulement l’avantage de la simplicité mais ils donnent
aussi une vision du mouvement brownien qui nous semble singulièrement fidèle.
En particulier, transformer les lois de probabilité revient, dans l’arbre binomial
de la figure 5.3, à modifier le paramètre de dérive m tout en laissant constant la
structure de l’arbre et en particulier sa taille caractéristique de variation donnée
par le paramètre σ. C’est exactement le même phénomène qui se produit sur

le mouvement brownien lorsque l’on change la mesure de probabilité : il est
possible d’agir sur la dérive m du mouvement mais le processus résultant restera
un mouvement brownien de volatilité σ. Cette propriété est très spécifique aux
arbres binomiaux, aux mouvements browniens et à certains de ses dérivés ; elle
assure l’unicité de la mesure risque neutre équivalente qui induit l’unicité du
prix des produits financiers 1 .
Les propriétés des mouvements browniens sont riches et multiples, c’est la
raison pour laquelle on retrouve couramment le processus dans de nombreux
domaines, en biologie (c’est un botaniste qui a laissé son nom au mouvement)
et en physique notamment. Nous ne pourrons pas passer en revue toutes les
caractéristiques des mouvements browniens mais nous citerons quelques-unes
de ses propriétés les plus utiles en finance.
Propriété 1. Nous l’avons vu, mais il est bon d’y revenir : le mouvement
brownien est caractérisé par deux grandeurs, sa dérive, qui évolue linéairement
avec le temps, et sa volatilité, qui évolue proportionnellement à la racine carré
du temps. On parle en général de mouvement brownien standard pour définir un
mouvement dont la dérive est nulle et dont la volatilité annuelle est 1. Notant Wt
ce mouvement brownien standard, un mouvement brownien Bt de dérive m et
de volatilité σ est en général introduit par l’équation :
dBt = m × dt + σ × dWt (5.1)
Dans cette équation, dt représente le pas de temps, dBt la variation du

processus Bt sur ce pas de temps et dWt la variation du mouvement brownien
standard.
Propriété 2. Les trajectoires d’un mouvement brownien sont continues, le
processus ne comporte pas de saut. Cela signifie que Bt+dt est proche √ de Bt . On
peut même aller plus loin : Bt+dt − Bt est de taille caractéristique σ dt qui tend
bien vers 0 lorsque dt tend vers 2 0.
Propriété 3. Le mouvement est une martingale lorsque la dérive est nulle. Cela
signifie que si la valeur à t d’un mouvement brownien sans dérive est V, alors
l’espérance des valeurs futures à T > t du mouvement brownien est V, même si
le mouvement partait de B0 = V à l’origine.
1 Le lecteur qui a parcouru la dernière section du chapitre 4 pourra également constater que la
variation quadratique (la somme du carré des variations d’une trajectoire) de l’arbre 5.3 entre t et
t + T est exactement T × σ2 quelle que soit la trajectoire empruntée. Ce phénomène remarquable
caractérise les mouvements browniens.
2 Cela démontre également
√ que les trajectoires du mouvement brownien ne sont pas dérivables :
( Bt+dt − Bt )/dt ≈ σ/ dt tend vers l’infini quand dt tend vers 0.

Propriété 4. Les incréments du mouvement brownien sont indépendants.
Cela signifie que la loi des variations Bt+s − Bt d’un mouvement brownien est
indépendante des valeurs de Bu pour u t. Le processus n’a pas de mémoire,
toutes ses variations sont indépendantes les unes des autres.
Propriété 5. Les incréments du mouvement brownien sont stationnaires, cela
implique que les incréments suivent à tout instant la même loi de probabilité.
Autrement dit, les variations Bt+s − Bt d’un mouvement brownien ne dépendent
que de s et pas de t. Par exemple, la probabilité des évolutions après 6 mois,
Bt+0,5 − Bt , est la même quel que soit l’instant t considéré (par exemple si t est le
01/10/2010 ou le 17/01/1983).
Propriété 6. Les incréments du mouvement brownien suivent des lois normales.
Plus précisément, les variations
√ Bt+s − Bt suivent une loi normale de moyenne
m × s et de volatilité σ × s où m (respectivement σ) est la dérive annuelle
(respectivement la volatilité annuelle) du processus.
Les propriétés 2, 4 et 5 suffisent à elles seules à définir le mouvement brownien.
En effet, plutôt que de construire notre mouvement brownien par des arbres
binomiaux, nous aurions pu définir le mouvement brownien par ces propriétés : le
mouvement brownien est le seul processus stochastique qui vérifie les conditions
suivantes :
– Ses trajectoires sont continues.
– Ses incréments sont indépendants.
– Ses incréments sont stationnaires.
Le fait que ces trois seules propriétés suffisent à caractériser le mouvement
brownien est très important car aucune de ces conditions ne fait appel à des
paramétrisations ou hypothèses arbitraires sur la loi du mouvement. Il ne s’agit
que d’hypothèses structurelles sur les mouvements dont on peut d’ores et déjà
envisager qu’elles soient adaptées à de nombreuses modélisations. Le fait que
les incréments des mouvements browniens suivent des lois normales est une
conséquence des trois hypothèses structurelles (continuité, indépendance, sta-
tionnarité). Ces trois briques de base s’insèrent d’ailleurs parfaitement dans la
modélisation des actifs financiers, nous allons le voir dans la section suivante.
2 Les processus lognormaux

Les trois conditions caractérisant le mouvement brownien (continuité, indépen-
dance, stationnarité) sont à première vue des hypothèses raisonnables pour mo-
déliser l’évolution d’un actif financier à un détail près : le modèle brownien a une
structure additive, il est fondé sur les lois des incréments (Xt+s − Xt ) alors que

les actifs financiers ont une structure multiplicative, fondée sur les rendements
(( Xt+s − Xt )/Xt ). Ainsi que nous l’avons vu au chapitre 3, les incréments sont
pollués par un facteur taille arbitraire contrairement aux rendements qui sont di-
rectement comparables entre eux quelle que soit la valeur initiale de l’actif. Nous
pouvons donc adapter de la manière suivante nos hypothèses de modélisation
d’une action St :
– Ses cours sont continus.
– Ses rendements (St+s − St )/St sont stationnaires.
– Ses rendements sont indépendants des valeurs passées de l’action.
À nouveau, cette liste ne contient pas de suppositions arbitraires, par exemple
sur la loi du mouvement ; elle est constituée uniquement d’hypothèses structu-
relles sur les caractéristiques du mouvement. Si chacune des hypothèses peut
être remise en cause – nous le ferons en particulier aux chapitres 6 et 9 – au-
cune d’entre elles n’est déraisonnable. La continuité des cours semble être une
approximation bénigne car il est toujours possible d’interpoler continûment un
ensemble de points discret (un processus continu qui donne la bonne valeur
des cours, au centime d’euros près, toutes les secondes pourra être considéré
comme un excellent modèle). La stationnarité des rendements signifie que les
lois qui régissent les rendements sont stables dans le temps, ce qui paraît naturel
au moins sur une fenêtre de temps réduite. Les rendements sont indépendants
des valeurs passées car il ne doit pas être possible de prédire l’évolution future à
partir du passé.
Pour ces raisons, ces hypothèses sont largement acceptées dans le milieu
comme les fondements des modèles d’évolution d’actif. Nous avons vu que le
premier jeu de conditions définissant le mouvement brownien est inadapté aux
actifs financiers car associé à une structure additive. Le second jeu de conditions
énumérées ci-dessus définit quant à lui un mouvement lognormal, qui se construit
comme l’exponentielle d’un mouvement brownien. À partir de 3 hypothèses qui
paraissent larges et naturelles, nous avons réduit le champ des modèles possibles
à un seul. Ce mouvement lognormal est en outre très simple à utiliser, ce qui
contribue sans aucun doute à sa popularité.
Considérons un actif St qui suit un mouvement lognormal. Le logarithme
ln(St ) est par définition un mouvement brownien. Son mouvement est donc
décrit par l’équation différentielle stochastique, dérivée de l’équation (5.1) :
d(ln(St )) = mdt + σdWt (5.2)
où Wt est un mouvement brownien standard (de variance 1 à t = 1 et de dérive

nulle).

Il est possible de montrer que cette équation est strictement équivalente à :
⎧
⎨ dS = S × (μdt + σdW )
t t t
(5.3)
⎩ μ = m + σ2
2
Les quant préfèrent généralement la seconde écriture car elle s’interprète

plus facilement : (μdt + σdWt ) est en effet le rendement de l’actif modélisé
sur un pas de temps dt (puisque l’expression dSt /St représente la quantité
(St+dt − St )/St qui est exactement le taux de rendement). Ce rendement contient
deux composantes :
– une composante prévisible associée à la dérive, μdt, qui est le rendement
instantané moyen ;
– une composante aléatoire, σdWt , nulle en moyenne et qui représente la
volatilité du rendement.
F IGURE 5.5. Exemple de processus lognormaux : le graphique présente 2 jeux de 5 tirages de processus
lognormaux (les paramètres m et σ sont ceux définis dans l’équation (5.2)). Les processus progressent en
moyenne de manière exponentielle.
√
On appelle traditionnellement la quantité σ T la volatilité du processus St
sur un horizon de temps T bien que, en toute rigueur, cette quantité représente la
volatilité sur le même horizon de temps du mouvement brownien ln(St ). Dans le
cadre d’un processus lognormal, c’est le seul paramètre qui indique la variabilité
du cours et donc le risque porté par l’actif. Si ce paramètre est nul alors St = eμt :
le mouvement progresse exponentiellement, de manière déterministe, comme un
compte sur livret qui capitalise au taux d’intérêt composé eμ − 1.

Le paramètre μ, qui est le taux de rendement instantané dit taux continu,
est donc également une forme de taux d’intérêt calculé avec une convention
différente du taux d’intérêt composé que nous avions défini au premier chapitre.
Les deux taux sont d’ailleurs liés entre eux par la formule suivante, en notant r le
taux d’intérêt continu et c le taux composé :
er = 1 + c (5.4)
De cette manière, les progressions ert et (1 + c)t sont strictement égales.

La théorie générale que nous allons bâtir, qui repose sur l’exponentielle des
mouvements browniens, utilise plus naturellement les taux continus que les
taux composés, c’est pourquoi nous utiliserons désormais la convention des taux
continus. Dans cette convention, plutôt que d’actualiser par le facteur 1/(1 + c)t ,
nous actualisons par le facteur e−rt . Les deux sont bien strictement égaux dès que
l’égalité (5.4) est respectée. À partir de maintenant, lorsque nous parlerons de
taux d’intérêt, nous supposerons implicitement qu’il s’agit d’un taux continu.
3 Valorisation sous le modèle de Black-Scholes

Le modèle lognormal d’évolution des actifs que nous venons de décrire est
le célèbre modèle de Black-Scholes. Au-delà de la description théorique du
processus, il nous faut maintenant entrer dans les questions essentielles des
mathématiques financières : comment, à partir d’un modèle d’évolution des
actifs, donner un prix aux différents produits financiers ? Deux méthodes sont
couramment utilisées dans le cadre du modèle de Black-Scholes, nous allons les
étudier.
3.1 La mesure risque neutre
Dans notre modèle de Black-Scholes, le log-rendement ln(St ) est un mouvement

brownien de dérive m et de volatilité σ, il est donc la limite d’un arbre binomial
régulier du type de la figure 5.1. Aussi, pour passer au mouvement lognormal, il
suffit d’appliquer la fonction exponentielle aux arbres étudiés précédemment. En
notant St = e Bt , le passage à l’exponentielle de l’arbre de la figure 5.3 conduit à
l’arbre de la figure 5.6.
Au chapitre précédent, nous avions vu que la valorisation des produits
financiers est simple dans le cadre des arbres binomiaux : le prix est unique
et il peut se calculer comme la moyenne des valeurs futures sous la mesure risque
neutre. Cette mesure risque neutre est la probabilité fictive sous laquelle les prix
des actifs sont des martingales.

F IGURE 5.6. Nœud d’un arbre binomial convergeant vers un mouvement lognormal de paramètres m et σ
lorsque le pas de temps dt tend vers 0. Cet arbre permet ainsi d’approcher le mouvement lognormal par un
processus discret de pas de temps infinitésimal.
Nous avions jusque-là négligé les taux d’intérêt, nous allons les réintégrer
mais sans prendre en compte leur structure par maturité (cf. chapitre 1). Notons
donc r le taux d’intérêt continu. Pour calculer la mesure risque neutre équivalente
dans l’arbre 5.6, il faut donc trouver la probabilité p∗ pour laquelle le prix moyen
futur actualisé de l’actif est égal à sa valeur initiale. Il suffit de transformer notre
phrase en équation :
√ √
p∗ St eσ dt + (1 − p∗ )St e−σ dt e−rdt = St (5.5)
√ √
Dans√
cette équation p∗ St eσ dt + (1 − p∗ )√St e−σ dt est le prix moyen futur
(St × eσ dt avec une probabilité p∗ et St × e−σ dt avec une probabilité 1 − p∗ ), ce
prix est divisé par erdt pour tenir compte de l’actualisation ; ce prix futur moyen
actualisé doit être égal à la valeur initiale, c’est-à-dire St . Le calcul montre que
(au premier ordre) :
1 r − σ2 /2 √
p∗ = + dt (5.6)
2 2σ
La probabilité risque neutre p∗ a exactement la même forme que la probabilité
originale p, nous avons juste eu à remplacer m par r − σ2 /2. Ce point est parti-
culièrement intéressant car si on laisse tendre le pas de temps dt vers 0, l’arbre
binomial convergera vers un mouvement lognormal de dérive annuelle r − σ2 /2
(et non plus m) et de volatilité σ.
Cela laisse penser que, sous une mesure risque neutre, l’actif suivra un
mouvement lognormal de dérive annuelle r − σ2 /2 et de volatilité annuelle σ.
Non seulement ce résultat est vrai, mais en outre, la mesure risque neutre
est unique : le modèle lognormal est complet au sens où il existe une unique
mesure risque neutre. Sous la mesure risque neutre, le taux de rendement moyen

(paramètre μ dans l’équation (5.3)) de l’actif est (r − σ2 /2) + σ2 /2 = r, c’est le
taux sans risque. Il n’y a donc pas de prime de risque sous la mesure risque
neutre, le rendement moyen d’un actif sera toujours r, quel que soit son risque σ.
Connaître la loi d’évolution d’un actif sous la mesure risque neutre est très
précieux : comme nous l’avons vu au chapitre précédent, cela permet de calculer
le prix de n’importe quel produit dérivé.
Prenons l’exemple d’un produit financier, l’option d’achat, que l’on appelle
traditionnellement call. C’est un produit financier qui verse, au temps T, 0 si
l’action est en dessous d’un seuil K et la différence ST − K sinon. Le temps T
est nommé échéance du call et le seuil K est son strike. Nous cherchons donc à
valoriser ce call.
Encadré 5.1. Les options, les call, les put.

Une option est un produit financier offrant à son détenteur la possibilité, mais non
l’obligation, d’acheter ou de vendre, à une date donnée et à un prix K fixé à l’avance,
un autre produit financier. Le seuil K est appelé prix d’exercice, ou plus souvent strike.
Les options d’achat sont appelées des call et les options de vente des put. Ainsi, un call
d’échéance T et de strike K octroiera à son détenteur le droit d’acheter une action au prix
K même si le cours de l’action en T est différent de K. Notant ST le cours de l’action à
l’échéance T :
– Si ST > K alors le détenteur exercera le call car cela lui rapportera un gain de
ST − K.
– Sinon, le détenteur n’exercera pas le call car il serait irrationnel d’acheter au prix K
ce que l’on pourrait acheter moins cher (ST < K).
Au final, l’option d’achat rapporte à l’échéance max(ST − K; 0).
Plaçons-nous dans le cadre du modèle de Black-Scholes et supposons que

l’action suit, sous la probabilité réelle, un processus lognormal de volatilité
annuelle σ, peu importe sa dérive. Notons r le taux d’intérêt continu. Le prix de
l’option est l’espérance de ses flux futurs actualisés sous la probabilité risque
neutre. La probabilité risque neutre étant unique dans ce modèle, il est possible de
calculer un prix unique. Sous cette mesure risque neutre, l’action suit un processus
lognormal de rendement instantané r et de volatilité σ : d(St )/St = rdt + σdWt .
Cette équation peut se réécrire d(ln(St )) = (r − σ2 /2)dt + σdWt pour mettre en
valeur le caractère brownien du processus ln(St ). En particulier, au temps T, la
variable aléatoire√ln(ST ) est une loi normale de moyenne ln(S0 ) + (r − σ2 /2) × T
et d’écart type σ T. Ainsi, le prix de l’option est l’espérance :

E max e X − K; 0 e−rT (5.7)

Dans cette équation,
√ X suit une loi normale de moyenne ln(S0 )+(r − σ2 /2)× T
et d’écart type σ T. Nous verrons au chapitre 7 comment résoudre numérique-
ment ce type d’équation. Dans ce cas particulier, il est possible de calculer une
formule explicite. Cette formule étant assez longue, nous ne la présenterons
pas ; en revanche des valeurs numériques du prix d’un call dans le modèle de
Black-Scholes sont représentées dans le graphique 5.7.
F IGURE 5.7. Prix d’un call dans le modèle de Black-Scholes en fonction de la valeur initiale S0 de l’action
dans différentes configurations de paramètres.
Le prix de l’option ne dépend pas du rendement prévisionnel de l’action. C’est

un aspect essentiel du modèle de Black-Scholes, et des mathématiques financières
en général que nous avons déjà vu dans le cadre de l’arbre binomial où les prix
des produits financiers ne dépendaient pas des probabilités de hausse ou de
baisse. Sous la mesure risque neutre, tous les produits financiers progressent en
moyenne au taux sans risque, il n’y a pas de prime de risque.
En résumé, nous avons vu que :
– Dans le modèle de Black-Scholes, il est possible de déterminer l’unique
mesure risque neutre ; cela se fait simplement en remplaçant le rendement
prévisionnel des actifs μ par le taux sans risque r.
– Le prix des produits financiers se calcule alors grâce à une formule ma-
thématique (espérance des prix futurs actualisés sous la probabilité risque
neutre) que nous apprendrons à résoudre numériquement au chapitre 7.
– Pour certains produits simples comme les call, il existe une équation expli-
cite de valorisation que nous avons représentée numériquement dans le
graphique 5.7.

3.2 Le delta hedge
Nous allons voir dans cette section une deuxième méthode de valorisation des
produits financiers sous le modèle de Black-Scholes, la méthode du delta hedge.
Les deux techniques conduisent bien sûr au même prix, mais les deux apportent
un éclairage différent sur le modèle.
L’idée du delta hedge est de neutraliser le risque en couvrant l’actif, c’est-à-dire
que l’on cherche à acheter un second actif, appelé la couverture, dont le risque va
en sens contraire. Par cette construction, le portefeuille constitué de l’actif et de
sa couverture évolue de manière déterministe, sans variabilité. Le prix d’un tel
portefeuille pourra alors se calculer facilement, cela permettra de déterminer le
prix de l’actif que l’on cherche à valoriser. Nous avons donc expliqué la partie
hedge du delta hedge : to hedge signifie esquiver dans le langage courant en anglais,
ce que l’on traduit dans le vocabulaire financier par couvrir.
Que signifie alors « delta » ? Nous allons le comprendre en passant encore
une fois par les arbres binomiaux. Appelons Π le produit financier à valoriser, ce
dernier étant construit à partir d’une action de référence S. Les prix à un instant t
du produit et de l’action sont notés Πt et St : nous allons tenter de couvrir le
produit Πt en détenant une proportion αt de l’action. Nous voulons que le risque
soit neutralisé, c’est-à-dire que Πt + αt St évolue de manière déterministe.
F IGURE 5.8. Évolution d’un produit financier Πt dans un arbre binomial de pas dt. Vu de t, le produit
financier Π a deux possibilités d’évolution en t + dt, Π+ −
t ou Πt , selon l’évolution de l’action de référence S.
Voyons comment faire dans le cas de l’arbre binomial 5.8. L’objectif recherché
est que Πt + αt St soit sans incertitude (sans ambiguïté sur la valeur future),
c’est-à-dire :
Π+ + − −
t + α t St = Π t + α t St (5.8)

En d’autres termes :
Π+t − Πt
−
αt = − (5.9)
St+ − St−
Cette expression a un sens physique précis : c’est la variation du prix du
produit Π induite par la variation du prix de l’action sous-jacente S. Autrement
dit, il s’agit de la dérivée de Π par rapport à S. Les expressions différentielles,
de type dérivée ou variation sont traditionnellement notées Δ, d’où l’origine du
terme delta.
Formellement, le prix d’un produit financier dépend de plusieurs paramètres
dont la valeur de l’action sous-jacente S, le temps t, les taux d’intérêt, etc. Nous
noterons donc Πt (S, r, ...) ce prix que l’on cherche à calculer. À chaque instant t,
il est possible de calculer théoriquement la dérivée de Πt (S, r, ...) par rapport à
S que l’on appelle le delta, noté Δt , du produit. Les valeurs de cette dérivée sont
inconnues à ce stade (puisque Πt (S, r, ...) est lui-même inconnu), nous ne faisons
que constater l’existence théorique de Δt :
∂Πt (S, r, ...)
Δt = (5.10)
∂S
Il est alors possible de démontrer – nous l’avons illustré avec les arbres bino-
miaux – que le portefeuille constitué d’un produit financier Πt et de −Δt actions,
évolue sans risque dans le modèle de Black-Scholes. Notons temporairement ηt
le taux de rendement du portefeuille. Ce taux de rendement est certain, il n’y a
pas de variabilité autour de ce taux puisque le risque a été neutralisé grâce au
delta hedge. Le rendement ηt ne peut être que le taux d’intérêt r, sinon, il y aurait
une opportunité d’arbitrage. En effet, si ηt > r, il est possible d’emprunter une
somme au taux d’intérêt r pour la placer au taux de rendement ηt : cela constitue
un arbitrage. Réciproquement, si ηt < r, il faut vendre une portion du portefeuille
puis placer le fruit de la vente au taux r : c’est également un arbitrage. Dans un
monde sans arbitrage, nous avons nécessairement ηt = r. Ce raisonnement se
traduit dans l’équation suivante :
Πt+dt (St+dt , r ) − Δt St+dt = erdt (Πt (St , r ) − Δt St ) (5.11)
En effet, la partie Πt+dt (St+dt , r ) − Δt St+dt est le prix du portefeuille à t + dt ;

il est égal au prix initial du portefeuille (Πt (St , r ) − Δt St ) capitalisé au taux
continu r pendant la durée dt. Nous ne détaillerons pas les calculs qui, partant de
l’équation (5.11), mènent à une équation aux dérivées partielles célèbre, l’équation
de Black-Scholes :
∂Πt ∂Πt 1 2 2 ∂2 Πt
+ rSt + σ St = rΠt (5.12)
∂t ∂S 2 ∂S2

Il n’est pas nécessaire, ni utile pour la suite du livre, de comprendre cette
équation. L’idée importante est qu’elle peut être résolue numériquement, per-
mettant ainsi de calculer le prix de produits financiers. Nous retiendrons donc
que :
– Dans le modèle de Black-Scholes il est possible de neutraliser le risque des
produits financiers.
– Pour ce faire, il suffit de couvrir le produit avec son delta hedge.
– Cette méthode permet de calculer le prix des produits financiers.
La possibilité de neutraliser le risque dans le modèle de Black-Scholes est
intimement liée à la possibilité de répliquer les produits dans les arbres binomiaux
(cf. chapitre 4). Cela est possible car le modèle est complet, il existe autant de
sources de variabilité que de possibilités de réplication/couverture du risque.
C’est aussi cette complétude qui garantit l’unicité de la mesure risque neutre et
donc du prix.
Le modèle de Black-Scholes est riche et efficace. Il est la conséquence d’un
jeu d’hypothèses naturelles et intuitives. Il peut être approché par des arbres
binomiaux ce qui le rend très intuitif et facile d’accès. Il est complet, ce qui
permet de valoriser les produits financiers, de les couvrir et de les répliquer. Il
se construit à partir de lois normales dont les mathématiciens ont l’habitude
et qu’ils manipulent facilement. Le prix des options standards, tels les call, se
calculent par une formule simple. Pour toutes ces raisons, c’est le modèle de base
des mathématiques financières.
4 La volatilité implicite
Malheureusement, le modèle de Black-Scholes ne s’adapte pas exactement à la
réalité. Les call que nous avons décrits ci-dessus sont des produits cotés sur les
marchés, il est donc possible de comparer les prix du marché des call aux prix
du modèle de Black-Scholes pour une action donnée et pour différents niveaux
de strike et dates d’échéance. Cette comparaison aboutit invariablement à la
conclusion suivante : il n’existe pas de paramètres d’entrée (r, σ) du modèle
de Black-Scholes qui permettent de retrouver les prix de tous les call cotés sur
le marché pour une action donnée. Il ne peut y avoir qu’une seule cause de ce
constat : l’évolution des actions anticipée par les marchés n’est pas un mouvement
lognormal, les hypothèses du modèle de Black-Scholes sont incorrectes.
Le graphique 5.9 montre effectivement que le modèle de Black-Scholes est
faux, mais il demeure tout de même une première approximation des prix. En
outre, le fait d’avoir un modèle est très utile pour la gestion des risques, cela sert
à l’interprétation du mouvement (décomposition en effet dérive et effet volatilité),

F IGURE 5.9. Prix de call sur le CAC 40 en fonction du strike, tels qu’observés sur les marchés (courbe
verte) et tels que calculés par le modèle de Black-Scholes (courbe brune). Le prix du modèle diffère du prix
effectivement constaté sur les marchés.
à calculer le Δ et d’autres indicateurs de mesure des risques... Enfin, ce modèle

présente de nombreux avantages cités ci-dessus. Son principal inconvénient, qui
n’est pas mineur, est donc de ne pas valoriser correctement les options cotées sur
le marché.
Pour pouvoir continuer à utiliser le modèle il faut donc forcer le bon prix,
ce que les trader font en jouant sur les paramètres d’entrée du modèle. Le taux
sans risque peut être observé sur les marchés (malgré toutes les difficultés que
cela comporte), il ne fait donc pas partie des clés d’ajustement des prix. Il reste
donc la volatilité. Étant donné un taux d’intérêt r, la formule de valorisation
des call du modèle de Black-Scholes peut être vue comme une fonction bijective
de la volatilité dans l’ensemble des prix. Le phénomène est illustré dans le
graphique 5.10 ci-dessous.
F IGURE 5.10. Prix d’un call dans le modèle de Black-Scholes en fonction de la volatilité : quel que soit le
prix, il est possible de trouver une volatilité σ associée à ce prix.

En d’autres termes, étant donné un call dont le prix est π, il est toujours
possible de calculer une volatilité σπ pour laquelle le prix Black-Scholes du call
est bien π. Cette volatilité σπ est appelée la volatilité implicite. Pour reprendre
[Joshi 2008], la volatilité implicite est le mauvais paramètre d’entrée du mauvais
modèle qui donne le bon prix.
F IGURE 5.11. Volatilité implicite en fonction du strike (skew de volatilité). Le graphique représente pour
chaque niveau de strike le paramètre de volatilité σ qui permet de retrouver le prix de marché de la figure 5.9.
Chaque call coté sur le marché aura sa propre volatilité implicite, qui dépen-
dra donc de la date d’échéance et du strike du call. Si le modèle de Black-Scholes
était valide, la volatilité ne dépendrait que de l’action sous-jacente : il est théo-
riquement difficilement justifiable de dire qu’une action suivra un mouvement
lognormal de volatilité 10 % pour étudier le call d’échéance 1 an et de strike 95 et
que cette même action suivra un mouvement lognormal de volatilité 15 % pour
étudier le call de même échéance et de strike 105. C’est pourtant bien ce que l’on
fait pour adapter le modèle à la réalité du marché.
Une action donnée n’a donc pas une volatilité implicite σ unique, mais une
surface de volatilité σ( M, K ) qui dépend de l’échéance M et du prix d’exercice K
du call sous-jacent. À une échéance donnée, la fonction K → σ ( M, K ) peut avoir
une forme en U qui ressemble à un sourire, on parle de smile de volatilité, ou une
forme en pente descendante, on parle dans ce cas de skew de volatilité. Le gra-
phique 5.11 représente le skew de volatilité associé aux données du graphique 5.9.
La forme de la courbe des volatilités implicites associées à une échéance T

nous renseigne sur la loi de probabilité risque neutre de ST qui est anticipée par les
marchés. Dans sa forme la plus simple, la volatilité implicite est constante ce qui
signifie que les marchés pensent que ST suit une loi lognormale (l’exponentielle
d’une loi normale). Lorsque cette courbe devient, comme dans le graphique 5.9,

F IGURE 5.12. Ces graphiques présentent à gauche les densités de probabilité du sous-jacent à l’échéance
de l’option et à droite les courbes de volatilités implicites qui en sont déduites. La courbe de volatilité implicite
déduite d’une densité lognormale est sans surprise une droite puisque la distribution terminale est censée
être lognormale dans le modèle de Black-Scholes. Le passage à une densité plus étalée à gauche donne
une forme de pente descendante à la volatilité implicite que l’on appelle le skew de volatilité : dans cette
configuration, les variations négatives de forte amplitude sont plus probables alors que les variations positives
du cours restent de plus faible amplitude. Par conséquent, les options de strike faible ont tendance à être plus
chères tandis que les options de strike élevé le sont moins. Le passage à une densité plus étalée à droite
et à gauche, c’est-à-dire présentant des variations de fortes amplitudes plus probables et des variations de
faibles amplitudes moins probables, accroît la convexité de la courbe des volatilités implicites : c’est le smile
de volatilité. Comme les valeurs extrêmes du sous-jacent sont plus probables, les prix des options de strike
extrêmes sont plus élevés.
une pente descendante, cela signifie que les marchés considèrent qu’il y a plus
de variabilité en cas de baisse de l’action qu’en cas de hausse : la distribution de
probabilité de ST anticipée par les marchés est dissymétrique ; elle sur-pondère,
relativement à la loi lognormale, les probabilités de baisse importante des cours.
Dans le cas d’un smile de volatilité, ce sont les deux côtés de la distribution qui
sont sur-pondérés : cela signifie que le marché anticipe que les variations de forte
amplitude sont plus probables que celles de la loi lognormale ; réciproquement,
les variations de faible amplitude sont considérées moins probables. Ce lien entre
la forme de la courbe des volatilités implicites et la distribution de probabilité du
cours du sous-jacent est illustré dans la figure 5.12.
Ces trois formes de volatilités implicites (constante, skew, smile) sont

couramment observées sur les marchés. Pour s’en convaincre, regardons le
graphique 5.13 qui représente la volatilité implicite du CAC, constatée le
27 juillet 2011, pour différents strike et dates d’échéance. Il en résulte une surface
que l’on appelle traditionnellement la nappe de volatilité implicite. Notons en
particulier que le smile puis le skew de volatilité implicite s’atténuent pour les
échéances lointaines, ce qui montre que les trader considèrent que les hypothèses
de Black-Scholes sont plus acceptables sur le long terme que sur le court terme.

F IGURE 5.13. Nappe des volatilités implicites du CAC 40. Pour les échéances courtes, de l’ordre de 1 mois,
les courbes rendent compte d’un smile de volatilité, c’est-à-dire d’une courbe de volatilité implicite convexe.
Ensuite, la surface se déforme en une simple pente qui matérialise des skew de volatilité. Sur les échéances
plus lointaines, la surface se redresse et la volatilité implicite associée à une date d’échéance donnée semble
quasi constante.
La volatilité implicite permet ainsi d’adapter le modèle de Black-Scholes aux

réalités du marché tout en offrant une interprétation intuitive des différentes
formes de la nappe des volatilités implicites. Cependant, rappelons que la
volatilité implicite ne reste qu’un artifice de calcul et ne constitue pas un modèle
cohérent car elle suppose qu’une même action ne suit pas la même loi selon les
caractéristiques (strike, échéance) du produit à valoriser. Il existe de nombreux
modèles qui affinent le modèle de Black-Scholes pour tenter de résoudre ce
problème ; ceux-ci font l’objet du prochain chapitre.

6 Modèles de volatilité
Le chapitre précédent nous a appris que la volatilité implicite est le mauvais
paramètre d’entrée du mauvais modèle qui donne le bon prix. Nous pourrions
arrêter la réflexion à ce constat et considérer que toute tentative d’analyse et de
modélisation de la volatilité ne relèverait que de la curiosité intellectuelle ou
d’un raffinement superflu. Après tout, il suffit que les trader soient en mesure de
s’entendre sur les prix des options : le modèle de Black-Scholes et la volatilité
implicite permettent de répondre à cet objectif. Pourtant, les acteurs des marchés
et les quant n’ont eu de cesse, depuis l’apparition pour la première fois d’un smile
sur les marchés action après le krach de 1987, de tenter d’en comprendre les
raisons économiques et d’en déduire une modélisation.
Les raisons en sont simples : les trader, les quant et les autres acteurs du
marché ne se contentent pas de la simple bijection prix ↔ volatilité implicite ; ils
souhaitent comprendre les mécanismes de formation des surfaces de volatilités
implicites pour mieux cerner les risques et rentabilités des stratégies mises en
place ou, tout simplement, construire de nouveaux modèles visant à valoriser des
produits dérivés plus complexes. La première section de ce chapitre sera donc
consacrée à montrer l’utilisation qui peut être faite du seul paramètre de volatilité
implicite et son insuffisance dans le cadre de la valorisation d’options complexes.
Nous aborderons ensuite les deux principales familles de modèles de volatilité
dont nous présenterons les grands principes, les forces et les faiblesses :
– les modèles à volatilité locale, popularisés par les travaux de [Derman et
Kani 1994] et [Dupire 1994], qui tentent de modéliser la volatilité comme
une fonction déterministe du temps et du niveau du sous-jacent ;
– les modèles à volatilité stochastique qui décrivent la volatilité comme
la résultante d’un nouveau facteur aléatoire, dont fait partie le modèle
de [Heston 1993] que nous détaillerons.
Comme nous le verrons, les performances de ces classes de modèles ne font
aujourd’hui pas consensus. En conséquence, la modélisation de la volatilité
constitue un des sujets les plus dynamiques et controversés des mathématiques
financières actuelles.
1 Valorisation avec les volatilités implicites*

Récapitulons ce que nous savons de la volatilité et de la volatilité implicite :
– La volatilité implicite est le paramètre de volatilité en entrée du modèle
de Black-Scholes qui permet de retrouver les prix des call observés sur le
marché.
– Dans le modèle de Black-Scholes, le paramètre de volatilité est censé être la
volatilité que subira le sous-jacent avant la date d’exercice de l’option.
À ce stade, la volatilité implicite ne nous permet donc que de valoriser des
produits dont nous connaissons déjà le prix ! Or, les modèles n’ont d’intérêt que
s’ils permettent de calculer les prix d’autres options qui ne sont pas, quant à
elles, directement cotées sur un marché organisé. Peut-on utiliser notre nappe
des volatilités implicites pour valoriser d’autres types d’options ?
Commençons par le cas simple des options de vente, les put. Nous allons
démontrer une équation importante en finance, la relation de parité call-put, qui
permet de lier le prix d’un call et le prix d’un put de même strike K et de même
date d’échéance T. Notons r le taux sans risque, St la valeur du sous-jacent à date
t et construisons deux portefeuilles A et B de la manière suivante :
– Le portefeuille A est constitué de la somme d’argent Ke−rT , qui est investie
au taux sans risque, et d’un call de prix PrixCall.
– Le portefeuille B est constitué de l’action sous-jacente, valant S0 à l’initiation
du portefeuille, et d’un put de prix PrixPut.
À la date d’échéance des deux options, en T, les deux portefeuilles dégageront
le même gain, ce que le lecteur sceptique peut vérifier aisément. Ainsi, afin de
respecter le principe de non-arbitrage, les deux portefeuilles auront nécessaire-
ment la même valeur à tout instant. À la date t = 0, cette affirmation se traduit
mathématiquement par l’égalité suivante :
PrixCall + Ke−rT = PrixPut + S0 (6.1)
La relation (6.1) est ce que l’on appelle la parité call-put. Celle-ci ne dépend
d’aucune hypothèse de modélisation, elle doit donc être vérifiée dans tout modèle,
106 Chapitre 6. Modèles de volatilité

dont celui de Black-Scholes, mais également par les prix réels des options. En
conséquence :
⎧
⎨ PrixCall + Ke−rT = PrixPut + S
réel réel 0
⎩ PrixCallBS + Ke−rT = PrixPutBS + S0
Cela induit : PrixCallréel − PrixCallBS = PrixPutréel − PrixPutBS . Cette der-

nière relation permet de confirmer que la volatilité implicite du call – c’est la
volatilité Black-Scholes annulant le membre de gauche – sera égale à la volatilité
implicite du put. Ce résultat important permet de démontrer l’unicité de la nappe
des volatilités implicites des put et des call : la nappe des volatilités implicites
peut donc être construite indifféremment à partir du prix des call ou de ceux
des put.
Nous n’avions jusqu’ici défini que les options simples, dites « vanilles » dans le
jargon financier, mais le spectre des options vendues sur les marchés financiers est
très large, les produits les plus complexes étant souvent qualifiés d’« exotiques ».
Effectuons un bref tour d’horizon des options financières les plus habituelles
(cf. [Hull 2011] pour une revue plus complète et détaillée) :
– Les options européennes. Ce sont des produits financiers dont la valeur
à l’échéance est une fonction de la valeur de l’action à cette date ; cette
fonction est appelée payoff. Parmi elles, on peut citer :
• Les call (option d’achat) qui reviennent de manière récurrente dans ce
livre pour illustrer nos propos.
• Les put (option de vente) qui sont les pendants des call et dont le payoff
est max(K − ST ; 0).
• Les options binaires dont le payoff vaut 1 ou 0 selon que l’actif est au-
dessus ou en dessous du strike K. Par exemple, le payoff d’une option
binaire peut être 1 si ST > K et 0 sinon.
– Les options asiatiques. Pour ces options, le payoff ne dépend pas de la
valeur de l’action ST à l’échéance mais de la moyenne des valeurs passées
de l’action. Tous les payoff peuvent être déclinés en options asiatiques.
– Les options américaines. Le payoff d’une option européenne n’est valable
qu’à l’échéance ; pour une option américaine au contraire, le détenteur de
l’option peut à tout moment choisir d’exercer son option, c’est-à-dire de
réaliser le payoff. Ainsi, un call américain donne le droit à son porteur de
recevoir max(St − K; 0) à n’importe quel moment t de la vie de l’option
(mais le porteur ne peut réclamer ce droit qu’une seule fois).
– Les options à barrières. Les barrières sont des seuils qui activent ou désac-
tivent l’option si le cours de l’action passe au-dessus ou au-dessous du
seuil. L’exercice de l’option peut être tout autant européen qu’américain ;

le cas asiatique est plus rare pour les options à barrières, mais cela est en
théorie parfaitement possible. Par exemple :
• Un call européen à barrière désactivante à la hausse servira le payoff du
call à l’échéance de l’option sauf si l’action sous-jacente a dépassé la
barrière au cours de la vie de l’option, auquel cas l’option ne vaut plus
rien.
• Un put américain à barrière activante à la hausse donnera la possibilité
à son porteur de recevoir le payoff max(K − St ; 0) à tout moment de la
durée de vie de l’option à condition que le cours de l’actif sous-jacent St
ait préalablement dépassé la barrière.
– Les options à départ forward. Pour ces options, le strike n’est pas fixé en
valeur absolue à l’avance mais sera défini à un instant intermédiaire, en
fonction de la valeur de l’actif sous-jacent. Par exemple, cela peut être un
call européen dont le payoff à l’échéance T sera max(ST − Sτ ; 0) où τ est la
date du départ forward (τ < T).
Nous avons donc vu les cas des call et des put, continuons avec les options
binaires. Comme dans le cas des put, indépendamment de toute supposition
quant à l’évolution du sous-jacent, le prix des options binaires peut se déduire du
prix des call. Considérons une option binaire d’achat de strike K et d’échéance T
et étudions la stratégie visant à acheter (1/) call de strike (K − ) et à vendre
(1/) call de strike K. À l’échéance T, le résultat d’une telle stratégie est :
⎧
⎪
⎨ 0 si ST < K −
⎪
ST −K + ST −K +
si K − < ST < K, sachant que dans ce cas 0 < <1
⎪
⎪

⎩
1 si ST > K
Ce résultat ressemble de très près à l’option binaire considérée, sauf pour les
valeurs de ST comprises entre K − et K. Ainsi, pour suffisamment petit, nous
pouvons considérer que la stratégie réplique bien l’option binaire, son coût de
mise en place doit donc être le prix de l’option binaire. En appelant PrixCall( x )
le prix d’un call de strike x, le prix de l’option binaire d’achat de strike K est :
PrixCall(K −)−PrixCall(K )
PrixBin(K ) = lim→0
(6.2)
(K )
= − ∂PrixCall
∂K
La connaissance de la nappe des volatilités implicites, qui est équivalente à la

connaissance des prix des call, nous permet donc de valoriser sans ambiguïté les
options binaires, moyennant le contournement de l’écueil présenté en figure 6.1.

Ces options binaires sont particulièrement intéressantes car elles sont directement
liées à la distribution de probabilité risque neutre du sous-jacent ST . Rappelons
en effet que sous la mesure risque neutre, le prix de tout actif est l’espérance de
ses valeurs futures actualisées. Or, l’option binaire vaut à l’échéance 1 si ST > K
et 0 sinon : l’espérance de sa valeur à l’échéance est par définition la probabilité
que ST soit plus grand que K. En notant P(.) la probabilité sous la mesure risque
neutre, nous venons d’identifier que :
PrixBin(K ) = e−rT P(ST > K ) (6.3)
F IGURE 6.1. Valorisation d’une option binaire en présence d’un smile de volatilité. L’utilisation naïve de la
formule de valorisation des call de Black-Scholes conduit à un résultat biaisé car la volatilité implicite dépend
du niveau du strike. La valorisation correcte nécessite donc d’avoir lissé ou interpolé les points existants en
une surface de volatilité continue.
Les deux équations précédentes, (6.2) et (6.3), sont centrales dans notre
construction : elles nous montrent comment, en partant de la nappe des volatilités
implicites, déduire la distribution risque neutre de ST à tout instant T. Or,
connaître la distribution risque neutre de ST à tout instant T suffit naturellement à
valoriser toutes les options européennes puisque ce prix est l’espérance actualisée

des payoff. Nous pouvons achever notre raisonnement en fermant la boucle :
connaître la distribution risque neutre de ST à tout instant T permet de valoriser
tous les call et donc de calculer la nappe des volatilités implicites σ(K, T ) pour
toute échéance T et tout strike K. En d’autres termes, nous venons de démontrer
l’équivalence remarquable entre les assertions suivantes :
1. Connaître la nappe des volatilités implicites σ (K, T ) pour toute échéance T
et tout strike K.
2. Connaître le prix des call quels qu’en soient l’échéance T et le strike K.
3. Connaître le prix de toutes les options européennes, de toute échéance et
tout payoff.
4. Connaître, à tout instant T, la distribution risque neutre de ST .
Concrètement, nous pouvons observer sur les marchés les prix de certains call
et de certains put, dont nous avions vu que les nappes de volatilités implicites
étaient identiques. L’exercice du quant qui souhaite en déduire le prix de toutes les
autres options européennes consistera donc à bâtir une surface σ(K, T ) continue
à partir des points de volatilité observés. Comme pour la construction de la
courbe des taux étudiée au chapitre 1, la modélisation peut être conduite par
des techniques d’interpolation par morceaux ou par l’utilisation d’une surface
paramétrique. Dans tous les cas, une incertitude demeure sur les points de
volatilité non observés, celle-ci étant d’autant plus importante que les volatilités
implicites calculées seront loin des points observés. Les équivalences théoriques
démontrées précédemment devront donc dans la pratique être modulées ; la
réalité des faits est plus proche de la démarche suivante :
– Nous connaissons quelques points de volatilité implicite σ(K, T ) par l’ob-
servation des transactions réalisées sur les call et les put.
– Nous pouvons en inférer une nappe continue de volatilités implicites
σ (K, T ) pour tout strike K et toute échéance T.
– Les choix des volatilités implicites σ(K, T ) pour les strike extrêmes et les
échéances lointaines sont entièrement arbitraires.
– Nous pouvons calculer le prix de toutes les options européennes mais
avec une incertitude d’autant plus forte que leur prix sera sensible aux
événements extrêmes ou lointains.
– Les prix des options à payoff discontinu qui nécessitent le calcul de dérivées,
comme dans l’équation (6.2), sont également très dépendants du modèle
choisi.
Il convient de noter que le marché des options binaires est également devenu
relativement liquide, les prix de ces options sont donc devenus observables.
De ce fait, il est possible de déduire les distributions de probabilité des cours

directement à partir de l’observation du prix des options binaires plutôt qu’à
partir des nappes de volatilités implicites des call et des put.
Nous pouvons d’ores et déjà comptabiliser deux handicaps majeurs de la
valorisation par les nappes de volatilités implicites. Le premier a été abordé au
chapitre précédent : les volatilités implicites ne donnent pas un modèle cohérent
d’évolution des actifs et constituent plutôt un artifice de calcul. Le second que
nous venons de voir et qui est propre à toute modélisation est l’incertitude sur les
prix que l’on pourra calculer en pratique. Cette incertitude est constitutive de ce
que l’on appelle généralement le risque de modèle et donne lieu à des provisions
spécifiques dans les comptes des banques. La juste évaluation de ce risque de
modèle est un exercice difficile et par nature subjectif dans les hypothèses qui
sont à utiliser. L’évaluation réalisée en pratique est donc toujours critiquable,
soit par ceux qui pensent que les banques ne sont pas assez prudentes dans les
réserves qu’elles constituent pour faire face au risque et à l’incertitude, soit par
ceux qui pensent que ces mécanismes de provisionnement sont sur-évalués et
nuisent à la compétitivité des banques et à l’efficacité des marchés.
Terminons la section sur un troisième handicap. À part les options euro-
péennes, aucune des autres options listées ci-dessus ne peut être valorisée direc-
tement par les nappes de volatilités implicites. En effet, celles-ci nous renseignent
sur la distribution de ST à tout instant T mais pas sur le chemin pris par le sous-
jacent pour y parvenir. Pour s’en convaincre, supposons qu’il n’existe que deux
échéances T1 et T2 et considérons deux variables aléatoires X et Y qui suivent la
même loi de probabilité. Imaginons deux situations :
– Cas 1 : L’action vaut X à T = T1 et toujours X à T = T2 .
– Cas 2 : L’action vaut X à T = T1 et Y à T = T2 .
Dans les deux cas, les distributions de ST1 et de ST2 sont identiques puisque
X et Y suivent par construction la même loi de probabilité. Ces deux modèles
donneront donc les mêmes prix à toutes les options européennes et conduiront
donc à la même nappe de volatilités implicites. Pourtant, ces deux modèles n’ont
rien à voir entre eux : dans le premier l’action n’évolue pas entre T1 et T2 alors que
dans le second la valeur de l’action à T1 est indépendante de sa valeur à T2 . Toutes
les options dont la valeur terminale dépend conjointement de ST1 et ST2 auront
un prix différent dans les deux cas, sauf hasard particulier. Il est ainsi impossible
que l’on puisse déduire des nappes de volatilités implicites les prix des options
non européennes, sauf à poser des hypothèses supplémentaires. La valorisation
de ces options nécessite donc le développement de nouveaux modèles qui sont
appelés modèles de volatilité car ils visent à établir un cadre universel décrivant
la volatilité du sous-jacent et permettant de valoriser de façon cohérente tout
type d’options.

2 Modélisation de la volatilité*
Le modèle élaboré par Black et Scholes ne décrit pas correctement le comporte-
ment des sous-jacents tel qu’anticipé par les trader. Si tel était le cas, aucun smile
ou skew de volatilité ne serait observé. Partant de ce constat, deux alternatives
sont possibles :
– remettre en cause fondamentalement le cadre gaussien, ce que nous ferons
au dernier chapitre de cet ouvrage ;
– conserver le cadre gaussien tout en modifiant l’hypothèse selon laquelle la
volatilité des cours est constante.
Les modèles de volatilité que nous allons présenter par la suite découlent
de cette seconde alternative. Partons de l’équation de diffusion risque neutre de
Black-Scholes désormais bien connue du lecteur :
dSt = St × (rdt + σdWt ) (6.4)
Rappelons que, dans cette équation, dSt représente la quantité infinitésimale

St+dt − St , autrement dit l’accroissement du cours du sous-jacent. Cet accroisse-
ment est guidé par deux composantes, la première St rdt est la dérive déterministe
proportionnelle au taux sans risque ; la seconde St σdWt ≈ St σ (Wt+dt − Wt ) est
la perturbation aléatoire proportionnelle à la volatilité σ. Il faut savoir que des
difficultés techniques se cachent derrière cette équation d’apparence simple. La
formulation rigoureuse de cette équation passe par la définition de l’intégration
au sens d’Itô que le lecteur mathématicien peut approfondir dans [Le Gall 2011].
Remettre en cause l’idée que σ est une constante peut s’aborder de différentes
manières. Il est tout d’abord possible de considérer que la volatilité est une
fonction déterministe du temps t, du cours du sous-jacent St ou des deux à la fois.
Dans ce cas, la fonction de volatilité résultante sera appelée la volatilité locale. Il
est également possible de considérer que la variation de volatilité comporte une
composante aléatoire qui lui est propre. Il s’agira alors de la famille des modèles
de volatilité stochastique.
Avant de présenter ces deux familles de modèles, il est important de rappeler
que la modélisation de la volatilité peut répondre à des objectifs divers : prédiction
de la volatilité future ; valorisation cohérente de toutes les familles d’options,
des plus simples aux plus complexes ; aide à la couverture des risques générés
par la détention ou la vente d’options ; explication des raisons économiques de
l’évolution des produits financiers... Notre appréciation de la qualité et des limites
des modèles présentés se fondera principalement sur leur capacité à valoriser
et permettre une couverture efficace pour toutes les familles d’options. À ce

sujet, rappelons que nos modèles servent essentiellement à calculer des prix
non arbitrables en phase avec les prix de marché et non à rendre compte du
comportement historique ou prévisionnel des paramètres de marché. Notre angle
d’analyse n’est cependant pas totalement incompatible avec les autres critères.
En effet, un modèle sera généralement d’autant plus stable et cohérent qu’il se
rapprochera de la réalité économique du phénomène modélisé.
2.1 La volatilité locale*
Les modèles de volatilité locale se fondent sur l’hypothèse que la volatilité est
une fonction déterministe du temps et du cours du sous-jacent : la constante σ de
l’équation (6.4) est remplacée par une fonction (t, St ) → σl (t, St ). L’équation de
diffusion du sous-jacent devient alors :
dSt = St × (rdt + σl (t, St )dWt ) (6.5)
C’est la fonction σl (.) que l’on appelle volatilité locale. Nous allons reprendre
l’exemple des arbres binomiaux introduits lors des chapitres précédents afin
d’illustrer plus en détail cette notion.
Commençons par nous placer dans le cadre d’une action évoluant selon un
processus lognormal classique de volatilité constante σ. En d’autres termes, la
fonction de volatilité locale de ce modèle est la constante égale à σ. Notons
classiquement r le taux sans risque. Nous avons vu que ce processus pouvait être
analysé comme la limite d’un arbre binomial. Dans cet arbre, les probabilités de
hausse (p) ou de baisse (1 − p) du cours de l’action ainsi que le pas de variation
à la hausse (u) et à la baisse (d) sont les mêmes à chaque nœud de l’arbre. Ces
paramètres sont entièrement déterminés par le taux sans risque r et la volatilité
du processus σ ; rappelons en effet les formules :
⎧ √
⎪ r −σ2 /2
⎨ p= 2+
1
⎪ 2σ dt
√
u = eσ dt (6.6)
⎪
⎪
⎩
d = 1/u
Imaginons maintenant que nous souhaitions modifier l’arbre pour que la

volatilité locale puisse varier d’un nœud à l’autre. Chaque nœud étant associé à
un couple (t, St ), cela traduit exactement l’hypothèse selon laquelle la volatilité
dépend du temps et du niveau des actions. Malheureusement, nous ne pouvons
pas simplement garder les formules rappelées ci-dessus pour u, p et d et changer
la valeur de σ d’un nœud à l’autre : cela conduirait à un arbre non recombinant.

En revanche, nous avons à chaque nœud trois paramètres, u, d et p, et trois
contraintes dans l’arbre : il doit être recombinant, conduire à un environnement
risque neutre, la volatilité à chaque nœud doit être σl (t, St ). La résolution des
équations résultantes conduira donc à un arbre dont tous les paramètres varient
à chaque nœud. Le passage d’une volatilité constante à une volatilité dépendant
du temps et du cours de l’action se traduit ainsi par l’évolution de l’arbre régulier
vers un arbre de structure plus souple tel que schématisé dans la figure 6.2.
F IGURE 6.2. Arbre binomial risque neutre dont le pas de temps est dt et dont les pas de variation et les
probabilités de hausse et de baisse sont variables en fonction du temps t et du cours de l’action St . En
conséquence, la volatilité locale à chaque nœud de l’arbre n’est plus constante, la forme de l’arbre n’est plus
régulière. Le fait de pouvoir déformer ainsi l’arbre permet d’assouplir le modèle et de le rendre cohérent avec
les nappes de volatilités implicites effectivement observées sur les marchés.
Parmi les avancées obtenues par cet assouplissement des hypothèses du

modèle de Black-Scholes, il est à noter que la distribution des cours de l’action
à un instant T déduite du modèle n’est plus nécessairement lognormale ; nous
pouvons modéliser un spectre de distributions plus large. En particulier, il n’est
plus exclu de modéliser les distributions de probabilité déduites des nappes de
volatilités implicites observées sur les marché.
En effet, [Dupire 1994] a montré qu’il existe une unique fonction de vola-
tilité σl (t, St ) permettant d’assurer que le processus de diffusion risque neutre
dSt = St × (rdt + σl (t, St )dWt ) soit cohérent avec les distributions implicites dé-
duites des prix des call et des put. Si l’on revient à notre arbre binomial, cela

signifie qu’à chaque nœud de l’arbre, il existe un unique jeu de probabilités
p(t, St ) et d’amplitudes de hausse et de baisse, u(t, St ) et d(t, St ), tel que l’arbre
soit en mesure de valoriser correctement l’intégralité des put et des call.
Cela établi, il reste à déterminer explicitement cette fonction σl (t, St ) ou, dans
le cadre de notre arbre, ce jeu de paramètres p(t, St ), u(t, St ) et d(t, St ). [Dupire
1994], [Derman et Kani 1994] et [Rubinstein 1994] ont, pour ce faire, proposé des
méthodes différentes dont la présentation ne sera pas faite ici. Ces méthodes ont
toutefois en commun le fait qu’elles s’appuient sur une discrétisation du temps
et du cours du sous-jacent par le biais d’arbres binomiaux ou trinomiaux.
Supposons que nous soyons parvenus à construire notre arbre binomial en

déduisant les paramètres p(t, St ), u(t, St ) et d(t, St ) d’un échantillon de prix de
call et de put. Que nous apporte cette construction ?
1. Nous disposons d’un modèle d’évolution du sous-jacent qui rend compte
des prix des put et des call observés sur le marché ; ce modèle est le même,
quels que soient l’échéance et le strike de l’option à valoriser. Nous n’avons
donc plus à choisir des paramètres de modèles différents pour valoriser
différentes options. En outre, comme notre modèle permet de calculer
le prix de tous les call et put observés sur le marché, il rend compte des
distributions des cours du sous-jacent à toute échéance T, il permet donc
de valoriser correctement toutes les options européennes.
2. Contrairement aux distributions déduites de la nappe des volatilités im-
plicites, le modèle nous renseigne sur les probabilités qu’a le sous-jacent
de suivre un chemin donné : nous connaissons en effet les probabilités
de passage d’un nœud à l’autre et sommes donc en mesure de calculer la
probabilité qu’a le sous-jacent d’aller d’un point A à un point B, comme
l’illustre la figure 6.2. Il est donc possible d’utiliser ce modèle pour valoriser
d’autres types d’options que les options européennes.
3. Le modèle ainsi construit est complet : il n’existe sous ce modèle qu’un seul
prix non arbitrable pour tous les produits financiers.
4. Nous disposons d’un modèle permettant de comprendre la dynamique du
smile, c’est-à-dire la façon dont se déforme le smile au cours du temps. Cet
élément est important car il nous permet de calculer le delta des options de
manière plus précise et cohérente que dans le cadre d’un modèle lognormal
invalidé par la réalité des marchés. La couverture des portefeuilles d’options
devrait ainsi gagner en efficacité.

Encadré 6.1. Couverture statique, couverture dynamique.
Couvrir un produit financier revient à annuler les risques de variation de prix de ce
produit par l’achat ou la vente d’autres produits financiers. Dans la configuration idéale,
aucune perte n’est possible sur le portefeuille constitué du produit financier et de sa
couverture. Deux cas de figure sont possibles. Dans le cas le plus simple mais aussi le
plus rare, la couverture est mise en place une fois pour toute ; elle permet de neutraliser le
risque jusqu’à l’échéance du produit couvert. On parle alors de couverture statique car la
couverture mise en place restera la même durant toute la durée de vie du produit. Dans
le cas le plus général, la couverture devra être modifiée régulièrement, c’est pourquoi
on parle de couverture dynamique. Le delta hedge des options en est un exemple, il
nécessite d’ajuster en permanence la couverture constituée de −Δ actions, où Δ est le
delta de l’option. Une couverture dynamique n’est parfaitement efficace que si le temps
de réaction du trader est infinitésimal et s’il n’y a pas de frais de transactions. Il est
également important de souligner que la validité de la couverture dépend du modèle
dans lequel nous nous plaçons : le Δ dépend du modèle de calcul utilisé ; la capacité à
neutraliser entièrement le risque par le delta hedge n’est en outre pas acquise dans tous
les modèles, cette technique de couverture est par exemple insuffisante dans les modèles
à volatilité stochastique. Ainsi, les modèles ne servent pas uniquement à valoriser un
produit, ils sous-tendent implicitement une stratégie de couverture dont le coût de mise
en œuvre n’est autre que le prix issu du modèle.
Afin de rendre ce dernier point plus explicite, ouvrons une petite parenthèse
sur le calcul du delta en présence d’un smile. Nous rappelons que le delta est la
dérivée du prix de l’option par rapport au cours du sous-jacent. Ce paramètre
est essentiel car il permet de définir la stratégie de couverture d’un portefeuille
pour en neutraliser le risque, autant que faire se peut. Toutefois, en présence
d’un smile, il n’est pas exclu que la volatilité implicite (σimp ) dépende du cours
du sous-jacent. Dès lors, le delta calculé naïvement dans le cadre du modèle de
Black-Scholes comme ∂Call/∂S sera inexact car nous aurons en réalité :
∂Call ∂Call ∂σimp (S)

Delta = + × (6.7)
∂S ∂σimp (S) ∂S
À cet effet, les modèles de volatilité locale permettent théoriquement de

simuler les nappes de volatilités implicites pour différentes valeurs du sous-
jacent S. Au contraire, la simple observation des prix des call et des put ne
permet de calculer la nappe des volatilités implicites que dans les conditions de
marché actuelles (S = S0 ) : sans modélisation de la volatilité, nous ne pouvons
pas calculer ∂σimp (S)/∂S. Les méthodes de détermination de la volatilité locale
proposées par [Dupire 1994], [Derman et Kani 1994] et [Rubinstein 1994] semblent
donc être la clef de toutes les questions soulevées par l’existence des nappes de
volatilités implicites. Malheureusement, le bilan de ces méthodes n’est pas aussi
favorable qu’il y paraît.

Tout d’abord, d’un point de vue pratique, il est à signaler que la détermi-
nation des volatilités locales à partir d’un échantillon de prix de call et de put
nécessite le recours à des méthodes numériques susceptibles de générer des
résultats instables et au sens économique douteux. Le lecteur intéressé pourra
consulter [Rebonato 2004] pour une analyse approfondie de ces problèmes et
leurs éventuelles résolutions.
D’un point de vue théorique, l’ensemble des modèles de volatilité locale
repose sur l’hypothèse selon laquelle la volatilité dépend uniquement du temps
et du niveau du sous-jacent. [Dupire 1994] a montré que si cette hypothèse était
vérifiée, alors il existe un unique modèle d’évolution des sous-jacents cohérent
avec les prix des options européennes observés sur les marchés. En admettant
l’hypothèse de la volatilité locale, puisqu’il n’existe qu’un seul modèle possible
et que ce modèle est complet, nous pouvons démontrer qu’il n’existe qu’un seul
prix possible pour toutes les options, même exotiques. Si, en revanche, notre
hypothèse est mise en défaut, les modèles de volatilité locale ne constituent qu’un
cas particulier, parmi d’autres, de modèles cohérents avec les prix des call et des
put. Ceux-ci aboutiront aux mêmes prix pour les options européennes, dont nous
avons vu qu’ils se déduisent sans ambiguïté des nappes de volatilités implicites,
mais pourront conduire à des prix différents pour les options exotiques. De ce
fait, les prix des options exotiques calculées sous le modèle de volatilité locale
peuvent ne pas s’avérer cohérents avec les prix de marché.
Enfin, [Hagan et al. 2002] ont montré que la dynamique du smile prédit
par la volatilité locale de [Dupire 1994], [Derman et Kani 1994] et [Rubinstein
1994] pouvait aller à l’encontre des configurations observées sur les marchés.
L’illustration de ce phénomène, présentée ci-dessous, constitue ainsi une remise
en cause sérieuse de la vraisemblance de l’hypothèse des modèles de volatilité
locale.
Les études empiriques sur la dynamique du smile ont pu montrer que ce
dernier évolue schématiquement entre deux comportements limites lorsque le
niveau du sous-jacent varie. Selon le premier comportement, la volatilité implicite
ne dépend que du niveau du strike. Dans cette configuration, le smile est insen-
sible à toute variation du cours du sous-jacent. Selon le second comportement, la
volatilité implicite est une fonction de la proximité entre le cours du sous-jacent
et le strike. Dans ce cas, le smile aura tendance à suivre l’évolution du cours du
sous-jacent. Ces deux comportements limites sont présentés en figure 6.3. La
dynamique réelle du smile se situe quelque part entre ces deux comportements
limites. Or, le modèle de la volatilité locale que nous avons décrit impose une
dynamique du smile qui ne s’inscrit pas dans le cadre des comportements obser-
vés empiriquement. [Hagan et al. 2002] montrent par exemple que le smile déduit

du modèle de volatilité locale aura tendance à se déplacer vers la droite lorsque
le cours du sous-jacent diminue alors que les études empiriques montrent le
phénomène inverse.
(b) Smile dépendant de la proximité entre

(a) Smile dépendant uniquement du strike
le cours du sous-jacent et le strike
(c) Dynamique du smile déduite de la

volatilité locale
F IGURE 6.3. La fonction de volatilité locale de [Dupire 1994], [Derman et Kani 1994] et [Rubinstein 1994]
impose que le smile se déplace à l’opposé du cours du sous-jacent (graphique (c)) ce qui est incohérent
avec la dynamique des nappes de volatilités observées en pratique. Cette dynamique se situe en général
entre les deux comportements limites présentés en graphiques (a) et (b) : dans le graphique (a), le smile est
indépendant du cours du sous-jacent ; alors que dans le graphique (b) le smile suit le cours du sous-jacent.
Ces résultats montrent que la dynamique du smile induite par la volatilité lo-
cale de [Dupire 1994], [Derman et Kani 1994] et [Rubinstein 1994] est incompatible
avec certaines caractéristiques observées généralement et plus particulièrement
sur le marché des options sur actions et sur devises. Par ailleurs, d’autres études
affirment que la volatilité locale peut anticiper un aplatissement du smile ce qui
est de nature à contredire l’observation de sa persistance au fil du temps. Ces
éléments revêtent une importance particulière pour le trader qui souhaite couvrir
son portefeuille d’options. En effet, si l’impact de la variation du cours du sous-
jacent sur la forme du smile est erroné, l’équation (6.7) conduira à un calcul de
delta faux et donc à une mauvaise couverture.

En synthèse, la détermination d’une fonction de volatilité locale à partir des
prix des call et des put conduit à des résultats séduisants et encore très utilisés
par de nombreux praticiens mais dont la pertinence semble remise en cause
par l’invalidité de l’hypothèse de base : la dépendance de la volatilité aux seuls
paramètres que sont le temps et le cours du sous-jacent. Cette hypothèse conduit
le modèle à une dynamique des prix éloignée de la réalité.
Nous avons présenté les modèles de volatilité locale déduit des nappes
de volatilités implicites ; il existe d’autres modèles de volatilité locale pour
lesquelles la fonction σl (t, St ) n’est pas intégralement déduite des données de
marché mais paramétrée à partir d’une fonction prédéterminée. Le choix de la
fonction σl (t, St ) est alors généralement dicté par des considérations liées au
comportement historique de la volatilité et à la simplicité de résolution des
formules de valorisation en découlant. Parmi les modèles de ce type, les modèles
CEV (pour constant elasticity of variance) sont les plus répandus mais ne seront
pas développés ici. Le lecteur intéressé pourra trouver plus de détails dans
[Rebonato 2004].
2.2 La volatilité stochastique*
Dans les modèles de volatilité locale, la seule composante aléatoire dérive de

l’incertitude liée à l’évolution du sous-jacent : dans l’équation (6.5), toute la varia-
bilité vient du seul facteur aléatoire Wt . Au contraire, dans les modèles à volatilité
stochastique que nous aborderons dans la présente section, l’évolution de la
volatilité est gouvernée par un nouveau facteur aléatoire. Donnons-nous donc
Zt un mouvement brownien indépendant du mouvement brownien Wt . Partant
des deux facteurs aléatoires indépendants Wt et Zt , les modèles d’évolution d’un
sous-jacent St dits « à volatilité stochastique » sont généralement spécifiés par les
équations suivantes :
⎧
⎨ dSt = rSt dt + σt St dWt
(6.8)
⎩ dσt = p(.)dt + q(.) ρdWt + 1 − ρ2 dZt
Ces formules nécessitent une explication. La première ligne est l’équation

classique de diffusion du sous-jacent S. La seconde ligne nous indique que
contrairement au modèle de Black-Scholes, la volatilité σt n’est plus constante
mais fait aussi l’objet d’une diffusion de dérive p(.) et de volatilité q(.). La
fonction q(.) est donc la volatilité de la volatilité. Les deux fonctions p(.) et q(.)
sont pour l’instant exprimées sous une forme très générale, nous verrons par
la suite un exemple concret d’un tel modèle. La composante stochastique de

l’évolution de la volatilité provient du terme aléatoire ρdWt + 1 − ρ2 dZt qui est
un mouvement brownien standard constitué de deux mouvements browniens
standard indépendants. À l’image de ce que nous avions vu lors du chapitre 2,
ρ représente la corrélation entre le cours du sous-jacent et sa volatilité : il décrit la
propension qu’ont ces deux variables à évoluer de manière conjointe. Par exemple,
si ρ = 1, ρdWt + 1 − ρ2 dZt devient dWt et les deux processus St et σt seront liés
de manière déterministe ; si ρ = 0, ρdWt + 1 − ρ2 dZt devient dZt et les deux
processus St et σt seront indépendants ; enfin, si ρ = −1, ρdWt + 1 − ρ2 dZt
devient −dWt et les deux processus évoluent en sens contraire.
Les modèles à volatilité stochastique comportent une différence de taille
par rapport aux modèles à volatilité locale et au modèle de Black-Scholes : la
volatilité devient une source d’incertitude au même titre que le cours du sous-
jacent. Les arguments employés au chapitre 5 qui assuraient l’unicité du prix
d’une option ne tiennent plus. En effet, nous avions montré au chapitre 5 que,
dans le cadre du modèle de Black-Scholes, il était possible de neutraliser le risque
d’un portefeuille Π grâce au delta hedge. Cette technique consiste simplement
à détenir à chaque instant, outre le portefeuille Π, la quantité −∂Π(S)/∂S de
sous-jacent S. La capacité à neutraliser entièrement le risque nous assure l’unicité
du prix puisque qu’un portefeuille sans risque ne peut évoluer, en l’absence
d’opportunité d’arbitrage, qu’au taux sans risque r : c’est la complétude du
modèle.
L’ajout d’une nouvelle composante aléatoire rend caduque cette construction.
En effet, la volatilité ne s’échangeant pas sur les marchés, il n’est pas possible
de l’acheter et de la vendre pour annuler le risque qu’elle engendre sur le prix
des options. De ce fait, il n’est plus possible de construire un portefeuille sans
risque à partir du seul sous-jacent ; le modèle n’est plus complet et le prix de
tout portefeuille devient théoriquement sensible aux préférences des acheteurs et
vendeurs. Cette perte de la complétude a deux impacts :
– Les modèles à volatilité stochastiques définis par les équations (6.8) per-
mettront bien de calculer un prix pour les différents produits financiers ;
en revanche, ces modèles n’excluent pas que d’autres prix soient tout aussi
valides au sens du non-arbitrage.
– La couverture des options nécessite le recours à d’autres options. En
d’autres termes, pour couvrir le risque d’un portefeuille il faudra non
seulement neutraliser son delta mais aussi neutraliser le risque relatif à la
volatilité, ce qui peut être fait par l’utilisation d’autres options.
Les équations (6.8) que nous avons présentées décrivent un modèle très
général puisque les fonctions p(.) et q(.) n’ont pas été spécifiées à ce stade. Le
choix de ces fonctions répond en général à des critères d’ordres différents.

En premier lieu, elles doivent rendre le modèle cohérent avec le comportement
réel du cours du sous-jacent. En particulier, il est souvent requis que la diffusion
de la volatilité comporte une contrainte de retour vers une situation d’équilibre.
Cette contrainte est importante car elle garantit que la volatilité aura tendance
à rester confinée dans un intervalle raisonnable et conforme à l’intuition et
l’observation des trader. En second lieu, les modèles dont les paramètres ne
dépendent pas du temps pourront également être préférés. En effet, la forme des
smile observés sur les marchés depuis 1987 est relativement stable. Permettre que
les paramètres modélisant son évolution dépendent du temps est de nature à
générer des formes de smile structurellement différentes dans le futur ce qui est
incohérent avec la réalité.
En outre, le choix des fonctions p(.) et q(.) est généralement effectué afin
de permettre un calcul simple du prix des options. Ces modèles ont en général
vocation à être paramétrés afin de s’approcher au plus près des prix d’options
observées sur le marché. Cette étape nécessite le recours à des méthodes d’op-
timisation numérique qui seront d’autant plus efficaces que le prix des options
pourra s’exprimer directement en fonction des paramètres que l’on cherche à
estimer. Cette contrainte de simplicité est fréquemment critiquée dans la littéra-
ture spécialisée car elle est susceptible de pousser à des choix dont la principale
motivation est la facilité de mise en œuvre informatique du modèle, au détriment
de sa vraisemblance économique.
Parmi les modèles à volatilité stochastique les plus populaires nous allons
maintenant décrire le modèle de [Heston 1993] défini par les équations suivantes :
⎧
⎨ dS = rSt dt + σt St dWt
(6.9)
⎩ d(σ2 ) = λ(σ2 − σ2 )dt + ησt ρdWt + 1 − ρ2 dZt
t t
Point notable mais sans enjeu théorique, contrairement au modèle général

présenté en (6.8), le modèle de Heston ne modélise pas directement la volatilité
du sous-jacent mais sa variance σ2 qui est simplement le carré de la volatilité.
Le terme λ(σ2 − σt2 ) qui gouverne la dérive permet d’assurer le retour vers la
situation d’équilibre. En effet :
– Si, au temps t, σt vaut σ, la dérive de la variance λ(σ2 − σt2 )dt sera nulle : la
volatilité restera constante en moyenne statistique.
– Si, au temps t, σt est supérieur σ, la dérive de la variance λ(σ2 − σt2 )dt sera
négative : la volatilité diminuera en moyenne statistique.
– Si, au temps t, σt est inférieur σ, la dérive de la variance λ(σ2 − σt2 )dt sera
positive : la volatilité augmentera en moyenne statistique.

La formule λ(σ2 − σt2 ) exerce bien une force de rappel vers l’équilibre σ. Le
paramètre λ rend alors compte de la force du retour vers σ : plus le paramètre
est élevé, plus le retour est rapide. Par ailleurs, le modèle de Heston admet une
formule analytique permettant de calculer directement le prix des options, ce qui
répond à la contrainte de simplicité évoquée plus haut.
Le premier objectif d’un modèle de volatilité est de valoriser les options les
plus simples ce qui revient à reconstituer la forme du smile de volatilité. Avant
d’évoquer la performance de ce modèle à cet égard, étudions l’impact de chacun
des paramètres λ, σ, η et ρ sur la forme du smile. Comme le montre la figure 6.4,
σ influe sur le niveau absolu des volatilités implicites ce qui peut sembler intuitif
puisque par construction, σ est la valeur d’équilibre de la volatilité. La corrélation
ρ définit la pente du smile : sous-jacent et volatilité évolueront dans le même sens
pour une corrélation positive et dans le sens opposé pour une corrélation négative.
Là encore, le phénomène est intuitif car plus ρ est élevé, plus le lien entre volatilité
et sous-jacent est fort, plus on s’attend à ce que la volatilité augmente lorsque le
cours du sous-jacent augmente. Les paramètres η et λ jouent sur la convexité du
smile. Plus la volatilité de la volatilité η sera grande, plus les valeurs extrêmes de
volatilité seront probables ; ainsi que nous l’avons illustré au chapitre précédent,
cela conduit à amplifier la convexité de la courbe des volatilités implicites. Enfin,
plus λ sera élevé, plus la variance aura tendance à revenir rapidement vers sa
position d’équilibre. Ainsi, les valeurs extrêmes de la volatilité sont d’autant
moins probables que λ est élevé, ce qui tend à aplatir le smile.
Les paramètres du modèle de Heston permettent, en théorie, de retrouver
toutes les formes de courbes de volatilité implicite. En pratique, il s’avère qu’il
est difficile de reproduire un smile très accentué pour les échéances les plus
courtes tout en maintenant les paramètres indépendants du temps. D’autres
modèles, comme le modèle SABR (voir [Hagan et al. 2002]), permettent néanmoins
de corriger cela, moyennant d’autres faiblesses. Cette incompatibilité est due
au principe même des modèles de volatilité stochastique : la volatilité et le
cours du sous-jacent étant diffusés continûment, il leur est difficile de sortir du
cadre gaussien, c’est-à-dire de prévoir une forte évolution de la volatilité ou
du sous-jacent dans un laps de temps très limité. L’évolution des modèles de
volatilité stochastique passe donc par un relâchement du cadre gaussien que
nous étudierons au chapitre 9.
En conclusion, retenons que la valorisation des options européennes nécessite
de connaître la distribution des cours du sous-jacent à date d’échéance de l’option
alors que la valorisation des autres options nécessite de connaître non seulement
la distribution à date d’échéance mais aussi les trajectoires empruntées par le
sous-jacent avant la date d’échéance. Nous pouvons retourner notre point de vue

(a) Volatilité à l’équilibre (σ) (b) Corrélation (ρ)
(c) Volatilité de la volatilité (η) (d) Force de rappel (λ)
F IGURE 6.4. Smile générés par le modèle de Heston pour différentes valeurs des paramètres du modèle.
Des prix d’options de strike différents sont calculés par le modèle, puis la volatilité implicite en est déduite
pour construire les courbes de smile. L’impact des différents paramètres sur la forme du smile peut être
représenté intuitivement, ce qui est l’une des forces du modèle.
et noter que le prix des options européennes nous renseigne sur la distribution du
cours du sous-jacent à date d’échéance alors que le prix des autres options nous
renseigne également sur les probabilités des trajectoires du sous-jacent avant la
date d’échéance.
Ce point est important pour comprendre les choix qui s’imposent en matière
de calibration des modèles. Rappelons qu’un modèle paramétrique est un modèle
spécifié par un jeu de paramètres comme le modèle de Heston de l’équation (6.9)
qui repose sur r, ρ, σ, η, λ. Pour ces derniers, il est nécessaire de choisir la valeur
numérique des paramètres : c’est ce que l’on appelle la calibration. Concrètement,
les paramètres seront choisis pour que les prix du modèle soient les plus proches
possible des prix des options observées sur le marché. Le choix des options
utilisées pour la calibration revêt alors une importance primordiale pour s’assurer
que les informations anticipées par le marché sont bien prises en compte dans le

modèle. Par exemple, un modèle destiné à valoriser des options non européennes
calibré sur des options européennes a toutes les chances de donner des prix
éloignés des consensus de marché : cela revient à n’utiliser que l’information
sur les probabilités à date d’échéance alors que le cœur de la valorisation des
options exotiques est la modélisation des trajectoires du sous-jacent avant la date
d’échéance.

7 Méthodes numériques
Les théories mathématiques nous conduisent vers des solutions parfois très
abstraites. Or, un trader est peu intéressé de savoir que le prix de son option
est l’unique solution d’une équation aux dérivées partielles avec conditions aux
limites : il veut juste un prix numérique et fiable. Il est tout à fait passionnant de
découvrir que le prix d’un produit dérivé est une martingale sous une mesure
risque neutre fictive, mais encore faut-il pouvoir répondre à la question : combien
le produit dérivé coûte-t-il ?
C’est ici qu’interviennent les méthodes numériques ; couramment utilisées
par les physiciens et les ingénieurs, elles permettent de traduire numériquement
des résultats mathématiques. Nous présenterons deux des méthodes numériques
les plus utiles en finance : les simulations Monte-Carlo puis les méthodes des
différences finies. Les premières permettent de calculer les prix qui s’expriment
sous la forme d’espérance mathématique, ce qui est bien le cas en finance puisque
nous avons vu au chapitre 4 que les prix des produits financiers sont l’espérance
de leurs valeurs futures actualisées sous la mesure risque neutre. Les méthodes
des différences finies permettent quant à elles de résoudre numériquement des
équations aux dérivées partielles, comme l’équation de Black-Scholes qui régit
l’évolution des produits financiers. Les méthodes de résolution par les arbres
ayant déjà été évoquées aux chapitres précédents, elles ne seront pas abordées à
nouveau.
Nous verrons que les deux méthodes présentées reposent sur des principes
simples. En revanche, leur mise en œuvre concrète peut se révéler nettement plus
compliquée et ouvre la voie à de nombreux approfondissements.
1 Simulations de Monte-Carlo
1.1 Principe
Lorsque l’on tire un très grand nombre de fois une pièce équilibrée, chaque
face apparaît en moyenne une fois sur deux. Si l’on compte par exemple Pn le
nombre de piles apparus après n lancers de dés, nous avons Pn /n → 1/2 : le
taux de piles constaté converge vers 1/2. D’une manière générale, la moyenne
d’une variable aléatoire peut être numériquement approchée en réalisant des
simulations aléatoires de la variable et en calculant la moyenne des tirages. C’est
cette tautologie qui est à la base des méthodes dites de « Monte-Carlo ». Monte-
Carlo est le quartier de la principauté de Monaco qui abrite le fameux casino
éponyme ; il a donné son nom à la technique numérique que nous allons détailler
dans la présente section car, avant l’ordinateur, les tirages de nombres aléatoires
étaient réalisés par des moyens physiques : dés, roulette, jeu de carte, etc.
Naturellement, la méthode que nous venons de décrire n’est pas très utile
pour calculer la moyenne, déjà connue, du nombre de piles dans un lancer de
pièces. Elle est en revanche très utile pour calculer des moyennes, espérances ou
intégrales plus complexes pour lesquelles nous n’avons pas de solution exacte
connue.
Supposons par exemple que nous voulions connaître la valeur de π
(π = 3,1415...). Une méthode, peu efficace mais très simple, serait de tirer
aléatoirement des points dans un carré. Le nombre moyen de points qui sont
dans le cercle inscrit au carré (le cercle placé au centre du carré qui touche les
quatre côtés) est alors π/4 ; c’est le rapport de l’aire du cercle (πR2 si R est le
rayon du cercle) et de l’aire du carré (2R × 2R = 4R2 pour un carré dont le
cercle inscrit est de rayon R, le lecteur sceptique peut faire un dessin pour s’en
convaincre).
La démarche est exactement la même pour la valorisation des produits
financiers. Nous avons vu au chapitre 4 que, sous l’hypothèse du non-arbitrage,
il existe une mesure de probabilité sous laquelle les prix actualisés des actifs
sont des martingales. L’une des conséquences de cette propriété est que le prix
aujourd’hui de n’importe quel actif est la moyenne de ses prix futurs actualisés
sous la mesure risque neutre. Or, les prix à l’échéance du produit financier que
l’on souhaite valoriser sont en général aisément calculables. Ce sont des fonctions
pré-définies d’un actif sous-jacent. Par exemple, dans le cas d’un call, nous avons
vu que la valeur du call à échéance était, par définition, max(ST − K; 0) où ST
est le prix de l’actif sous-jacent à l’échéance T et K le strike de l’option. Le prix
aujourd’hui du call n’est autre que la valeur moyenne actualisée de cette valeur
126 Chapitre 7. Méthodes numériques

terminale lorsque l’actif St évolue selon une probabilité risque neutre. En notant
P le prix du call, r le taux sans risque continu et E(.) l’espérance mathématique,
cette phrase se traduit par l’équation :

P = E max(ST − K, 0)e−rT (7.1)
La résolution numérique de cette équation par la méthode de Monte-Carlo
consiste simplement à réaliser des tirages aléatoires de ST , à calculer la valeur
terminale actualisée de l’option max(ST − K, 0)e−rT et à faire la moyenne des
résultats obtenus à travers tous les tirages. Dans un modèle de Black-Scholes
simple, ST suit sous la mesure √ risque neutre une loi lognormale de dérive
(r − σ2 /2) × T et de volatilité σ T. Dans les modèles de volatilités plus élaborés
que nous avons abordés au chapitre précédent, il n’existe généralement pas de
caractérisation simple de la loi de probabilité risque neutre de ST . En revanche,
nous connaissons l’équation de diffusion de l’actif, par exemple dans le modèle
de Heston :
⎧
⎨ dS = rSt dt + σt St dWt
(7.2)
⎩ d(σ2 ) = λ(σ2 − σ2 )dt + ησt ρdWt + 1 − ρ2 dZt
t t
Dans cette équation r, λ, σ, η et ρ sont des paramètres du modèle (r est

toujours le taux sans risque) et Wt et Zt sont deux mouvements browniens. Le
calcul du prix d’un call dans le modèle de Heston consiste donc à :
1. Simuler les trajectoires des deux mouvements brownien Wt et Zt . Cette
simulation se fait selon un pas de temps discret dt. De cette manière, les
accroissements dWt et dZt sur ce√ pas de temps sont simulés par une loi
normale centrée et de volatilité dt.
2. En déduire, pour chaque simulation, la trajectoire de l’actif St et de la
variance σt2 . Les accroissements des mouvements browniens dWt et dZt
ayant été calculés à l’étape précédente, il suffit à cette étape d’appliquer
l’équation (7.2).
3. En déduire pour chaque simulation la valeur de ST .
4. Évaluer pour chaque simulation la valeur terminale actualisée du call,
explicitée par l’équation (7.1)
5. Calculer la moyenne des résultats.
La méthode de Monte-Carlo consiste donc simplement à simuler les différents

événements aléatoires et à en déduire les moyennes. Cette simplicité conceptuelle,
qui se traduit en simplicité de programmation et de mise en œuvre, est un atout

F IGURE 7.1. Mise en œuvre de la méthode de Monte-Carlo pour valoriser un call de strike 100 : chaque
point représente le résultat de la simulation de la trajectoire d’un cours selon le modèle de Heston. Si le cours
simulé est en dessous du strike de l’option, le gain réalisé est nul, sinon, le gain est donné par la différence
actualisée entre le cours simulé et le strike. Le gain moyen sur les 100 simulations effectuées est 10,58 e
alors que, compte tenu des paramètres choisis, le prix modèle exact est 11,69 e. Une meilleure précision
aurait été obtenue avec plus de simulations.
certain de la méthode. Elle s’adapte facilement à de nombreuses situations et

s’implémente sans peine même dans des modèles complexes comme les modèles
à volatilité stochastique.
Dans la diversité des options financières que nous avions présentées au
précédent chapitre, seules les options américaines posent problème pour la
méthode de Monte-Carlo. En effet, pour toutes les autres, aussi exotiques qu’elles
puissent paraître, la simulation de la trajectoire de l’action pendant toute la durée
de vie du produit permet de savoir exactement quelle sera la valeur terminale
du produit. Nous laissons le soin au lecteur de le vérifier. Pour les options
américaines, un problème se pose car cette option implique une décision de la
part de son détenteur : à quel moment choisira-t-il d’exercer l’option ? Quel est
le moment optimal d’exercice de l’option ? Ce problème n’est pas insoluble et
peut même être résolu dans le cadre de simulations Monte-Carlo (cf. [Longstaff
et Schwartz 2001]). Nous n’approfondirons pas cette méthode de valorisation
des options américaines ; nous étudierons cependant d’autres utilisations des
simulations Monte-Carlo qui suivent une démarche similaire mais un objectif
différent : l’identification de stratégies de couverture optimales.

1.2 Couvertures Monte-Carlo*
Les tirages aléatoires du graphique 7.1 conduisent à des résultats très dispersés,
le payoff du call est nul dans la moitié des cas et monte jusqu’à plus de 85 e
dans l’une des 100 simulations. Ces résultats sont censés reproduire les différents
cas possibles : la dispersion du résultat des tirages reflète directement le risque
pris par les trader sur les positions valorisées. Comme nous l’avions évoqué aux
chapitres précédents, la réduction du risque passe par les stratégies de couverture,
au sein desquelles le delta hedge occupe une place prépondérante.
Dans le modèle de Black-Scholes, la protection par delta hedge est en théorie
parfaite, le portefeuille couvert ne présente aucun risque. Rappelons que la
couverture par delta hedge consiste à détenir à tout instant −Δt actions sous-
jacentes où Δt = ∂Πt (S)/∂S est la dérivée du prix du portefeuille par rapport
au sous-jacent. La mise en pratique est moins idéale puisque la couverture ne
peut pas être ajustée continûment mais uniquement à intervalles réguliers. La
stratégie laisse donc un risque résiduel que l’on peut parfaitement simuler par la
méthode de Monte-Carlo. Concrètement, pour étudier la couverture d’un call de
strike K, nous pouvons procéder de la manière suivante :
– Pour chaque simulation, nous tirons aléatoirement l’évolution de l’actif St1 ,
St2 , St3 ... à intervalles choisis et selon le modèle spécifié.
– À chaque ti , nous calculons le Δti du portefeuille couvert et réajustons la
couverture. Ce réajustement suppose de réinvestir −(Δti − Δti−1 ) × Sti dans
la couverture.
– À l’échéance tn de l’option, nous liquidons la couverture et exerçons l’op-
tion, pour un montant de max(Stn − K; 0) − Δtn−1 × Stn . Ce dernier flux
diminué de la somme capitalisée des coûts de réajustements de couverture
correspond exactement au résultat de la stratégie.
Lorsque la couverture est parfaite, le résultat de la stratégie ainsi calculé est
le même dans toutes les simulations, il n’y a pas de risque. Ce résultat actualisé
correspond donc au gain réalisé grâce à la vente du call, autrement dit au prix du
call. Dans le cas d’une couverture imparfaite, le résultat de la stratégie dépend de
la simulation et le prix du call peut être estimé comme la moyenne des résultats
actualisés. La démarche est présentée dans le graphique 7.2. Sans être parfaites,
les techniques de couvertures réduisent significativement le risque pris par les
trader ; elles permettent en parallèle de réduire la dispersion des tirages Monte-
Carlo et donc d’assurer une meilleure précision des résultats numériques.
Cependant, l’approche que nous venons de suivre possède un défaut majeur :
elle requiert de connaître le delta, et donc le prix, alors que nos simulations Monte-
Carlo avaient justement pour but premier de calculer ce prix et ce delta. Comme

F IGURE 7.2. Mise en œuvre de la méthode de Monte-Carlo pour valoriser un call couvert. Les simulations
sont réalisées dans les mêmes conditions que la figure 7.1 : la couverture ne modifie pas le prix théorique du
portefeuille mais réduit fortement le risque total et donc la dispersion des tirages. Ce risque est mesuré par
l’écart-type des tirages. L’impossibilité de couvrir continûment le call dans le modèle de Black-Scholes génère
un risque résiduel sur le portefeuille couvert. Il est toutefois moins important que dans le modèle de Heston où
le risque est issu de deux sources d’aléa distinctes dont une ne peut pas être couverte par le delta hedge. Sur
le graphique du milieu, on constate qu’un delta calculé avec le mauvais modèle augmente le risque par rapport
au calcul correct du delta (graphique du haut), sans toutefois remettre en cause substantiellement l’efficacité
de la couverture. De manière générale, l’utilisation d’un delta calculé avec le modèle de Black-Scholes restera
à peu près efficace dans un modèle quasi-gaussien, mais elle deviendra d’autant plus impuissante que le
modèle d’évolution du sous-jacent s’éloignera de ce cadre.
l’a montré [Potters et al. 2001], il est bien possible d’utiliser les simulations Monte-
Carlo pour calculer en même temps le prix et le hedge optimal. Intéressons-nous
à cette technique de détermination du prix et du hedge optimal par simulations
Monte-Carlo.
Supposons dans un premier temps connaître à tout instant le prix Pt (St )
d’un call. Nous allons chercher la couverture qui minimise le risque pris ; plus
précisément, nous souhaitons minimiser la variance des simulations Monte-
Carlo. D’autres mesures de risque auraient pu être envisagées, mais nous nous
restreindrons ici à associer le risque à la volatilité. Comme pour le delta hedge, la
technique de couverture étudiée consiste simplement en la détention au temps t
d’une certaine proportion ht de l’action sous-jacente au call (h sigle pour hedge).
La quantité de hedge détenue dépendra naturellement de la valeur de l’action,
aussi ht est une fonction de St ; c’est cette fonction ht (St ) que nous souhaitons
optimale pour minimiser le risque.

Entre t et t + dt, en négligeant les taux d’intérêt, l’évolution de la valeur de
notre portefeuille est donnée par la formule :
Pt+dt (St+dt ) − Pt (St ) + ht (St ) × (St+dt − St ) (7.3)
En effet, notre gain est constitué de l’évolution du prix du call et de l’évolution

du prix de l’action proportionnellement à la quantité détenue. Nous nous inté-
ressons ici à la variation de valeur de nos actifs et non aux flux d’entrée/sortie
d’argent suite aux réajustements de couverture. Les deux visions conduisent au
même résultat final puisqu’après liquidation du portefeuille, la somme des flux
générés ne peut être que la variation de valeur du portefeuille. L’avantage de la
vision retenue ici est qu’elle nous permet de capter à chaque instant les variations
de valeur du call alors que, dans la vision par flux présentée précédemment,
l’impact du call ne se manifeste qu’à échéance, au moment de son exercice.
Conformément à notre objectif, la fonction ht (St ) est choisie pour minimiser

la variance du portefeuille couvert ; cette variance s’estime comme la moyenne
à travers toutes les simulations Monte-Carlo du carré de (7.3). En notant N le
nombre de tirages Monte-Carlo, cette dernière phrase se traduit par l’équation :
1
N ∑ ( Pt+dt (St+dt ) − Pt (St ) + ht (St ) × (St+dt − St ))2 (7.4)
Les N tirages de St et St+dt
Ainsi, à chaque instant t, la fonction ht (.) est choisie pour minimiser l’équation
précédente. Cette construction conduit à une fonction ht (.) qui n’est pas très
différente du delta de l’option. Elle représente en effet la sensibilité moyenne du
prix de l’option aux variations du cours de l’action sur le pas de temps dt. Dans
les modèles que nous avons vus jusqu’ici, ht (St ) converge vers Δt (St ) lorsque dt
tend vers 0. Cependant, dans les modèles qui prévoient des variations de St plus
brutales, ht (St ) et Δt (St ) divergent, même lorsque le pas de temps s’approche de 0.
En effet, le delta capte la sensibilité à une variation infinitésimale du cours alors
que le hedge ht (.) capte une sensibilité moyenne à travers toutes les variations
possibles sur le pas de temps dt : si ces variations dSt restent infinitésimales, les
deux notions seront identiques mais si dSt peut être grande même sur un petit
pas de temps, les deux sensibilités seront différentes.
Jusqu’ici nous avons résolu la moité du problème puisque nous avons calculé
le hedge du portefeuille mais pas encore son prix. Commençons par le cas où il
n’y a qu’un seul pas de temps T = dt et numérotons par l’index i nos N tirages

Monte-Carlo. Le hedge h0 (S0 ) est choisi pour minimiser la quantité suivante, pour
peu que nous ayons trouvé P0 (S0 ) :
1 N 2
N ∑ PT (SiT ) − P0 (S0 ) + h0 (S0 ) × (SiT − S0 ) (7.5)
i =1
Puisque nous travaillons sous la mesure risque neutre et que nous avons
négligé les taux d’intérêt, le prix du call au temps t = 0 est nécessairement
la moyenne des prix en T. Notons un instant Π ce prix. On peut démontrer
mathématiquement que l’équation (7.5) est minimale lorsque P0 (S0 ) = Π, cette
propriété étant vraie quelle que soit la valeur de h0 (S0 ). Il est ainsi remarquable
que le prix du call Π soit également la quantité qui minimise la variance du
portefeuille couvert 1 . L’utilisation d’une mesure autre que la variance pour
évaluer le risque n’aurait pas permis un tel raccourci. Ainsi, dans le cadre de
notre étude, les deux quantités P0 (S0 ) et h0 (S0 ) peuvent être cherchées en un seul
passage, en cherchant le minimum d’une même équation.
Cette propriété est vraie à chaque instant t de la simulation : le prix et le hedge
optimal peuvent tous deux être calculés par minimisation de l’équation (7.4). En
s’attardant sur cette équation, le lecteur remarquera que cette démarche nécessite
de connaître le prix à l’instant t + dt. Ce n’est pas un problème, nous connaissons
PT (.) à l’échéance de l’option : il s’agit par définition du payoff du call. Nous
pouvons donc calculer PT −dt et h T −dt par minimisation de (7.4) au temps T − dt.
Après ce calcul, nous connaissons PT −dt et pouvons poursuivre au temps T − 2dt,
et ainsi de suite jusqu’à t = 0. En partant de la fin, nous pouvons ainsi remonter
le temps pour calculer à chaque instant t le prix du call et son hedge optimal.
Les résultats de l’application de cette méthode, dans les mêmes conditions
que celles du graphique 7.2, sont récapitulés dans le tableau ci-après :
Monte-Carlo avec Monte-Carlo avec

Monte-Carlo Simple
hedge Black-Scholes hedge optimal
Prix modèle exact 11,69

Prix simulé 10,58 11,36 11,05
Ecart-type résiduel
18,53 1,70 1,46
du portefeuille
1 Le lecteur mathématicien notera que la quantité P0 (S0 ) qui minimise l’équation (7.5) est, lorsque N
est infini, E( PT ) + h0 (S0 ) × ( E(ST ) − S0 ). Or, sous la mesure risque neutre et sans taux d’intérêt,
St est une martingale et E(ST ) = S0 .

Dans [Potters et al. 2001], les auteurs appliquent cette même méthode en
sortant du cadre risque neutre, cela n’est possible que parce que le hedge neutralise
partiellement les effets des taux de rendement ; nous n’entrerons pas dans les
détails de cette discussion. Cela amène à une alternative remarquable offerte par
les méthodes Monte-Carlo : l’utilisation de données historiques réelles plutôt que
de données simulées. Cette alternative est très utile pour sortir des modélisations
théoriques et étudier les produits financiers et les modèles sur des données
concrètes. La figure 7.3 illustre ce type d’application.
F IGURE 7.3. Calcul du prix d’un call à partir de l’historique des cours du Dow Jones. Dix fenêtres d’historiques
sont utilisées, chacune servant à la reconstitution de 100 chemins d’évolution du Dow Jones (1 000 simulations
en tout). Dans chacune des fenêtres, le prix du call et son hedge sont calculés par minimisation à chaque
instant de la variance du portefeuille couvert. La volatilité du portefeuille couvert présentée est estimée sur
toute la durée de vie du call. Elle est calculée de deux manières : dans la première, la fonction de hedge
optimale est directement utilisée sur l’échantillon qui a servi à sa calibration ; dans la seconde, la fonction de
hedge calibrée sur la période précédente est utilisée pour simuler les résultats de la technique de couverture.
Cette seconde approche vise à rendre compte du fait que la stratégie est calibrée sur des données du passé
pour être appliquée aux situations futures. Deux éléments sont ici mis en avant pour quantifier la robustesse
de la stratégie du hedge optimal : l’évolution dans le temps des prix calculés et l’augmentation de la volatilité
entre l’échantillon de calibration et l’échantillon d’application. En effet, des prix stables indiquent que les prix
passés pourront être utilisés pour calculer les prix futurs ; moins la volatilité se dégrade d’un échantillon à
l’autre, plus la couverture calibrée par le passée restera optimale dans le futur.
1.3 Convergence de la méthode*
Les techniques que nous venons de voir permettent d’améliorer nettement la

précision des simulations Monte-Carlo et même d’utiliser cette imprécision

pour quantifier l’erreur résiduelle des stratégies de couverture. Cependant, le
temps de calcul nécessaire à la mise en œuvre des méthodes Monte-Carlo reste
un handicap majeur dans la mesure où la convergence des simulations est
très lente ; beaucoup de calculs menés dans les banques mobilisent une nuit
de ressources informatiques. Nous allons aborder ci-après certaines théories
destinées à diminuer le temps de calcul nécessaire et à augmenter la précision
des résultats numériques.
Encadré 7.1. Vitesse de convergence.

La vitesse de convergence d’une méthode numérique est définie ici comme l’ordre de
grandeur de l’évolution de la précision en fonction du nombre d’étapes de calculs. Par
exemple, une convergence en 1/n2 signifie qu’en multipliant par 10 le nombre d’étapes
de calculs, la précision du résultat est multipliée par 100. Ainsi, une convergence en 1/n2
est beaucoup plus rapide qu’une convergence en 1/n, cette dernière tend vers 0 beaucoup
plus lentement. Seul l’ordre de grandeur nous importe, les constantes multiplicatives
ne nous intéressent pas : nous considérons des convergences en 1/n, en 3/n ou 50/n
comme équivalentes.
La question de la convergence se formule de la manière suivante : étant

donné un degré de précision, combien d’étapes de calcul sont nécessaires ? De
manière équivalente, étant donné un nombre d’étapes de calcul, quelle est la
précision probable de nos résultats ? La réponse à cette question nous indique la
vitesse de convergence de la méthode numérique. Dans le cadre de simulations
Monte-Carlo, les statistiques permettent d’évaluer précisément cette vitesse.
Schématiquement, lorsque l’on calcule la moyenne de n tirages aléatoires, la
moyenne estimée (calculée en moyennant les résultats des tirages) s’écarte de la
moyenne théorique √ (la moyenne réelle, que l’on cherche à estimer) d’un montant
de l’ordre de 1/ n. Le résultat de la moyenne des tirages aléatoires est lui-même
aléatoire : il est tout autant possible de tomber par hasard sur la valeur exacte
recherchée que sur une valeur totalement
√ aberrante. La théorie dit que l’erreur
sera, en général, de l’ordre de 1/ n où n est le nombre de tirages aléatoires. Ce
résultat est illustré dans le graphique 7.4.
Cette convergence statistique est très lente : pour une précision 10 fois su-
périeure, il faut réaliser 100 fois plus de tirages. Dans son application aux réso-
lutions d’équations financières, la méthode de Monte-Carlo est souvent encore
plus longue car elle nécessite de calculer les valeurs de l’actif à tout instant avant
l’échéance du produit, par exemple pour vérifier que des barrières n’ont pas été
dépassées dans le cadre d’options à barrières. Chaque tirage aléatoire compren-
dra alors N étapes de calculs pour définir l’évolution de l’actif sous-jacent entre 0
et l’échéance T. En effet, nous devons discrétiser le temps, c’est-à-dire découper

F IGURE 7.4. Estimation de π par méthode de Monte-Carlo. L’erreur moyenne statistique d’estimation décroît
√
en 1/ n : lorsque l’on passe de 100 à 10 000 tirages, soit 100 fois plus de tirages, l’erreur d’estimation n’a
été divisée que par 10 (elle passe de 0,16 à 0,016).
le temps continu t ∈ [0; T ] en N instants 0, T/N, 2T/N... Notre résultat final

subira donc deux sources d’incertitude :
– L’erreur statistique liée au
√ nombre n de tirages de Monte-Carlo, que l’on a
dit être de l’ordre de 1/ n.
– L’erreur liée à la discrétisation du temps en N pas de temps, que l’on
admettra être génériquement de l’ordre de 1/N.
Le nombre total d’étapes de calcul est, dans cette configuration, de l’ordre de
N × n : pour chacune des n simulations, nous devrons calculer la trajectoire des
actifs sur les N pas de temps. Pour minimiser le nombre de pas de calcul, il faut

choisir n et N intelligemment l’un par rapport à l’autre : comme les deux sources
d’incertitude s’ajoutent, il n’est pas nécessaire d’avoir une précision extrême d’un
côté alors que l’incertitude est très forte de l’autre. Il est possible de montrer
√ que le
meilleur choix est d’avoir des erreurs du même ordre de grandeur 1/ n ≈ 1/N,
soit n ≈ N 2 .
Finalement, pour une erreur approximative de 1/N, nous devrons donc dé-
couper l’échelle des temps en N points et réaliser N 2 tirages, soit au total N 3
étapes de calcul. Pour une précision 10 fois supérieure, nous devrons réaliser
1 000 fois plus de calculs. Cette convergence est extrêmement lente, voire handi-
capante dans un certain nombre de situations. Les techniques d’amélioration de
la convergence des méthodes de Monte-Carlo sont, de ce fait, d’une importance
capitale. Nous allons maintenant aborder une de ces techniques qui utilise les sé-
ries quasi aléatoires. Le lecteur intéressé pourra approfondir le sujet et découvrir
d’autres méthodes dans [Jäckel 2002].
Regardons le détail d’une des simulations Monte-Carlo ayant servi à calculer
π dans le graphique 7.4. Les points sont assez mal répartis dans le carré :
certaines zones sont plus denses alors que d’autres espaces sont assez vides.
Ce phénomène est un fardeau pour les estimations Monte-Carlo car les zones
de trop grande concentration de points seront sur-pondérées par rapport aux
zones de faible concentration. L’idée des séries quasi-aléatoires est, au contraire,
d’occuper l’espace d’une manière plus efficace que l’aléatoire afin d’obtenir une
meilleure convergence des estimations de Monte-Carlo.
Nous allons aborder ce problème en nous concentrant sur les tirages aléatoires
de points dans les hypercubes [0; 1]n , chaque point de l’hypercube représentant
un tirage de n variables aléatoires ( X1 , X2 , ..., Xn ) indépendantes et uniformément
réparties dans [0; 1]. Par exemple, pour n = 1, cela revient à choisir aléatoirement
un point sur le segment [0; 1], pour n = 2 cela conduit à tirer aléatoirement
un point dans le carré [0; 1] × [0; 1] comme nous l’avons fait pour estimer π.
Les mathématiciens savent transformer n variables aléatoires indépendantes et
réparties uniformément dans [0; 1] en n variables aléatoires de loi quelconque et
de structure de corrélation quelconque. Nous ne rentrerons pas dans ces calculs ;
retenons simplement que les résultats que nous illustrerons avec des tirages
uniformes dans les hypercubes [0; 1]n se généralisent facilement à tout type de
variables aléatoires, gaussiennes et lognormales en particulier.
Revenons à notre problématique : comment réussir à choisir des points
répartis de manière régulière et dense dans l’espace ? En dimension 1, la meilleure
manière d’occuper le segment [0; 1] reste naturellement le découpage régulier de
l’intervalle : 0, 1/N, 2/N, ... ( N − 1)/N, 1. Grâce à ce découpage en N + 1 points,

nous avons quadrillé l’intervalle de telle sorte qu’aucun point du segment ne
s’écarte de plus de 1/2N de l’un des points du quadrillage. Supposons que l’on
cherche à estimer une espérance E ( f (u)) où u est une variable aléatoire répartie
uniformément dans [0; 1] et où f est une fonction dont on cherche la moyenne. Par
une méthode de Monte-Carlo brute, nous réaliserions des tirages aléatoires t1 , ...,
tn dans [0; 1] et estimerions n1 ∑
√ f (ti ) : cette méthode conduit au résultat souhaité
avec une convergence en 1/ n. Plutôt que d’utiliser nos n tirages aléatoires,
si nous partions d’un quadrillage de [0; 1], nous calculerions n1 ∑ f (i/n) : sous
l’hypothèse que f est à peu près régulière, cette méthode est nettement plus
efficace et converge avec une vitesse de 1/n vers le résultat souhaité.
En dimension 2, le problème est plus compliqué, car le quadrillage du carré

demande N 2 points ; de ce fait le quadrillage simple du carré ne donnera pas
de meilleurs résultats que les simulations de Monte-Carlo. En dimension d
quelconque, le quadrillage devient totalement inefficace puisqu’il requiert N d
points pour une précision de 1/N alors que la méthode de Monte-Carlo donne
une précision de 1/N avec N 2 points.
Le quadrillage simple est donc une bonne idée en dimension 1, mais il ne se

généralise pas directement. Pour résoudre ce problème nous allons construire
différentes suites dans [0; 1] qui occupent chacune l’espace presque aussi bien
que le découpage régulier de l’intervalle et qui paraissent indépendantes les unes
des autres : les suites de Van der Corput.
F IGURE 7.5. Représentation des 15 premières valeurs de la suite de Van der Corput en base 2. Ces
15 premiers tirages réalisent un découpage parfait (en 16 morceaux égaux) du segment [0; 1]. Les suites de
Van der Corput peuvent être utilisées pour améliorer la convergence des simulations Monte-Carlo.
Les suites de Van der Corput de base p sont construites en décou-

pant le segment [0; 1] en p sous-segments et en réitérant le découpage.

La suite de Van der Corput de base 2 se construit ainsi :
1. Découpage de l’intervalle en 2 en mettant le premier point au milieu
u1 = 1/2.
2. Découpage des deux sous-intervalles [0; u1 ] et [u1 ; 1] en deux en mettant le
second point au milieu du premier intervalle (u2 = 1/4) puis le troisième
point au milieu du second intervalle (u3 = 3/4).
3. Découpage en deux des 4 sous-intervalles [0; u2 ], [u1 ; u3 ], [u2 ; u1 ] et [u3 ; 1]
qui nous conduit à : u4 = 1/8, u5 = 5/8, u6 = 3/8 et u7 = 7/8...
Par cette technique illustrée en figure 7.5, la suite u1 , ...u2n −1 quadrille l’inter-
valle [0; 1] en 2n sous-segments de taille 1/2n . La méthode peut être utilisée en
partant d’un découpage en base 2 comme dans notre exemple, mais aussi en base
3, 4, etc. La suite de Van der Corput en base 10 est ainsi 2 : 0,1 ; 0,2 ; 0,3 ; 0,4 ; 0,5 ;
0,6 ; 0,7 ; 0,8 ; 0,9 ; 0,01 ; 0,11 ; 0,21...
L’utilisation d’une suite de Van der Corput est presque aussi efficace que le
quadrillage régulier du segment [0; 1]. Ces suites qui occupent l’espace de manière
régulière et dense sont dénommées suites à discrépance faible. Concrètement,
pour réaliser ses simulations Monte-Carlo, le quant doit remplacer ses N tirages
aléatoires t1 , t2 , ..., t N dans [0; 1] par les valeurs successives u1 , ..., u N d’une suite à
discrépance faible. Cette méthode s’appelle quasi Monte-Carlo car elle repose sur
des tirages non pas aléatoires mais sur des séquences déterministes bien choisies.
Une méthode très simple pour construire des suites à discrépance faible en
dimension d quelconque est d’utiliser directement d suites de Van der Corput
de bases distinctes. En dimension 2 par exemple, nous pouvons créer la suite
( xn , yn ) où xn est une suite de Van der Corput de base p et yn une suite de Van
der Corput de base q. De cette manière, la suite xn se répartit de manière optimale
sur l’axe des abscisses et yn sur l’axe des ordonnées. Pour assurer que le couple
( xn , yn ) remplisse convenablement l’espace, il reste une dernière condition à
ajouter, qui nous vient de l’arithmétique : p et q doivent être premiers en eux
(ne pas avoir de diviseurs communs). Dans ce cas, les suites xn et yn jouissent
de toutes les propriétés d’indépendance nécessaires qui permettent au couple
de remplir convenablement l’espace. Dans le cas contraire, les suites xn et yn
présentent des similarités qui les concentrent dans certaines zones. Dans le cas
le plus extrême par exemple où p = q, nous avons xn = yn et la suite ( xn , yn )
reste sur la diagonale x = y (qui est alors occupée de manière parfaitement
dense et régulière, mais ce n’est pas l’objet de la construction !). Pour éviter de se
2 Il s’agit d’un comptage simple 1, 2, 3, ..., 10, 11, 12, etc. dont on a inversé l’ordre des chiffres et
ajouté une virgule ; par exemple le 1 040e terme d’une suite de Van der Corput en base 10 est 0,0401.

Suites de Van der Corput de bases 2
Nuage aléatoire de points
(abscisses) et 3 (ordonnées)
Suites de Van der Corput de bases 2 Suites de Van der Corput de bases 6
( ) et 4 (ordonnées)
(abscisses) ( ) ( ) et 3 (ordonnées)
(abscisses) ( )
F IGURE 7.6. Exemples de quadrillage de l’espace. Le graphique en haut à gauche correspond à des
tirages aléatoires. Ces derniers ne se répartissent pas de manière optimale dans l’espace, ce qui ralentit
la convergence des simulations Monte-Carlo. Au contraire, le graphique en haut à droite qui représente les
tirages d’une suite de Halton (suite de Van der Corput de base 2 en abscisses et de base 3 en ordonnées)
montre une occupation très dense et régulière de l’espace. Les graphiques en dessous représentent des
tirages de points réalisés à partir de suites de Van der Corput de bases non premières entre elles qui laissent
des zones vides d’occupation.
poser trop de questions d’indépendance, les suites sont en général construites en

partant de bases p1 , p2 , etc. où les pi sont des nombres premiers. Les suites ainsi
construites s’appellent les suite de Halton. Ces dernières ne sont toutefois pas les
suites les plus efficaces, les quant leur préfèrent les suites de Sobol, plus difficiles
à construire et que nous ne détaillerons pas.
Grâce aux suites à discrépance faible, comme illustré dans le graphique 7.7
nous avons pu accélérer notablement la convergence des simulations. Il est
ln(n)d
conjecturé que la vitesse limite de convergence est n où d est le nombre de

F IGURE 7.7. Convergence des méthodes de Monte-Carlo (utilisation de tirages aléatoires) et de quasi
Monte-Carlo (utilisation d’une suite de Halton) dans l’estimation de π . La supériorité de la suite de Halton
pour l’estimation de π est flagrante sur ce graphique, l’estimation converge beaucoup plus vite.
dimensions. Ce point reste toutefois en attente de démonstration ! En attendant,

les suites que nous avons évoquées, de type Halton et Sobol restent les suites
qui apportent empiriquement la meilleure vitesse de convergence. Les suites de
Halton, si elles offrent une bonne convergence asymptotique, sont peu efficaces
en dimension élevée.
2 Méthode des différences finies*

Cette section est essentiellement dédiée à la résolution numérique d’une équation aux
dérivées partielles, le lecteur qui n’est pas familier avec de telles équations peut passer
directement au prochain chapitre ; les notions développées ci-après sont relativement
techniques et ne sont pas réutilisées dans la suite du livre.
Nous avons introduit au chapitre 5 l’équation de Black-Scholes :
∂Πt ∂Πt 1 2 2 ∂2 Πt
+ rSt + σ St = rΠt (7.6)
∂t ∂S 2 ∂S2
Dans le modèle de Black-Scholes, cette équation doit être satisfaite par n’im-
porte quel produit financier, dont le prix Πt (St ) à un instant t dépend de la valeur
St d’un actif sous-jacent. Pour mémoire, dans ce modèle, St suit un mouvement

lognormal de volatilité annuelle σ (peu importe sa dérive) et le taux d’intérêt
sans risque est constant et noté r.
Pour fixer les idées, nous nous attacherons dorénavant à l’exemple d’un call
sur une action St d’échéance T et de strike K. Le prix Πt (St ) de ce call devra non
seulement satisfaire l’équation (7.6) mais aussi la condition terminale suivante :
Π T (ST ) = max (0; ST − K ) (7.7)
Les deux équations (7.6) et (7.7) suffisent à caractériser le prix Πt : moyen-

nant des hypothèses très peu restrictives, il n’existe qu’une seule fonction Πt (St )
qui satisfasse ces deux équations. Cette propriété n’est pas spécifique aux call,
n’importe quelle condition terminale remplaçant (7.7) peut être utilisée. Néan-
moins, pour ne pas rendre encore plus abstraite la présentation, nous resterons
sur l’exemple du call qui est, normalement, bien connu du lecteur à ce stade du
livre.
La méthode des différences finies est une technique qui permet de résoudre
numériquement les deux équations (7.6) et (7.7), c’est-à-dire qui permet de
calculer explicitement les valeurs de Πt (St ) pour peu que les paramètres r, σ, K,
T soient numériquement spécifiés. L’idée sous-jacente est très simple :
– L’équation (7.6) peut être discrétisée : comme dans le cadre des arbres
binomiaux, nous revenons vers un temps discret t = 0, dt, 2 × dt, ..., N × dt,
... et des valeurs possibles de St discrètes : 0, dS, 2 × dS, ..., N × dS...
– Une fois discrétisée, l’équation (7.6) permet de calculer les valeurs de Πt à
partir de celles de Πt+dt .
– Or, les valeurs de Π T en T sont connues grâce à l’équation (7.7). Il suffit
donc de remonter le temps en partant de T, puis T − dt, T − 2 × dt, etc.
jusqu’à 0.
Mettons cela en pratique et fixons-nous dt et dS les pas de discrétisation du
temps et de l’action. Les dérivées partielles peuvent être exprimées, au premier
ordre, par les différences suivantes :
⎧
⎪
⎪
⎪
∂Πt
∂t = Πt (St )−dtΠt−dt (St ) + O(dt)
⎪
⎪
⎨
∂Πt
∂S = Πt (St +dS)− Πt (St −dS)
2dS + O(dS2 ) (7.8)
⎪
⎪
⎪
⎪ Πt (St +dS)−2Πt (St )+Πt (St −dS)
⎪
⎩ ∂∂SΠ2 t =
2
+ O(dS2 )
dS2
Les signes O(dt) et O(dS2 ) signifient que l’erreur d’approximation que l’on
commet est de l’ordre de grandeur de dt et dS2 . Plus les pas de discrétisation

seront petits, plus l’erreur d’approximation sera faible. Dans ce jeu d’équations,
toutes les expressions sont définies à partir de la fonction Πt (.) sauf un unique
terme qui est écrit avec la fonction Πt−dt (.). De ce fait, en injectant les approxi-
mations (7.8) dans l’équation (7.6) et en réorganisant les termes, il est possible
d’exprimer Πt−dt (.) à partir de Πt (.). Le résultat de ce calcul donne :
2 2
σ S dt
Πt−dt (St ) = Πt (St − dS) × 2dSt 2 − rS t dt
2dS

σ S dt
2 2
+ Πt (St ) × 1 − rdt − dSt2
2 2 (7.9)
σ S dt
+ Πt (St + dS) × 2dSt 2 + rS2dS t dt
+ O(dt × dS2 ) + O(dt2 )
Cette équation est longue et rébarbative, mais elle ne présente aucune diffi-
culté technique : elle énonce que la valeur de Πt−dt (St ) se calcule en ajoutant et
multipliant différents termes et, parmi eux, les paramètres du modèle (σ, r, dt, dS)
et les valeurs de Πt (.) en St − dS, en St et en St + dS. Ce calcul fait naître deux
erreurs d’approximation, dont les tailles sont de l’ordre de dt2 et dt × dS2 . Ainsi,
en oubliant les erreurs d’approximation O(dt2 ) et O(dt × dS2 ), la méthode des
différences finies que nous étudions repose sur l’équation de propagation :
2 2
σ S dt
Πt−dt (St ) = Πt (St − dS) × 2dSt 2 − rS t dt
2dS

σ S dt
2 2
+ Πt (St ) × 1 − rdt − dSt2 (7.10)
2 2
σ S dt
+ Πt (St + dS) × 2dSt 2 + rS2dS t dt
Cette équation permet à un ordinateur, en prenant pour point de départ la

valeur connue en T de Π T (ST ) – c’est par définition l’équation (7.7) – de calculer
successivement toutes les valeurs de Π T (.), puis celles de Π T −dt (.), celles de
Π T −2×dt (.) et ainsi de suite ; le résultat des itérations étant Π0 (.) qui est le prix
aujourd’hui du produit dérivé.
Ainsi, la méthode des différences finies revient à parcourir une grille, telle
que représentée sur la figure 7.8. Cette grille contient par construction T/dt
abscisses et Smax /dS ordonnées. L’ordinateur ne peut en effet pas construire
une grille infinie, il faudra en pratique limiter la valeur maximale possible de
l’action à une valeur suffisamment grande. Cela pose le problème des conditions
aux limites : comment calcule-t-on les valeurs Πt (S) lorsque S atteint les bords
du graphe ? L’équation (7.10) ne peut pas être calculée en S = 0 et S = Smax .

F IGURE 7.8. Illustration de la méthode des différences finies. Il s’agit de remplir à chaque point de la grille la
valeur de l’option Πt (S) que l’on souhaite valoriser. À t = T , la valeur est donnée par la condition terminale.
À S = 0 ou S = Smax , le calcul théorique permet en général de trouver des bonnes approximations du prix
Πt (0) et Πt (Smax ) à chaque instant t. Pour les autres points, il suffit de propager l’équation (7.10).
Cependant, dans ces cas limites, dans l’hypothèse où Smax est grand, il est en
général possible de calculer des formules explicites qui approchent Πt (0) et
Πt (Smax ). La solution retenue dépend alors du produit à valoriser ; dans le
cas d’un call, nous admettrons par exemple que Πt (0) = 0 et Πt (Smax ) ≈
Smax − Ke−r(T −t) . Ainsi, la méthode des différences finies revient à remplir la
grille de la figure 7.8 de la manière suivante :
1. Remplissage de la dernière colonne grâce à l’équation (7.7).
2. Remplissage de la première et dernière ligne grâce aux conditions aux
limites calculées : Πt (0) = 0 et Πt (Smax ) ≈ Smax − Ke−r(T −t) dans le cas du
call.
3. Remplissage de l’intérieur de la grille par propagation de l’équation (7.10).
Le principe d’application de la méthode des différences finies est simple, en

revanche, il est nettement plus compliqué de démontrer que la méthode permet
effectivement de retrouver la solution de (7.6). La vérification de la convergence
étant le point névralgique des méthodes des différences finies, nous allons
nous y atteler. Nous verrons d’ailleurs que la convergence n’est pas toujours

assurée et que des instabilités peuvent apparaître dans certaines situations.
Deux questions cernent la problématique de la convergence :
1. Quelle est l’erreur commise à chaque nœud de la grille ?
2. Comment cette erreur se propage-t-elle dans la grille ?
Si nous pouvons montrer que l’erreur créée à chaque nœud et propagée dans
toute la grille reste contenue, qu’elle tend vers 0 lorsque les pas de discrétisations
tendent vers 0, nous aurons démontré la convergence. La réponse à la première
question est le terme O(dt × dS2 ) + O(dt2 ), c’est l’erreur résultante de l’approxi-
mation des dérivées partielles dans les équations (7.8). Par définition du signe
O(.), il existe une constante M telle que 3 :
O(dt × dS2 ) + O(dt2 ) M dt × dS2 + dt2 (7.11)
La qualité de l’approximation à chaque nœud ne suffit pas à assurer la

convergence des différences finies, encore faut-il que cette erreur ne s’amplifie
pas lors de sa propagation. Notons t l’erreur maximale commise à chaque pas
de temps. Formellement, t = max0SSmax (|Πt (S) − Π∗t (S)|), où Πt (.) est le
prix calculé par la grille et Π∗t le prix théorique exact solution de (7.6). Par les
équations (7.9) et (7.11), après quelques calculs intermédiaires, nous pouvons
encadrer la propagation de l’erreur t de la manière suivante :

t−dt t × 1 − σ2 Smax 2 dt
dS2
− rdt + σ 2 S2 dt
max dS2 + rS dt
max dS
(7.12)
+ M dt × dS + dt
2 2
Le terme en facteur de t représente le taux d’accroissement de l’erreur. S’il

est plus grand que 1, l’erreur commise au premier pas de temps T −dt s’amplifie
au fur et à mesure de manière exponentielle : notre schéma numérique risque
alors de diverger. Comment contrôler ce facteur d’amplification ?
dt
La première étape est de contenir le rapport dS 2 : si le pas de discrétisation
de l’action est trop faible devant le pas de temps, cette quantité devient infinie,
tout comme le facteur d’amplification de l’erreur. Le graphique 7.9 montre bien
que cette condition n’est pas que théorique et que si le pas dS est trop faible, la
méthode ne converge pas. Supposons dS2 choisi suffisamment grand devant dt
dt
pour que dS 2 reste borné, et regardons plus précisément les autres termes du
facteur d’amplification dans l’équation (7.12). Les termes rSmax dS

dt
= dS × rSdS
max dt
2
3 Le lecteur mathématicien notera que nous supposons implicitement que les différentes dérivées
partielles de Πt (St ) sont bornées sur toute la grille.

et rdt tendront vers 0 lorsque les pas de discrétisation dS et dt tendront vers 0 :
ils n’influeront pas significativement sur l’erreur commise. Pour simplifier, nous
oublierons donc ces termes. Cela nous permet de simplifier l’équation de propa-
gation de l’erreur :
σ2 Smax
2 dt σ2 Smax
2 dt
t−dt t × 1− + + M dt × dS2 + dt2 (7.13)
dS2 dS2
Aussi, pour que le facteur d’amplification ne soit supérieur à 1 il faut alors

que :
σ2 Smax
2 dt √ dS
1 ⇔ dt (7.14)
dS 2 σSmax
Cette condition est la principale condition de convergence de la méthode des

différences finies appliquée à l’équation de Black-Scholes (7.6). Sans elle, rien
ne garantit que nos calculs mèneront effectivement à la bonne solution, comme
l’illustre le graphique 7.9.
F IGURE 7.9. La courbe bleue représente le prix d’un call calculé par la méthode des différences finies en
fonction du nombre de pas de discrétisation de l’action (le nombre de pas de temps étant fixé à 1 000 et
Smax = 500). La méthode est de plus en plus précise entre 0 et 150 pas de discrétisation de St et diverge
au-delà de 160.

Si la condition est satisfaite, l’équation (7.13) se simplifie et se propage très
simplement. Cela permet d’encadrer l’erreur en fin de grille, en t = 0 :
0 dt + M dt × dS2 + dt2
2∗dt + 2M dt × dS2 + dt2

(7.15)
...
M
dt dt × dS2 + dt2 = O(dt, dS2 )
En choisissant donc dS2 de l’ordre de dt, tout en respectant la condition fonda-

mentale de stabilité (7.14), nous venons de montrer que l’erreur de convergence
de notre schéma numérique est de l’ordre de dt. Schématiquement, pour une
précision voulue de 1/N = dt, nous devons découper le temps en N points et
√ 3
l’action en N points. Au total, on compte donc N 2 points dans la grille : la
méthode est beaucoup plus efficace que les simulations de Monte-Carlo où nous
avions besoin de N 3 étapes de calcul pour une même précision de 1/N.
En revanche, dès que le nombre de dimensions augmente, la méthode des
différences finies perd de son intérêt. On peut en effet montrer que le nombre de
pas de calcul nécessaires à une précision de 1/N est N 1+ 2 où d est le nombre de
d
dimensions. La méthode de Monte-Carlo demande quant à elle d × N 3 étapes de

calcul : elle devient vite plus efficace lorsque le nombre de dimensions augmente.
Par ailleurs, la méthode des différences finies ne donne pas directement
les distributions de probabilité des prix futurs des actifs. De ce fait, elle sera
moins utile que les simulations de Monte-Carlo pour évaluer les valeurs futures
probabilisées d’un actif ou d’un portefeuille d’actif et calculer des indicateurs
de risque associé : probabilité de perte, probabilité de perte de plus de x %,
Value at Risk que nous aborderons au prochain chapitre.
En revanche, un grand avantage de la méthode des différences finies est
que l’on résout en un seul passage l’intégralité de la fonction de valorisation
Πt (St ) pour tout t et tout St , contrairement à la méthode de Monte-Carlo où
l’on doit réitérer les calculs pour chaque point (t, St ) où l’on souhaite évaluer
Πt (St ). Ainsi, la méthode nous offre une grande souplesse d’analyse et une vue
complète des propriétés de valorisation. Par exemple, le calcul du delta, ∂Π
∂S , très
utile pour élaborer des stratégies de couverture, peut être réalisé sans effort
supplémentaire. Les autres dérivées partielles, appelées sensibilités peuvent
être tout aussi facilement calculées à chaque point de la grille. Cet avantage

est considérable par rapport à une méthode de Monte-Carlo ou le calcul des
sensibilités nécessite de relancer les simulations.
Cette vue d’ensemble de toute la grille permet également de raffiner facile-
ment la modélisation : nous pourrions ainsi introduire des paramètres dépendant
du temps et du niveau de l’action σ(t, St ) ou r (t), ajouter des sauts aux différents
points de la grille, prendre en compte une incertitude de paramètre, etc.
Dans la même logique, les méthodes des différences finies sont très efficaces
pour calculer les prix des options américaines. Rappelons qu’un call américain
offre à son détenteur l’option de demander au vendeur la somme max(St − K; 0)
à n’importe quel moment de la vie de l’option, la demande ne pouvant intervenir
qu’une seule fois. La problématique centrale est alors : quel est le meilleur moment
pour exercer l’option (c’est-à-dire réclamer la somme max(St − K; 0)) ? Cette
question s’aborde naturellement dans une grille de différences finies : à chaque
nœud (t, St ) de la grille, le calcul de l’équation de propagation (7.10) donne
la valeur de continuation de l’option, c’est-à-dire son prix si l’on décide de ne
pas exercer à ce moment-là. Cette valeur de continuation est à comparer à la
valeur d’exercice, c’est-à-dire le prix de l’option si l’on choisit de l’exercer, qui est
par définition max(St − K; 0). Le choix rationnel est alors évident : si la valeur
d’exercice est supérieure à la valeur de continuation il faut exercer l’option, et
dans ce cas Πt (St ) = max(St − K; 0) ; sinon, il faut conserver l’option et dans
ce cas Πt (St ) se calcule grâce à l’équation de propagation (7.10). En réitérant
le raisonnement à chaque point de la grille, nous réussirions non seulement à
valoriser notre option américaine mais aussi à identifier les situations d’exercice
optimal de l’option.
Comme dans le cas des méthodes Monte-Carlo, la méthode exposée ci-avant
doit être raffinée pour améliorer la convergence, mieux prendre en compte les
dimensions multiples, réduire et contrôler les instabilités, optimiser la calibration,
etc. Nous sommes rentrés dans le détail de certains raffinements de la méthode
de Monte-Carlo, nous laissons le lecteur approfondir les diverses méthodes des
différences finies dans [Wilmott 2006] ou [Duffy 2006].

8 La Value at Risk (VaR)
Les activités de marché des banques s’exercent sur des supports divers et variés.
Les actions, les taux d’intérêt, les titres de crédit en représentent une part impor-
tante tout comme les matières premières (énergies, produits agricoles, métaux...).
D’autres domaines d’application peuvent toutefois se rencontrer : immobilier,
émissions de CO2 , risques climatiques, etc. Dès lors, on comprend bien l’intérêt et
la difficulté à mesurer synthétiquement les risques engendrés par l’accumulation
de ces activités. L’industrie financière et les régulateurs se sont dotés d’indica-
teurs clefs dont la Value at Risk qui est le plus utilisé pour la mesure agrégée des
risques de marché. Preuve de l’importance que lui accorde la profession, la Value
at Risk est aussi utilisée par les autorités de contrôle bancaire dans le calcul des
fonds propres minimaux dont les banques doivent disposer pour continuer à
intervenir sur les marchés. Cet indicateur, dont la traduction littérale en langue
française, valeur en risque, n’est en pratique jamais utilisée, fera l’objet du présent
chapitre et sera désigné dans la suite par son acronyme : VaR.
Nous présenterons dans un premier temps une définition théorique de la VaR.

Dans un second temps, les problématiques relatives à sa mise en œuvre pratique
seront évoquées : sélection des facteurs de risque, choix des modèles d’évolution
des facteurs de risque, modélisation de l’impact des variations potentielles des
facteurs de risque sur le prix des produits financiers. En guise de conclusion,
nous aborderons les limites de cet indicateur, dont certaines ont été mises en
évidence durant la récente crise financière. Le présent chapitre introduit peu de
nouveaux concepts théoriques ; en revanche, les problématiques qu’il développe
sont très proches des sujets réels auxquels sont confrontés les professionnels des
risques de marché.
1 Principe général
Les activités de marchés d’une banque internationale sont généralement consti-

tuées de plusieurs sous-activités sans lien direct les unes avec les autres et agissant
potentiellement sur des types de risques très différents. Leurs fonctions peuvent
être de fournir les clients de la banque en produits financiers. Dans ce cas, il
s’agit alors principalement d’un rôle d’intermédiation, les trader n’ayant alors
pas vocation à spéculer mais devant couvrir les positions issues de la vente de
produits financiers à leur clientèle. D’autres activités sont dédiées à la spécula-
tion : leur objectif est d’élaborer des stratégies d’investissements pour le compte
de la banque dans le but de faire fructifier ses liquidités. Dans tous les cas, ces
sous-activités sont susceptibles d’engendrer des pertes en cas de variation des
prix des actifs. Ces risques s’appellent risques de marché.
Au gré des crises financières, l’industrie s’est peu à peu dotée de standards
en termes de mesure et de surveillance de ces risques de marché. Ainsi, il existe
dans chaque banque une entité en charge de s’assurer que la mesure de ces
risques est pertinente et que le niveau mesuré est en adéquation avec la structure
financière de l’établissement et le projet stratégique de ses dirigeants. Pour une
bonne maîtrise du risque, l’action de cette entité doit s’exercer à deux niveaux :
– Au niveau individuel, elle doit s’assurer que les risques pris individuelle-
ment par chaque trader sont contenus dans des limites raisonnables. Elle
vérifiera, par exemple, que les trader d’options sur actions ont bien couvert
le delta de leur portefeuille ou que le risque de crédit relatif aux investisse-
ments sur la dette de l’État grec réalisés par un trader dédié n’est pas trop
important.
– Au niveau global, elle doit contrôler que l’agrégation de la totalité des
investissements des trader n’est pas de nature à faire courir un risque trop
important à l’établissement.
Le niveau de contrôle individuel nécessite de bien identifier les risques

que génèrent les activités de marché de la banque puis de mettre en place
les indicateurs individuels idoines. Le niveau de contrôle global nécessite la
construction d’un indicateur synthétique permettant d’agréger l’ensemble des
risques individuels. En effet, sans un tel indicateur, comment apprécier le risque
global résultant de deux investissements sur des supports aussi différents que,
par exemple, le CAC 40 et le cuivre ? Le portefeuille constitué de 10 Me de cuivre
et d’une position de vente à découvert de 5 Me sur le CAC 40 1 est-il plus ou
1 La vente à découvert est le fait de détenir une proportion négative d’un actif, c’est-à-dire de gagner
de l’argent lorsque le cours de l’actif baisse.
150 Chapitre 8. La Value at Risk (VaR)

moins risqué qu’une simple position acheteuse de cuivre pour 7 Me ? La VaR,
indicateur universellement utilisé, a pour ambition de répondre à ce type de
questions, moyennant bien sûr de nombreuses hypothèses et approximations
que nous préciserons par la suite.
F IGURE 8.1. VaR à horizon 1 jour et au seuil de confiance de 90 %. Généralement, la VaR est un gain négatif
donc une perte, de 1,3 Me dans l’exemple ci-dessus. Concrètement, cela signifie que la probabilité de gagner
plus de −1,3 Me en 1 jour est de 90 %. De manière équivalente, la probabilité de perdre plus de 1,3 Me est
de 10 %.
Nous allons maintenant présenter les grands principes relatifs au calcul de

la VaR d’un portefeuille d’actifs. Supposons que nous connaissions la densité
de probabilité des gains quotidiens de ce portefeuille. La VaR à horizon 1 jour
et au seuil de confiance de 90 % est alors définie comme le montant K tel que la
probabilité pour que la perte quotidienne n’excède pas K soit égale à 90 % ; par
commodité, nous écrirons par la suite simplement VaR 90 % 1 jour. En termes
mathématiques, la VaR 90 % 1 jour se définit de la façon suivante :
Proba(Pertes en 1 jour > VaR) = 10 % (8.1)
Naturellement, de manière équivalente, nous aurions pu écrire : Proba(Gains

−VaR) = 90 %. La même démarche aurait pu être menée pour la distribution des
gains à un horizon de temps différent : 10 jours, 1 mois, 1 an, etc. Généralement,
les gains sont d’autant plus volatils que l’horizon de temps est long, l’incertitude
à long terme est plus prononcée que l’incertitude à court terme. Ainsi, la VaR
sera d’autant plus importante que l’horizon de temps est long.

Dans la plupart des cas, le calcul de VaR se fera non pas sur une densité de
probabilité continue telle que présentée sur la figure 8.1 mais plutôt à partir d’un
nombre fini de scénarios possibles de variations des valeurs du portefeuille. En
effet, il est en général plus aisé de calculer, à partir de données historiques ou de
simulations Monte-Carlo, un ensemble de scénarios équiprobables de variation
des valeurs du portefeuille que la distribution de probabilité de ces variations.
En ordonnant ces scénarios de la perte la plus élevée au gain le plus élevé, il est
possible d’obtenir une estimation de la VaR du portefeuille. La VaR 90 % 1 jour
sera alors :
– la perte associée au 10e scénario si l’on a utilisé 100 scénarios au total ainsi
que l’indique la figure 8.2 ;
– la perte associée au 100e scénario si l’on a utilisé 1 000 scénarios ;
ne
– la perte associée au 10 scénario si l’on a utilisé n scénarios.
F IGURE 8.2. Détermination de la VaR 90 % 1 jour à partir d’un jeu de 100 scénarios de variation quotidienne
de la valeur du portefeuille. Chaque barre représente les gains réalisés en 1 jour dans l’un des 100 scénarios
équiprobables simulés ; ces scénarios sont classés par ordre croissant de gain. La VaR est la perte (en
ordonnées) du 10e scénario.
Le montant de VaR de 1,3 Me obtenu dans l’exemple de la figure 8.1 indique,

qu’en moyenne, les pertes supérieures à ce montant ne devraient se produire
qu’une fois tous les 10 jours, ainsi que l’illustre le graphique 8.3. Ce type de
vérification, appelé backtesting est couramment employé afin de s’assurer que
les hypothèses utilisées pour le calcul des scénarios sont adéquates. En effet,
jusqu’alors, nous avons considéré comme acquise la connaissance de ce jeu de
scénarios. Cependant, en pratique, la problématique de leur évaluation nécessite

la formulation de nombreuses hypothèses et constitue le cœur de la mise en
œuvre opérationnelle du calcul de VaR qui fera l’objet de la prochaine section.
F IGURE 8.3. Gains quotidiens générés par un portefeuille fictif durant 200 jours. Les pertes dépassent le
montant de VaR 90 % 1 jour à environ 20 reprises, soit dans 20/200 = 10 % des cas, comme attendu.
2 La VaR en pratique
2.1 La sélection des facteurs de risque
Le calcul d’une VaR d’un portefeuille d’actifs nécessite l’estimation de scénarios

représentatifs des gains et pertes potentielles. Une première méthode simpliste
pourrait être d’estimer directement, à partir de l’historique des variations de
valeur du portefeuille, le profil de ses gains. Cependant, une telle méthode irait à
l’encontre des bonnes pratiques statistiques selon lesquelles il est préférable de
modéliser la cause d’un phénomène plutôt que ses conséquences. Pour le quant
qui calcule une VaR, la conséquence modélisée est la variation de la valeur du
portefeuille et les causes de cette variation sont l’évolution des cours des actions,
des courbes de taux, des volatilités implicites, des spread de crédit... Aller à
l’encontre de ce principe est susceptible de générer des biais dans la modélisation.
En premier lieu, la composition du portefeuille peut changer au cours du temps,
soit par l’action du trader, soit par le fait que les rendements différents des actifs
vont modifier naturellement leurs poids respectifs dans le portefeuille. En second
lieu, le prix de certains actifs va tendre vers une valeur limite au fil du temps et
toutes choses égales par ailleurs : c’est notamment le cas des obligations dont la

valeur va tendre vers le nominal ou des options dont le prix va tendre vers le
payoff. Ces deux phénomènes sont de nature à rendre inexploitable l’historique
puisque la distribution des rendements du portefeuille variera au fil du temps.
Le calcul de la VaR ne peut ainsi se satisfaire d’une modélisation monolithique
du portefeuille, il nécessite d’analyser puis de modéliser les différentes sources
de risques du portefeuille.
Qu’entend-on par « sources de risques » ? L’ensemble des activités de marché
d’une grande banque d’investissement peut être assimilé à un portefeuille de
produits financiers variés dont les valeurs dépendent de paramètres très divers
comme le niveau du cours des actions, les courbes de taux, les cours de change,
les cours des matières premières, les spread de crédit, les nappes de volatilité
associées à chacune de ces données, des paramètres de dépendance comme la
corrélation entre plusieurs actifs... En toute rigueur, chaque paramètre susceptible
de faire évoluer la valeur des actifs constitutifs du portefeuille devrait être pris
en compte dans la construction des scénarios. En pratique, procéder de la sorte
s’avère généralement inapproprié. La multiplication de ces paramètres risque
en effet de conduire à un accroissement significatif des ressources informatiques
et humaines nécessaires à la construction de l’indicateur sans gain matériel
en termes de précision. Il est donc généralement nécessaire de sélectionner les
paramètres les plus importants. Ces paramètres ainsi sélectionnés sont les facteurs
de risque du portefeuille, c’est-à-dire ceux qui sont les plus susceptibles d’avoir
un impact sur la valorisation du portefeuille.
La sélection de ces facteurs de risque procède globalement d’un arbitrage
entre gain de précision et surcoût engendré. Elle requiert, pour ce faire, une prise
en compte des stratégies des différents sous-portefeuilles. Par exemple, le prix
d’une obligation dépend de l’intégralité de la courbe des taux et de sa courbe
des spread de crédit. Doit-on pour autant conserver l’intégralité des points de ces
courbes dans le calcul de VaR ? N’est-il pas préférable de n’utiliser que les mouve-
ments principaux de la courbe des taux déterminés par l’analyse en composantes
principales présentée au premier chapitre ? La réponse à ces interrogations n’est
pas immédiate et dépendra notamment de la stratégie appliquée sur le porte-
feuille dont on cherche à calculer la VaR. Ainsi, pour une activité d’investissement
traditionnel sur des obligations d’États, prendre en compte uniquement les trois
principales déformations de la courbe des taux permettra de capter la plus grande
partie du risque. En revanche, dans le cas d’une activité plus sophistiquée où le
trader cherchera à exploiter ce qu’il estime être une anomalie de marché comme
un écart de prix trop important entre deux obligations de maturités proches,
cette sélection des facteurs de risque sera totalement inappropriée car elle ne
pourra capter le risque principal de cette stratégie : la variation de l’écart de prix

entre deux obligations de maturités proches. Un second exemple présenté en
figure 8.4 illustre également combien la stratégie est déterminante dans le choix
des facteurs de risque.
F IGURE 8.4. Les deux graphiques présentent le résultat de la simulation de 1 000 scénarios d’évolution de
la valeur d’un portefeuille composé, respectivement, d’un call sans couverture en delta et d’un call couvert
en delta. Pour rappel, le delta, noté Δ, est la sensibilité du prix de l’option à la variation du cours de l’action.
Comme nous l’avons vu au chapitre 5, couvrir en delta signifie détenir l’option et −Δ actions, cela permet de
neutraliser le risque de variation du prix de l’option en cas de variation du cours de l’action. Le profil de la
distribution des gains de la première stratégie est relativement indifférent au fait de sélectionner ou non la
volatilité implicite en tant que facteur de risque : le risque principal sur un call non couvert est la variation de
valeur du sous-jacent et non de la volatilité. Cela n’est plus le cas pour la seconde stratégie pour laquelle le
risque principal devient la variation de volatilité implicite. Ne pas sélectionner ce paramètre en tant que facteur
de risque revient donc à nier l’existence du risque principal de cette stratégie. L’impression visuelle laissée
par ces deux graphiques est confirmée par le calcul de la VaR 90 % 1 jour dans les différentes configurations.
Enfin, il est à noter que certains paramètres, comme certains spread de crédit,
peuvent ne pas disposer d’historiques suffisants pour être exploitables statisti-
quement. De ce fait, leur intégration aux facteurs de risque nécessitera vraisem-
blablement le recours à des approximations ou des hypothèses supplémentaires.
Cet élément est donc également à prendre en considération lors du choix des
facteurs de risque.

2.2 Modèles d’évolution des facteurs de risque
Une fois les facteurs de risque identifiés, l’étape suivante consiste à modéliser leur
évolution. L’approche la plus naturelle est d’utiliser l’historique des variations
des facteurs de risque sans formuler d’hypothèse sur la forme qu’elles peuvent
prendre. Ce mode de calcul de VaR est communément appelé VaR historique.
Il ne repose sur aucune hypothèse de modélisation des facteurs de risque mais
suppose néanmoins la stationnarité de leur distribution – dire que la distribu-
tion des facteurs de risque est stationnaire signifie que leurs lois d’évolution
sont constantes dans le temps. Une VaR historique peut être calculée sur des
portefeuilles quelconques, contenant des produits complexes comme des options
exotiques par exemple. Dans ce cas, l’historique devra comprendre les données
relatives à tous les facteurs de risque sélectionnés ce qui sera d’autant plus diffi-
cile que certains d’entre eux peuvent être difficilement observables (volatilité de
la volatilité par exemple). Le calcul de VaR à partir de ces historiques nécessitera
ensuite l’utilisation d’un modèle de valorisation pour rendre compte de l’impact
des variations des facteurs de risques sur la valeur du portefeuille.
Alternativement au calcul de VaR historique, il est tout à fait possible d’impo-
ser la forme de la distribution des facteurs de risque. À l’instar du problème de
modélisation du risque de défauts multiples rencontré lors du chapitre 2, nous
faisons face à un cas multidimensionnel puisque nous avons non seulement à
modéliser la distribution individuelle des facteurs de risque mais également leurs
probabilités conjointes d’évolution. Le cas le plus classique consiste à suppo-
ser que les facteurs de risque suivent une distribution gaussienne. Nous avons
vu aux chapitres 2 et 5 la distribution gaussienne à une dimension. Sa version
multidimensionnelle permet d’adjoindre aux distributions individuelles ce que
l’on appelle une structure de corrélation. L’avantage principal de cette structure
réside dans sa simplicité puisque la probabilité d’évolution conjointe de variables
aléatoires suivant une loi gaussienne multidimensionnelle ne dépend que des
moyennes et variances des distributions individuelles ainsi que d’un unique
paramètre par couple de variables : le coefficient de corrélation. Ainsi, pour
2 facteurs de risque – par exemple les rendements des actions LVMH et PPR –
5 paramètres suffiront à décrire leur distribution conjointe : les moyennes des
rendements (2 paramètres), les variances des rendements (2 paramètres) et un
coefficient de corrélation. Pour 3 facteurs de risque, nous aurons besoin de 9 para-
mètres ; pour n facteurs de risque, 2n + n(n − 1)/2 (n couples moyenne/variance
et n(n − 1)/2 coefficients de corrélation). Les facteurs de risque sont ainsi modé-
lisés par ce que l’on appelle un vecteur gaussien.
Une erreur largement répandue consiste à affirmer que n variables aléatoires
suivant une loi normale forment un vecteur gaussien à n dimensions. Dans un

vecteur gaussien, toute combinaison linéaire de ses composantes suit une loi
normale. C’est cette dernière condition qui détermine la structure de corrélation
et qui permet la description de l’intégralité de la dépendance entre deux variables
aléatoires par un unique paramètre de corrélation. Conséquence de cette sim-
plicité de paramétrisation, la forme de la distribution d’un vecteur gaussien est
relativement rigide. La figure 8.5 présente, par exemple, la densité du vecteur
gaussien à deux dimensions calibrée sur les rendements des actions PPR et LVMH.
Les courbes formées par l’intersection de la surface avec des plans horizontaux
forment des ellipses concentriques qui représentent les zones dans lesquelles
les réalisations du vecteur gaussien sont les plus probables. Le coefficient de
corrélation permet d’influer sur l’aplatissement de l’ellipse et son orientation
comme le montre la figure 8.6 qui présente des réalisations de vecteurs gaussiens
avec diverses valeurs de corrélation. Nous reviendrons dans la dernière section
de ce chapitre sur les implications et les limites de cette modélisation gaussienne.
F IGURE 8.5. Densité d’un vecteur gaussien à deux dimensions paramétré à partir des rendements des
actions PPR et LVMH. La structure de corrélation imposée par le vecteur gaussien est relativement rigide.
Par exemple, ainsi que le montre la densité tronquée par un plan horizontal sur la figure de droite, les
courbes formées par l’intersection de la surface avec des plans horizontaux sont nécessairement des ellipses
concentriques.
2.3 Impact des facteurs de risque sur le portefeuille
À ce stade, nous disposons d’une liste de facteurs de risque et de leurs distribu-

tions, que ces dernières soient empiriques ou modélisées (par un vecteur gaussien
par exemple). Il reste à retranscrire ces probabilités de variation des facteurs de
risque en scénarios de variation de valeur du portefeuille.
Le cas de la VaR historique semble simple : il suffit d’effectuer une valorisation
du portefeuille à partir des niveaux des facteurs de risque de chaque jour de
l’historique dont nous disposons. Quant au cas où la distribution des facteurs
de risque a été modélisée, il est possible de simuler un pseudo-historique via

F IGURE 8.6. Tirages de vecteurs gaussiens à deux dimensions pour diverses valeurs de corrélation. Ces
graphiques illustrent l’impact du coefficient de corrélation. Si le coefficient est proche de 0, les variables
constitutives du vecteur sont indépendantes et les quatre quadrants sont symétriques. Si le coefficient se
rapproche de 1 ou −1, le nuage s’écrase sur une des deux diagonales. Lorsque la corrélation est 1 ou −1, le
nuage devient un segment car les variables sont liées de façon déterministe.
la technique de Monte-Carlo qui a été précédemment abordée. Cette méthode

permet en effet de simuler un jeu de scénarios d’évolution conjointe de l’ensemble
des facteurs de risque qui pourra donc être utilisé pour le calcul d’une VaR
appelée VaR Monte-Carlo. Cette apparente simplicité masque néanmoins une
difficulté de taille. Comment calculer la variation de valeur d’un portefeuille
constitué de produits dérivés, comme des options complexes par exemple ? La
valorisation de ce type d’instruments nécessite généralement l’usage de méthodes
de résolution numérique gourmandes en temps de calcul et en espace mémoire.
Est-il envisageable de recalculer pour chaque instrument et chaque scénario
une nouvelle valeur à l’aide de tels modèles de valorisation ? La réponse à cette

dernière question dépend bien évidemment de nombreux paramètres : le nombre
et la complexité des produits à traiter, les ressources informatiques à disposition,
la fréquence de calcul des indicateurs de VaR...
F IGURE 8.7. Développements au premier et second ordre du prix d’un call sur l’action PPR. Les deux
approximations sont acceptables à proximité du point initial (matérialisé en rouge sur le graphe) mais
deviennent peu précises lorsque la variation du prix de l’action sous-jacente est trop importante. On note
également que l’approximation au second ordre est toujours supérieure au prix du call.
Dans de nombreux cas, un recalcul systématique n’est pas envisageable. Une

solution alternative consiste alors à utiliser les sensibilités du portefeuille à chacun
des facteurs de risque. Illustrons la par un exemple simple : le cas d’un portefeuille
constitué d’un unique call sur l’action PPR. La valeur d’un tel instrument dépend
principalement du prix de l’action sous-jacente et du niveau de la volatilité
implicite. À l’aide des sensibilités du prix de l’option à ces deux facteurs de
risque, il est possible d’approximer la nouvelle valeur de l’option après un choc
sur ces deux paramètres. Comme le montre la figure 8.7, l’approximation ne
sera acceptable que si les chocs appliqués ne sont pas trop importants. Cette
sensibilité peut être prise en compte à l’ordre un, c’est-à-dire en utilisant les
dérivées premières des prix par rapport aux paramètres. Le développement des
sensibilités à l’ordre deux, c’est-à-dire la prise en compte des dérivées secondes,
est souvent employé afin d’affiner l’approximation. Néanmoins, la figure 8.7
montre que cela ne garantit pas toujours une meilleure précision ou une approche
plus conservatrice lorsque les chocs sont importants.
Outre les contraintes de temps de calcul, la linéarisation du portefeuille (c’est-
à-dire l’approximation du prix des produits par les sensibilités) comporte un

autre avantage : il permet de calculer la VaR par une formule mathématique
directe, sans recours aux simulations Monte-Carlo. C’est ce que l’on appelle la
VaR paramétrique. Cette VaR est calculée dans un environnement où toutes
les variations sont approximées au premier ordre et suivent des lois et des
structures de corrélation gaussiennes. Dans cette configuration, rappelons que
toute combinaison linéaire de ces variations suit une loi normale. Ainsi, après
linéarisation, le gain d’un portefeuille peut s’exprimer comme la somme des
variations des facteurs de risques multipliés par les sensibilités. Finalement, les
variations de valeurs du portefeuille suivront une loi gaussienne, et grâce à cela,
il devient possible de déduire la VaR sans simulations Monte-Carlo.
F IGURE 8.8. Logigramme récapitulatif des étapes nécessaires au calcul de VaR. Ce schéma résume
notamment les 3 types de VaR : VaR paramétrique, VaR Monte-Carlo et VaR historique.
3 Limites de la VaR
3.1 Diversification et sous-additivité
La définition du risque auquel est soumis un portefeuille est un sujet théorique

mais qui comporte des implications pratiques fortes. Le risque mesuré par la VaR
est le niveau de pertes qui sera atteint à une fréquence donnée. Toutefois, l’indi-
cateur ne renseigne pas sur la gravité des pertes au delà de la VaR. Imaginons
ainsi deux portefeuilles A et B :
– Le portefeuille A a un niveau de VaR 90 % 1 jour de 2 Me et une moyenne
estimée des pertes supérieures à la VaR de 5 Me.

– Le portefeuille B a un niveau de VaR 90 % 1 jour de 2 Me et une moyenne
estimée des pertes supérieures à la VaR de 2,5 Me.
Si l’on se réfère uniquement à la VaR, ces deux portefeuilles semblent comporter
un risque équivalent. Néanmoins, le second indicateur, c’est-à-dire la moyenne
des pertes attendues supérieures à la VaR permet de déclarer que le portefeuille A
est plus risqué. Modifions quelque peu notre exemple :
– Le portefeuille C a un niveau de VaR 90 % 1 jour de 1,5 Me et une moyenne
estimée des pertes supérieures à la VaR de 3 Me.
– Le portefeuille D a un niveau de VaR 90 % 1 jour de 2 Me et une moyenne
estimée des pertes supérieures à la VaR de 2,5 Me.
Lequel de ces deux portefeuilles C et D est le plus risqué ? Cette question n’admet
pas de réponse universelle et dépendra de la définition et de la mesure de risque
employée.
Afin de forger un consensus des différentes propriétés que devraient vérifier
un indicateur de risque, la notion de mesure de risque cohérente a été définie.
Il existe plusieurs mesures cohérentes de risque mais il n’existe pas de critères
universels qui permettent d’en privilégier une à toutes les autres. Ainsi, comme
nous l’avons illustré dans les exemples ci-dessus, la hiérarchisation du risque
revêt nécessairement un caractère arbitraire.
En revanche, il est souvent souvent reproché à la VaR de ne pas satisfaire
à l’une des propriétés fondatrices des mesures cohérentes de risque : la sous-
additivité. Celle-ci indique que toute diversification du portefeuille conduira
nécessairement à une diminution de la mesure de risque. Sa traduction en langage
mathématique est la suivante. Notons M (.) la mesure de risque et X et Y des
actifs financiers différents ; la sous-additivité impose :
M ( X + Y ) M ( X ) + M (Y ) (8.2)
Cette propriété semble naturelle et est notamment en accord avec les théories
du portefeuille que nous avons abordées dans le chapitre 3 du présent ouvrage :
la diversification réduit le risque. Il s’avère cependant que la VaR ne satisfait pas
à cette propriété en toutes circonstances. Ces critiques, relatives au fait que la VaR
n’est pas sous-additive, nous semblent cependant d’une importance secondaire.
En effet, dans la plupart des cas, la diversification du portefeuille se traduira
bien par une diminution du montant de VaR ; ce comportement sera même
systématique dans le cas de la VaR gaussienne qui est bien sous-additive. De
plus, les contre-exemples construits pour illustrer ce défaut font généralement
état de profils de pertes potentielles très atypiques par rapport aux portefeuilles
rencontrés en pratique.

3.2 Stationnarité des facteurs de risque
L’hypothèse de stationnarité des facteurs de risque est indispensable au calcul

de VaR car c’est grâce à elle que leur comportement futur peut-être déduit de
l’observation du passé. Pour autant, les praticiens s’accordent à dire que cette
hypothèse est infondée. L’observation de l’évolution des variances du CAC 40 et
coefficients de corrélation des rendements des actions PPR et LVMH présentée
en figure 8.9 permet de le confirmer.
Corrélation glissante sur 100 jours Variance glissante sur 100 jours
F IGURE 8.9. Évolution des variances du CAC 40 et du coefficient de corrélation des rendements des actions
PPR et LVMH calculés sur une période glissante de 100 jours. Ce graphique illustre l’absence de stabilité des
variances et corrélations.
De part cette instabilité, les VaR calculées ne pourront jamais être prédictives
des pertes potentielles futures. Toutefois, l’existence de périodes de relative
stabilité de la variance permet de pondérer ce constat. De plus, la VaR peut être
interprétée non pas comme un estimateur prédictif des pertes potentielles futures
mais comme un indicateur synthétique renseignant sur l’évolution du risque du
portefeuille. Cette évolution peut être le fruit de l’action des trader, auquel cas, le
mode de calcul doit être suffisamment stable pour ne pas masquer un éventuel
changement de stratégie d’investissement. Elle peut également être due à une
augmentation de la volatilité des actifs. Dans ce cas, le modèle de VaR doit être en
mesure de capter cette évolution. Un des enjeux cruciaux du calcul devient donc
l’ajustement de la période d’estimation des paramètres. La fenêtre d’estimation
doit être :
– suffisamment longue pour rendre compte de la tendance de fond tout en
maintenant une certaine stabilité des estimateurs ;
– suffisamment réactive pour répercuter dans le résultat les changements de
conjoncture et de volatilité des marchés.

La non-stationnarité des facteurs de risque constitue un défaut majeur de
la VaR en tant qu’indicateur prédictif des pertes futures, il n’est toutefois pas
rédhibitoire dans le cadre d’une utilisation de la VaR à des fins de mesure de
l’évolution du risque. Ainsi, dès lors que la période d’estimation des paramètres
est adéquate, la VaR est à même de déceler les risques découlant d’un changement
dans la stratégie d’investissement des trader ou de variation des conditions de
marché.
3.3 Limites de la modélisation gaussienne des facteurs de risque
La modélisation gaussienne de l’évolution du niveau des facteurs de risque

présente de nombreux avantages : simplicité de calibration, simplicité de calcul.
Comme souvent, ces avantages sont compensés par des défauts majeurs. Nous
verrons au prochain chapitre que la modélisation gaussienne rend compte im-
parfaitement des variations du cours des actions : en particulier les variations
extrêmes sont sous-représentées dans le cadre de cette modélisation. Cela est
particulièrement problématique lorsque l’on cherche à modéliser les variations
extrêmes des actifs financiers, et en particulier dans le cadre du calcul de la VaR.
De façon équivalente, l’utilisation d’une structure de corrélation gaussienne
est inapte à modéliser le comportement réel de certains facteurs de risque, comme
nous allons le voir maintenant.
Remémorons-nous les figures 8.5 et 8.6. Le tirage aléatoire d’un échantillon
de vecteurs gaussiens produira un nuage de points formant plus ou moins une
ellipse. Le nuage de points résultant présente donc une symétrie centrale par
rapport au centre de l’ellipse. La forme du nuage est en effet identique dans
le quadrant Sud-Est et dans le quadrant Nord-Ouest du graphique 8.6 : cela
implique que la dépendance entre les actifs est identique en situation de pertes
(quadrant Sud-Est) et en situation de gains (quadrant Nord-Ouest). Or, la repré-
sentation par un nuage de points de l’historique réel des rendements des actions
PPR et LVMH conduit à une conclusion différente (graphique 8.10). On observe
sur ce graphique qu’en cas de baisse du cours d’une des actions, l’autre aura
tendance à baisser dans des proportions équivalentes. Ce phénomène ne se mani-
feste pas aussi clairement en cas de hausse des cours. Il s’agit d’un phénomène
classiquement observé pour l’ensemble des actifs financiers : les corrélations
augmentent en temps de crise. La structure de corrélation gaussienne est dans
l’incapacité de modéliser un tel phénomène ce qui constitue un inconvénient de
taille.
La modélisation gaussienne des facteurs de risque comporte un certain
nombre de défauts qui ont fait l’objet de nombreuses critiques à l’issue de la

F IGURE 8.10. Représentation de l’historique des couples de rendements des actions PPR et LVMH. La
dépendance en cas de rendements négatifs semble plus élevée que lorsque les rendements sont positifs
puisque le nuage de points est plus dispersé dans le quadrant en haut à droite. Au contraire, lorsque les
rendements sont négatifs (quadrant en bas à gauche) les points tendent plus à s’aligner sur la diagonale, ce
qui montre une plus forte dépendance.
dernière crise financière. L’utilisation d’une telle modélisation n’est pas toujours
adaptée et sa pertinence se doit d’être vérifiée. Toutefois, nous pensons que
les principales critiques à formuler à l’encontre la VaR vont au-delà des débats
techniques et tiennent à l’utilisation et la compréhension de la mesure. C’est
l’objet de la section suivante.
3.4 Stress tests et VaR stressée
Les calculs de VaR sont utilisés par les autorités de contrôle bancaire pour estimer
les montants de fonds propres réglementaires. Ceux-ci représentent les capitaux
propres minimaux dont les banques ont besoin pour être autorisées à maintenir
leur activité. Or, en période de crise, l’indicateur de VaR a tendance à croître
fortement du fait de l’augmentation de la volatilité des facteurs de risque. Ce
faisant, il réduit la marge de manœuvre des banques qui se voient parfois dans
l’obligation de céder une partie de leurs actifs, précipitant ainsi d’autant plus la
chute des marchés. La VaR peut ainsi être qualifiée de pro-cyclique en cela que
son mode de calcul amplifie les tendances de l’économie. En conséquence, plutôt
que d’aider à la maîtrise du risque, la VaR a pu contribuer à fragiliser le système.

C’est notamment pour cette raison que les régulateurs des organismes ban-
caires ont imposé le recours à une VaR dite stressée en complément de la VaR
traditionnelle. Le calcul de celle-ci s’appuie sur un historique comportant une pé-
riode de crise susceptible de faire connaître des pertes majeures à l’entreprise. Par
construction, cet indicateur est insensible aux cycles économiques et intègre l’effet
d’une crise économique sur la distribution des facteurs de risque. Pour éviter la
pro-cyclicité, les régulateurs ont également prévu d’introduire un mécanisme qui
permet d’ajuster les exigences de capital en période de crise économique.
Par nature, la modélisation des événements extrêmes est un exercice périlleux
et critiquable. Il est impossible d’affecter des probabilités à des événements très
rares et brutaux comme les crises financières. C’est pour cela que la VaR utilisée
en tant qu’estimateur des pertes extrêmes est vouée à l’échec :
– La VaR ne pourra jamais anticiper d’événements très rares qui ne se sont pas
produits dans un passé relativement proche et si tel est le cas, la probabilité
d’occurrence de cet événement risque d’être surévaluée et de biaiser le
calcul.
– Calculer une VaR 90 % 1 jour aura du sens car les événements conduisant à
des pertes supérieures à cet indicateur arriveront en moyenne 10 fois sur un
historique de 100 jours. Il sera en revanche inutile de calculer une VaR 99 %
1 an car les événements conduisant à des pertes supérieures à cet indicateur
arriveront en moyenne 1 fois sur un historique de 100 ans.
L’intérêt de la VaR réside donc dans sa capacité à modéliser des événements rares
mais suffisamment fréquents pour être statistiquement exploitables. Lui repro-
cher de ne pas pouvoir modéliser et prédire des phénomènes statistiquement
inobservables n’est simplement pas pertinent.
Encadré 8.1. Le comité de Bâle.

Le comité de Bâle réunit les autorités de contrôle de plusieurs pays (essentiellement
européens et d’Amérique du Nord) ; il propose des standards en matière de mesure
des risques bancaires, de surveillance de ces risques, de calcul des exigences en fonds
propres, etc. Les recommandations du comité de Bâle sont en général appelées les normes,
ou accords, Bâle I (publiées en 1988), Bâle II ([Basel Committee 2006]), Bâle 2,5 ([Basel
Committee 2009b]) et Bâle 3 ([Basel Committee 2010]). Ces recommandations ont ensuite
vocation à être traduites dans les réglementations nationales.
C’est pourquoi le dispositif de mesure des risques est généralement complété

d’indicateurs représentatifs de l’impact de scénarios de variations extrêmes des
facteurs de risque. Ces indicateurs appelés stress tests préexistaient à la crise
financière récente mais les scénarios les plus pessimistes se sont finalement

révélés dépassés par l’ampleur réelle de celle-ci. Parmi les raisons de ce relatif
échec identifiées par [Basel Committee 2009a] :
– Une schématisation trop radicale voire l’oubli de sources de risque comme
le risque de base. Le risque de base est le risque généré par une couverture
imparfaite d’un actif par un autre : par exemple, couvrir le risque de crédit
d’une obligation de maturité 5 ans par un CDS de maturité 10 ans, générera
un risque de base. Nous sommes ici à nouveau dans la problématique de
l’identification des facteurs de risque.
– Une frilosité dans la construction des scénarios, les dirigeants des banques
ayant généralement jugé improbables les stress tests les plus pessimistes au
regard des historiques disponibles.
– La schématisation excessive du fonctionnement des produits dérivés ayant
masqué des risques potentiels.
– Une mauvaise prise en compte du wrong way risk comme la corrélation
entre le défaut d’un titre et le défaut du vendeur de protection sur ce titre.
De manière générale, ce wrong way risk est la situation dans laquelle le
défaut d’une contrepartie est d’autant plus probable que les contrats que
nous avons avec elle sont à notre avantage.
– La sous-estimation de la durée des mouvements extrêmes de marché.
– Une réticence à envisager des schémas de corrélation différents de ceux
observés dans le passé.
– Mais aussi, une faible implication des dirigeants dans la construction et
l’analyse de ces indicateurs, une organisation des banques ne favorisant
pas la transversalité des informations, des systèmes d’information insuffi-
samment fiables ou interconnectés...
Certaines de ces déficiences sont en passe d’être corrigées mais la construction
de stress tests pertinents demeure une tâche complexe. En particulier, il reste
difficile de se dégager de l’influence des historiques et des crises passées dans
l’élaboration des scénarios de crise alors même que l’objectif de complémentarité
avec la VaR l’imposerait.

9 Modèles non gaussiens
Les modèles que nous avons étudiés à partir du chapitre 5 reposaient tous sur
des lois de probabilités gaussiennes. Au chapitre 6, nous avons affiné et adapté
cette base gaussienne aux anticipations de prix du marché par le truchement
des modèles de volatilité. De nombreux chercheurs et professionnels de la
finance, au sein des écoles françaises notamment, proposent de sortir de ces
paradigmes gaussiens pour aller vers de nouveaux types de modèles. Pour
y parvenir, la première étape est d’étudier les comportements historiques des
marchés financiers pour en tirer les leçons utiles et comprendre à quels endroits la
modélisation gaussienne échoue ; nous présenterons cette démarche en première
section.
Nous ne pourrons pas, dans le cadre de ce livre, faire un tour d’horizon
complet des modèles non gaussiens. Parmi les écoles très actives, évoquons les
éconophysiciens dont la démarche est de partir d’une analyse empirique, physique,
des marchés pour rendre compte de ses lois d’évolution. Les quant traditionnels
ne sont cependant pas en reste dans l’exploration des modèles non gaussiens et
continuent de développer des classes de modèles plus larges et mieux adaptées
aux historiques telles que les processus de Lévy ou les processus multifractals.
Dès 1963, Mandelbrot remettait en cause la loi gaussienne car elle sous-estime
la probabilité d’occurrence des variations extrêmes des cours que l’on appelle
« queues de distribution ». Dans [Mandelbrot 1963], il propose un modèle alterna-
tif, fondé sur les lois Pareto-stables qui semblent à l’inverse, au vu des analyses
actuelles, sur-estimer les queues de distributions empiriques. Sa modélisation
offre cependant deux voies d’approfondissement majeures que nous étudierons
respectivement en deuxième et troisième section :
– Ses queues de distribution suivent une loi puissance.
– Ses diffusions sont des processus de Lévy.
1 Mise à l’épreuve des modèles gaussiens
Jusqu’au précédent chapitre, nous évaluions la pertinence de nos modèles par leur
capacité à être en phase avec les prix du marché – c’est ce qui nous a conduit au
smile de volatilité. Nous allons maintenant revenir aux observations empiriques
afin de confronter nos modèles aux réalités historiques des cours de bourse.
F IGURE 9.1. Historique des cours du CAC 40, du S&P 500 et du Dow Jones en base 100 au 16/07/1987.
Distribution du CAC 40 Distribution du CAC 40

(échelle traditionnelle) (échelle logarithmique)
F IGURE 9.2. Distributions historiques des log-rendements quotidiens du CAC 40 et comparaison à la

distribution d’une loi normale centrée de même volatilité. Les deux graphiques présentent les mêmes
données, seule l’échelle des ordonnées diffère d’un graphe à l’autre. Ces figures démontrent que les log-
rendements des cours historiques ne suivent pas une loi gaussienne. Les distributions sont plus étroites et
les variations extrêmes (inférieures à −4 % par exemple) sont plus probables : les mathématiciens parlent
d’épaisseur des queues de distribution. Le phénomène est flagrant s’il est observé à l’échelle logarithmique, il
nécessite un zoom dans le cas contraire.
Le constat que l’on doit tirer du graphique 9.2 est que le modèle gaussien ne
s’accorde pas à la réalité. Le phénomène le plus flagrant est que la distribution
168 Chapitre 9. Modèles non gaussiens

historique des log-rendements 1 est moins aplatie que la distribution normale :
le cœur de la distribution historique est plus pointu, concentré, et les queues de
distribution sont plus épaisses. Concrètement cela signifie que, dans la distri-
bution historique, les variations habituelles, de moindre amplitude, sont moins
volatiles (cœur de distribution pointu), alors que les valeurs extrêmes sont quant
à elles beaucoup plus probables que celles prévues par la loi gaussienne (queues
de distribution épaisses).
En d’autres termes, le modèle gaussien sous-évalue les événements rares

que sont les crises et les pertes et gains exceptionnels. D’après [Haug 2007b],
les premières identifications des queues de distributions épaisses reviennent à
[Mitchell 1915], près de 60 ans avant le modèle de Black-Scholes. Pour détailler un
peu plus ce phénomène, nous avons reproduit dans le graphique 9.3 ci-dessous
les variations quotidiennes du CAC et du Dow Jones en identifiant les variations
qui dépassaient les 1er et 99e centiles gaussiens. Théoriquement, dans un modèle
lognormal, le taux de dépassement de chacun de ces seuils devrait être d’environ
une fois sur cent, soit autour d’une soixantaine de dépassements par seuil sur les
5 980 jours d’historiques présentés.
Rendements historiques du CAC 40 Rendements historiques du Dow jones
F IGURE 9.3. Les log-rendements historiques du CAC 40 et du Dow Jones Industrial Average sont ici
comparés aux 1er et 99e centiles gaussiens (droites rouges). Ces seuils sont, par définition, les niveaux
franchis en moyenne 1 fois sur 100 par des log-rendements gaussiens indépendants (modèle de Black-
Scholes). On note au contraire que les dépassements de seuils sont beaucoup plus fréquents et arrivent par
grappes dans des périodes de plus grande instabilité des cours.
Or, le graphique 9.3 montre 104 dépassements à la baisse et 84 dépassements

à la hausse. Ces taux de dépassement sont de plus de 30 % supérieurs à ce que

S t +1 St +1− St
1 Pour rappel, les log-rendements sont la quantité ln St ≈ St . Ils suivent une loi gaussienne
dans le modèle de Black-Scholes.

prédit le modèle gaussien. Si l’on observe à la loupe certaines variations :
– Le 19 octobre 1987 le CAC 40 perd 10 % et le Dow Jones 25 %.
– Le 13 octobre 2008 le CAC 40 et le Dow Jones gagnent tous deux 10 %.
– Le 28 octobre 2008 le Dow Jones gagne 10 %, le CAC 40 gagne 9 % le
lendemain.
De telles variations sont tout à fait aberrantes dans un modèle gaussien, leur
fréquence probable d’occurrence est inférieure à 1 fois toutes les 30 millions d’an-
nées. Le graphique 9.3 montre un second phénomène très intéressant : il existe
différents régimes d’amplitude de rendements. L’historique alterne les périodes
calmes, de faibles variations, et des périodes de turbulence où les amplitudes
de rendement sont très élevées. On constate en outre des dépassements consé-
cutifs de nos centiles gaussiens : dans notre historique il y a 8 occurrences d’un
dépassement du 99e centile gaussien 2 jours consécutifs. Si les variations étaient
réellement indépendantes, la probabilité d’observer 2 dépassements consécutifs
du seuil serait de (104/5 980)2 ≈ 0,03 % alors que le taux que nous constatons
est 4 fois supérieur (8/5 980 ≈ 0,13 %).
Ainsi, il semble bien que l’hypothèse d’indépendance des rendements soit

tout aussi injustifiée que l’hypothèse gaussienne. Le graphique 9.4 retrace ces
corrélations historiques sur notre période d’étude (juillet 1987 à mars 2011). Les
conclusions que l’on peut tirer de ce graphique sont les suivantes :
– Il ne semble pas qu’il existe de corrélation entre les log-rendements (la
corrélation tourne autour de 0). En d’autres termes, la valeur du log-
rendement un jour donné ne nous informe pas sur les log-rendements
futurs.
– En revanche, il est clair que les valeurs absolues des log-rendements sont
positivement corrélées. Cela signifie que si le log-rendement d’un jour
donné est élevé en valeur absolue, il est probable que le log-rendement
du lendemain (et des 10 jours qui suivent d’après notre graphique) soit
également élevé en valeur absolue. Les sens des variations restent quant à
eux incertains, ce qui garantit la non-corrélation des log-rendements.
Cela signifie que les amplitudes de rendement sont liées entre elles. Les ren-
dements sont bien décorrélés ce qui signifie que la valeur présente du rendement
ne nous permet par de prédire un rendement moyen futur positif ou négatif
– heureusement, sinon, il y aurait des opportunités d’arbitrage. En revanche, les
rendements ne sont pas indépendants au sens où il existe un lien statistique
entre les rendements passés et les rendements futurs : une forte variation passée
présage, en moyenne statistique, d’une forte variation future, sans que l’on puisse
pour autant en prévoir le sens.

F IGURE 9.4. Autocorrélations historiques des log-rendements et de leur valeur absolue. Le graphique montre
que les log-rendements sont décorrélés mais ne sont pas indépendants. En effet, les valeurs absolues des
log-rendements semblent quant à elles bien corrélées d’un jour sur l’autre.
D’autres phénomènes peuvent être observés à la lumière des données his-

toriques ; ils concourent tous à spécifier les exigences que nous devrions nous
imposer dans la modélisation de l’évolution des actifs financiers. Nous invitons
le lecteur intéressé à approfondir le sujet dans [Bouchaud et Potters 2003]. Dans
cette section, nous nous sommes concentrés sur les deux observations les plus
marquantes : épaisseur non gaussienne des queues de distribution ; décorrélation
mais non indépendance des rendements. Il est possible d’utiliser des modèles
de volatilité, tels qu’étudiés au chapitre 6, pour corriger ces imperfections du
modèle gaussien. Mais une bonne compréhension des phénomènes nécessite de
sortir du cadre gaussien et de ses avatars et d’étudier de nouvelles voies.
2 Les lois puissances
En 1963, Benoît Mandelbrot publie un article démontrant l’inadéquation du

modèle gaussien ; il propose une famille de lois alternatives, les lois Pareto-
stables, appelées également α-stable. Les lois gaussiennes vérifient la propriété
remarquable que la somme de deux variables gaussiennes indépendantes est une
variable gaussienne : les lois α-stables sont, par définition, celles qui vérifient
également ce type d’assertion (la somme de lois α-stable est α-stable). Nous

n’entrerons pas dans la théorie des lois stables mais nous nous arrêterons sur
deux de leurs propriétés :
– Elles possèdent en général (sauf pour le cas particulier gaussien !) une
queue de distribution épaisse, qui suit une loi puissance.
– Elles peuvent être modélisées par des processus de Lévy.
Le second point fera l’objet de la section suivante, concentrons-nous sur les
queues de distribution. Le graphique 9.5 montre un exemple de distribution α-
stable, la loi de Cauchy, comparée à la distribution gaussienne. Nous retrouvons
exactement les caractéristiques observées dans les graphiques de la figure 9.2 :
distribution plus étroite et valeurs extrêmes plus probables.
F IGURE 9.5. Comparaison des distributions d’une loi gaussienne et d’une loi de Cauchy. La loi de Cauchy
possède une queue de distribution nettement plus épaisse que la loi gaussienne.
On peut démontrer que, hormis dans certains cas particuliers, les queues
de distribution des lois α-stables suivent une loi puissance, c’est-à-dire que la
probabilité d’observer des valeurs supérieures à x, pour x suffisamment grand,
est proportionnelle à 1/x α avec 0 < α < 2. En notant S la variable aléatoire
modélisée, nous dirons qu’elle suit une loi puissance si, pour x suffisamment
grand :
1
P (|S| > x ) ≈ α (9.1)
x
Les études historiques (voir inventaire dans [Gabaix 2009] ou [Bouchaud et
Potters 2003]) montrent que cette loi puissance est une bonne modélisation des
queues de distribution historiques. Ces études, réalisées sur différents marchés

(américains, européens, asiatiques) semblent même toutes montrer une loi puis-
sance de paramètre α = 3 :
p
P (Rendement supérieur à n %) ≈ (9.2)
n3
Ainsi, si la probabilité d’observer une variation plus grande que 1 % est p
– la valeur de p dépend des caractéristiques propres du marché – alors la probabi-
lité d’observer une variation de n % sera p/n3 .
Tout en s’inspirant des lois Pareto-stables proposées par Mandelbrot, notre
constat empirique invalide ces lois car elles ne peuvent pas présenter de décrois-
sance en 1/x3 (le paramètre α d’une loi Pareto-stable est nécessairement compris
entre 0 et 2). Les distributions historiques des rendements montrent une queue
de distribution moins lourde que les lois α-stables. La loi 1/x3 semble valide
pour des rendements journaliers ou intra-journaliers mais sur une plus longue
période, mensuelle ou annuelle par exemple, les rendements paraissent toutefois
convenablement modélisés par une loi gaussienne. Ce phénomène est d’ailleurs
bien pris en compte par les marchés et peut être observé via le smile et le skew de
volatilité qui tendent à s’estomper sur les échéances lointaines, nous l’avions vu
en fin du chapitre 5. On dit ainsi que les distributions de rendements présentent
un effet d’échelle ; nous n’aurons pas le temps de l’approfondir ici. Sur une courte
période de temps, les modélisations par des lois puissances en 1/x3 présentent
une grande robustesse, et captent correctement les périodes de crise. En effet,
les crises historiques ne semblent pas être des anomalies statistiques lorsque
les rendements sont modélisés par des lois puissances ([Gabaix 2009]). Dans ces
modèles, de telles crises sont des événements certes rares mais possibles alors que
nous avons vu qu’elles sont complètement irréalistes dans un modèle gaussien.
S’il est intéressant de relever de telles constatations empiriques, encore faut-il
les expliquer : quels mécanismes, quelles hypothèses pourraient faire apparaître
ces lois puissances sur les marchés ? C’est à cette question que s’attèlent certains
éconophysiciens, s’inspirant d’autres domaines de modélisation. Les lois puis-
sances sont en effet très largement répandues, elles apparaissent régulièrement
dans les phénomènes physiques et socio-économiques.
Le modèle de [Cont et Bouchaud 2000] utilise la théorie de la percolation pour
rendre compte de l’influence qu’ont les différents opérateurs de marché les uns
sur les autres. Il constitue un excellent exemple de modélisation physique de
comportements financiers.
La théorie de la percolation étudie les propriétés des réseaux de connections,
à l’image de l’interaction des petits canaux dans une éponge dont la connectivité
déterminerait les capacités filtrantes de l’éponge (dans un modèle simple, s’il

F IGURE 9.6. Représentation graphique de la loi puissance P (|S| > x ) ≈ x1α et comparaison avec la loi
gaussienne. Plus le paramètre α est élevé, plus la décroissance de la probabilité P (|S| > x ) est rapide et
donc, plus les événements extrêmes sont improbables. La gaussienne décroît quant à elle plus rapidement
que toutes les lois-puissances.
existe suffisamment de canaux interconnectés d’un bout à l’autre de l’éponge,

alors l’eau pourra traverser l’éponge, sinon, elle sera étanche). Dans [Cont et
Bouchaud 2000], les canaux sont remplacés par les trader et la connectivité des
trader entre eux déterminera l’effet de troupeau, ou le degré de mimétisme.
Considérons ainsi que chaque opérateur de marché est indexé par un chiffre i.
Deux trader i et j peuvent être connectés ou non ; s’ils sont connectés, ils auront
le même avis sur une action donnée : il faut la vendre, il faut l’acheter, il faut ne
rien faire. La variation du prix de l’action est alors directement proportionnelle
au solde du nombre d’acheteurs et de vendeurs :
N
ΔSt ≈ ∑ φi (9.3)
i =1
Dans cette équation, i est le numéro du trader, N le nombre total d’intervenants

et φi représente la position du trader : φi = −1 si le trader i vend l’action, φi = 0
s’il n’intervient pas sur le marché et φi = 1 s’il est acheteur. Le lecteur familier
avec le théorème central limite (que nous aborderons dans la section suivante)
remarquera immédiatement que ce modèle conduit à une variation gaussienne
des prix dès lors que les avis des trader sont suffisamment indépendants et que le
nombre d’intervenants est grand (N >> 1). Au contraire, le modèle de Cont et
Bouchaud rend compte de l’effet de troupeau : les trader ne sont pas indépendants

entre eux, deux trader connectés partageant nécessairement le même avis. En
revanche, les avis de deux trader non connectés sont bien indépendants entre eux.
Ce modèle est caractérisé par plusieurs grandeurs :
– Le nombre de trader total N ; il est supposé être très grand.
– Le nombre moyen de connections d’un trader est noté c. Ce paramètre fixe
également la probabilité que deux trader i et j soient connectés qui est alors
c/( N − 1).
– Le nombre moyen total de trader intervenant effectivement sur le marché,
c’est-à-dire pour lesquels φi = 0, est noté nordre . Il représente ce que l’on
appelle en général la profondeur de marché. La probabilité que φi = 0 est
alors par définition nordre /N.
F IGURE 9.7. Deux tirages aléatoires du modèle de mimétisme de [Cont et Bouchaud 2000]. Chaque point
représente un trader, les liens entre les trader sont tirés aléatoirement. Cela permet de créer des groupes
de trader liés entre eux qui auront la même position (vendeuse, neutre ou acheteuse), cette dernière étant
tirée aléatoirement pour chaque groupe. Il y a 64 trader dans notre illustration, le paramètre c est fixé à 0,8 et
nordre à 13 ; cela correspond à une probabilité d’acheter de 10 % environ, une probabilité de ne pas intervenir
de 80 % et une probabilité de vendre de 10 %.
Si le nombre moyen de connections c est supérieur à 1, l’effet de troupeau

l’emporte sur le système et le modèle diverge : les réseaux de connections
(ensemble de trader connectés directement ou par l’intermédiaire d’autres trader)
sont de taille tellement importante que le solde de l’offre et de la demande est
arbitrairement grand.
Intéressons-nous au cas où l’effet de troupeau reste modéré, si c est proche de
1 tout en étant inférieur à 1. Supposons en outre que nordre reste fini, ce qui est
réaliste : le nombre d’ordres de bourse à un instant donné reste en général fini. Le
modèle conduit alors à une loi puissance exponentiellement tronquée du type :
1 − x/A
P (|S| > x ) ≈ e (9.4)
xα

Cette fonction ressemble à une loi puissance tant que x << A car, dans ce cas,
e− x/Aest proche de 1. En revanche, dès que x dépasse A, c’est la décroissance
exponentielle qui l’emportera, d’où la dénomination « troncature exponentielle ».
Ainsi, lorsque A est suffisamment grand, la loi pourra ressembler à une loi
puissance sur un domaine relativement large.
Cont et Bouchaud ont également quantifié l’épaisseur de la queue de distri-
bution de leur modèle, avec les deux constats suivants :
– Plus le nombre moyen de connections par trader est grand, c’est-à-dire plus
les avis des trader sont liés entre eux, plus les queues de distribution des
variations de prix seront épaisses.
– Plus la profondeur de marché nordre est faible, plus les queues de distribu-
tions seront épaisses également. Cela met bien en valeur le lien constaté sur
les marchés entre réduction de la liquidité, c’est-à-dire lorsqu’il y a moins
d’acheteurs/vendeurs, et augmentation des amplitudes de variations (et
donc, augmentation du risque).
Grâce à une structure très simple, qui repose sur l’influence mutuelle des
trader entre eux, nous avons donc pu mettre en valeur de nombreux phénomènes :
– loi puissance (exponentiellement tronquée) des variations de prix ;
– seuil critique dans l’effet de troupeau dont le dépassement conduit à
l’explosion du modèle ;
– influence du taux d’interconnexion des trader sur l’épaisseur des queues de
distribution ;
– lien entre profondeur de marché et épaisseur des queues de distribution.
Naturellement, la structure utilisée est trop schématique et approximative
pour donner une représentation fine des variations de prix. Elle est utile pour
comprendre les phénomènes, pour rendre compte de liens de causalités et,
éventuellement, pour mettre en garde sur l’existence de seuils critiques pouvant
conduire à l’instabilité des marchés. Elle présente en outre de nombreuses voies
de raffinement, par exemple dans la modélisation de l’influence des trader les
uns sur les autres. En effet, plutôt que de créer des liens binaires aléatoires entre
les trader, on peut imaginer des jeux d’influence où le choix d’un trader est dicté
non seulement par sa vue a priori du marché mais aussi par celle de ses voisins,
le poids de l’avis des autres dans le choix final du trader dépendant alors de son
influençabilité.
3 Les processus de Lévy

Quittons maintenant la logique physicienne pour aller vers une logique ma-
thématique où le point de départ n’est plus l’historique mais l’axiomatique.

La modélisation gaussienne s’appuyait sur les trois hypothèses fondatrices sui-
vantes :
– Les cours des actions sont continus.
– Leurs rendements (St+s − St )/St sont stationnaires.
– Les rendements sont indépendants des valeurs passées de l’action.
Ces trois seules hypothèses suffisent à définir le mouvement lognormal. Les

modèles de volatilité permettent d’adapter la modélisation, en jouant sur la
paramétrisation de la volatilité σ, constante dans le modèle lognormal d’origine
mais pouvant dépendre du temps, de la valeur de l’action, de l’historique de
volatilité ou d’un facteur aléatoire dans les modèles plus élaborés. Ainsi, les
modèles de volatilité étudiés au chapitre 6 permettent d’assouplir les hypothèses
de stationnarité et d’indépendance.
La seule hypothèse qui n’est pas remise en question par les modèles de
volatilité est la première : la continuité des cours. Il s’agissait d’une hypothèse que
nous avions considérée comme technique, sans grand impact sur la modélisation.
Or, abandonner cette hypothèse nous amène à une nouvelle classe de modèles
beaucoup plus large : les processus de Lévy. Partir de ces processus, pour
les adapter éventuellement a posteriori aux caractéristiques du marché par la
paramétrisation des constantes des diffusions permet d’élargir notre spectre de
modèles tout en partant d’une base axiomatique claire et intuitive.
Nous allons dans la présente section décrire les processus de Lévy, pour en
comprendre la richesse, les caractéristiques et leur intérêt dans la modélisation
des actifs financiers. Formellement un processus de Lévy Lt est un processus
stochastique qui vérifie les propriétés suivantes 2 :
– Ses incréments Lt+s − Lt sont stationnaires.
– Ses incréments Lt+s − Lt sont indépendants des valeurs passées Lu (u t)
du processus.
Comme dans le cas du mouvement brownien, la modélisation des actions

nécessite par la suite le passage à l’exponentielle du processus de Lévy. La
première question d’un mathématicien face à la nouvelle axiomatique est :
pourquoi le simple fait d’abandonner l’hypothèse de continuité nous a-t-il permis
de sortir du cadre gaussien ? La réponse est que l’on a quitté le domaine de
validité du théorème central limite. Ce théorème affirme que la moyenne d’une
infinité de variables aléatoires, indépendantes, pas trop volatiles et de même loi,
2 Le lecteur mathématicien notera qu’il faut également rajouter les hypothèses que le processus est
càdlàg (continu à droite, limite à gauche) et que L0 = 0.

converge vers une loi gaussienne. Considérons L T un processus de Lévy (L0 = 0).
Nous avons :
LT = L T − L0
= ( L T − L T ) + ( L T − L0 )
2 2
= ( LT − L 2T ) + ( L 2T − L T ) + ( L T − L0 )
3 3 3 3
(9.5)
= ...
= ∑iN=1 ( L iT − L (i−1)T )
N N
= N ∑i=1 N × ( L iT − L (i−1)T )
1 N
N N
Le processus se décompose ainsi en la somme de ses incréments sur de plus

petits pas de temps. La spécificité des processus de Lévy est que ses incréments
sont indépendants et de même loi (pour un pas de temps de donné). Ainsi, le
processus est à tout moment la somme d’un nombre arbitrairement grand (N
peut tendre vers l’infini) de variables aléatoires indépendantes et identiquement
distribuées. Le théorème central limite affirme alors que le résultat de cette somme
ne peut être qu’une loi gaussienne, pour peu que ces variables ne soient pas trop
volatiles. Ainsi que nous allons le voir au paragraphe suivant, les processus de
Lévy continus vérifient l’hypothèse de faible variabilité, le théorème central limite
assure alors que ces processus ne peuvent être qu’un mouvement brownien (de
loi d’évolution gaussienne).
Affirmer qu’un processus est continu, c’est poser que ses incréments tendent
vers zéro lorsque le pas de temps tend vers zéro : ( L iT − L (i−1)T ) doit tendre
N N
vers 0 lorsque N tend vers l’infini. Ainsi, dans le cas continu, les incréments
( L iT − L (i−1)T ) du processus de Lévy ne peuvent pas être trop volatils. Cela
N N
explique pourquoi (la démonstration rigoureuse est nettement plus compliquée)
l’hypothèse de continuité permet d’entrer dans le champ du théorème central
limite. Le seul processus de Lévy continu est donc le mouvement brownien, c’est
d’ailleurs ce résultat qui nous a permis de construire le modèle de Black-Scholes
à partir des seules hypothèses de continuité, de stationnarité et d’indépendance.
Lorsque l’on abandonne l’hypothèse de continuité, nous sortons du domaine
de validité du théorème central limite et arrivons à une classe de processus
stochastiques plus large. Ces processus de Lévy se décomposent comme la
somme d’un mouvement brownien et d’un processus à sauts. Nous n’entrerons
pas dans le détail des processus à sauts mais nous les illustrerons par quelques
exemples. Une première catégorie, la plus simple, est constituée des processus

de Poisson composés. Il s’agit simplement de processus constants par morceaux
qui ne peuvent bouger que par des sauts de taille fixe ou aléatoire. Ces sauts
interviennent à un instant aléatoire. On pourrait par exemple modéliser le nombre
de points lors d’un match de basket par un processus de Poisson composé dont
les sauts sont de taille aléatoire égale à 1, 2 ou 3. Divers tirages aléatoires de
processus de Poisson composés sont représentés sur le graphique 9.8.
F IGURE 9.8. Le graphique illustre les processus de Poisson composés. Les courbes n’évoluent que par des
sauts de taille fixe (courbes bleues) ou aléatoire. L’intervalle séparant deux sauts est aléatoire, il est d’autant
plus court en moyenne que l’intensité des sauts est élevée.
Ces processus de Poisson composés permettent de construire le modèle

d’évolution d’actif de Merton (différent du modèle de crédit de Merton vu au
chapitre 2). Dans ce modèle, l’évolution du prix des actifs St est définie par :
ln(St ) − ln(S0 ) = μt + σWt + Pt (9.6)

où μt représente la dérive, σWt est un mouvement brownien sans dérive de
volatilité annuelle σ et Pt est un processus de Poisson composé. Ce processus Pt
admettra alors deux types de paramètres :
– L’intensité des sauts, λ, qui matérialise la fréquence d’occurrence, plus ou
moins forte des sauts.
– La taille des sauts, qui suit par hypothèse une loi normale de moyenne
Ms et de volatilité Vs . Le paramètre Ms décrit la valeur moyenne des sauts
et Vs la dispersion de la taille des sauts autour de cette moyenne. Par
exemple, un choix de Ms nul et de Vs grand signifiera que l’on considère

que les sauts positifs sont aussi probables que les sauts négatifs et que ces
sauts peuvent être très dispersés et d’assez grande taille. Un choix de Ms
négatif et Vs faible signifiera que l’on rend compte uniquement des sauts
négatifs (modélisation de crises par exemple) dont la taille sera toujours
approximativement Ms .
F IGURE 9.9. Distribution à un an de processus suivant le modèle de Merton dont les sauts sont centrés
(la volatilité totale est maintenue à 20 % pour pouvoir comparer les distributions entre elles). Le modèle de
Merton présente des queues plus épaisses que le modèle de Black-Scholes.
Le modèle de Merton apporte ainsi une composante supplémentaire au mo-

dèle de Black-Scholes, la possibilité d’événements brusques, de variations discon-
tinues des cours : les sauts. Cette composante permet d’épaissir, modérément, les
queues de distribution des lois normales comme l’illustre la figure 9.9. L’épais-
sissement des queues de distribution est modeste car l’amplitude des sauts est
matérialisée par une loi normale, c’est un choix arbitraire. L’utilisation de lois
plus sévères, c’est-à-dire rendant plus probable des sauts importants, est tout à
fait possible, notamment pour tenter de retrouver les lois puissances évoquées
dans la section précédente.
Les sauts ajoutent surtout une différence qualitative de taille : l’impossibilité
de couvrir continûment les produits financiers. Lors du chapitre 5, dans le
cadre du modèle de Black-Scholes, nous avons montré comment nous pouvions
neutraliser le risque d’un portefeuille grâce au delta hedge. Cette technique ne
permet de couvrir que la composante continue du risque, elle ne permet pas de
neutraliser le risque induit par les sauts. La théorie du modèle de Black-Scholes

F IGURE 9.10. Comparaison des prix de call, en fonction du strike, dans les modèles de Black-Scholes et
Merton. Le graphique montre que l’incertitude de modèle est d’autant plus grande que le strike est élevé
(options dites « très en dehors de la monnaie » c’est-à-dire loin du cours initial de l’action supposé être 100).
repose sur l’idée que notre temps de réaction est infiniment court ce qui nous
permet de manipuler les actifs avec une précision infinie. En outre, le degré de
liberté dont on dispose pour agir est exactement égal au nombre de degrés de
liberté qu’a l’actif pour évoluer (cf. chapitres 4 et 5).
Les sauts du modèle de Merton détruisent ce confort offert par le modèle de
Black-Scholes. Quelle que soit notre réactivité théorique, l’éventualité de l’occur-
rence d’un saut ajoute un degré de liberté supplémentaire aux lois d’évolution
et annihile tout espoir de neutraliser le risque avec une couverture simple. Le
modèle de Merton n’est pas complet, la mesure risque neutre équivalente n’est
pas unique. Cela implique que dans le modèle de Merton, les prix risque neutre
des actifs ne sont pas uniques ; ce modèle autorise l’existence d’autres prix valides
au sens où ils ne sont pas arbitrables.
Un des intérêts du modèle est l’analyse et l’évaluation du risque de saut.
Comparer le prix obtenu dans le modèle de Black-Scholes et celui obtenu dans le
modèle de Merton peut permettre de quantifier l’impact potentiel des variations
brusques de cours et donc de l’hypothèse, irréaliste, de réactivité instantanée pour
la couverture des risques. En outre, certains produits et constructions financières
sont particulièrement sensibles à ce risque de saut, comme les CPPI présentés
dans la figure 9.11 ; étudier ces produits dans le cadre d’un modèle de Black-
Scholes reviendrait simplement à nier l’existence du risque.

F IGURE 9.11. Exemple de stratégie de gestion d’un CPPI. La stratégie permet de profiter de la dynamique
des actions, grâce à un effet de levier, tout en tentant d’apporter une garantie sur le capital. Dans un modèle
d’évolution des actifs continus, type Black-Scholes, la stratégie ne perd jamais car toutes les variations d’actif
sont infinitésimales et le temps de réaction est infiniment court. Or, de fait, le risque existe sur ces stratégies.
Il peut par exemple être évalué par l’utilisation de modèles à sauts, où les variations de cours peuvent être
brutales et entraîner un dépassement du coussin de sécurité.
Cette réflexion montre bien qu’un modèle n’est pas en soi meilleur qu’un
autre, tout dépend de l’utilisation que l’on souhaite en faire. Si notre objectif est
de vendre un produit financier traditionnel en le couvrant en delta hedge, il est
important d’étudier la stratégie dans les deux modélisations que nous avons
vues : le modèle de Black-Scholes (éventuellement augmenté d’un modèle de
volatilité) permettra de trouver un prix de marché pertinent, même si le modèle
ne capte pas tous les risques ; les modèles à sauts permettront d’étudier les
risques de variations brutales des cours et de quantifier, par exemple, un risque
de modèle.
Il existe d’autres types de processus de Lévy que nous n’approfondirons pas.
Plus difficiles à se représenter intuitivement, ils peuvent avoir une intensité de
sauts infinie, c’est-à-dire qu’entre deux instants, il existe toujours une infinité de
sauts. Ces processus permettent de construire des lois d’évolution comme les
processus α-stables, proposés par Mandelbrot, dont une illustration est présentée
dans la figure 9.12.

F IGURE 9.12. Exemple de trajectoires de processus α-stables (lois de Cauchy). L’évolution des processus
est constituée d’une infinité de sauts quasi infinitésimaux et de quelques sauts de très forte amplitude qui
surviennent de la même manière que les sauts des processus de Poisson composés.
Les processus de Lévy ouvrent ainsi de nombreuses voies d’analyse et de

perfectionnement des modèles. La prise en compte de sauts permet notamment
d’épaissir les queues de distribution, dans de faibles proportions (modèle de
Merton) ou jusqu’à donner une variance infinie aux diffusions (cas des lois
α-stables). Les deux hypothèses fondamentales sont la stationnarité des processus
et l’indépendance des rendements. Comme dans le cadre du modèle de Black-
Scholes, ces deux contraintes peuvent être contournées facilement par l’utilisation
de paramètres dépendant du temps ou d’un nouveau facteur aléatoire comme
dans les modèles de volatilité.

Conclusion
Les marchés financiers se prêtent naturellement à la construction de modèles

mathématiques car ils produisent des données numériques en grande masse. Au
premier rang d’entre elles se trouvent les prix des produits financiers, plus ou
moins exotiques. Souvent, ces prix sont exprimés à partir de paramètres à qui
l’on donne un sens intuitif :
– les taux d’intérêt et taux de rendement ;
– les probabilités de défaut ;
– la volatilité ;
– la volatilité de la volatilité ;
– les diverses corrélations...
Quel que soit le modèle utilisé, le mécanisme de calcul du prix d’un produit
financier, aussi appelé « valorisation du produit », est toujours le même : (i) on
postule un modèle ; (ii) on choisit les paramètres d’entrée qui permettent au
modèle d’être cohérent avec les prix des produits financiers cotés sur les marchés ;
cette étape constitue la calibration du modèle, les paramètres ainsi trouvés sont
dits « implicites » ; (iii) on utilise le modèle ainsi calibré pour calculer les prix des
produits financiers non observables sur les marchés.
Il est alors possible que les paramètres ainsi utilisés en entrée des modèles
n’aient rien à voir avec les données réelles ou économiquement anticipées. Ces
paramètres intègrent souvent une prime de risque qui conduira, par exemple,
à des probabilités de défaut implicites supérieures aux probabilités de défaut
réellement anticipées. Les paramètres implicites et économiques ne pourront
être comparés qu’à condition que le modèle utilisé ait un minimum de sens
économique et de cohérence avec la réalité.
À ce sujet, il est important de constater que le processus de valorisation
décrit ci-dessus fonctionne toujours quel que soit le modèle, savant ou simpliste,
économiquement justifié ou parfaitement saugrenu. Pour peu que le modèle
choisi présente suffisamment de degrés de liberté, il est possible de trouver des
paramètres qui donnent le bon prix sur un échantillon de produits puis d’utiliser
le modèle calibré pour calculer le prix d’autres produits financiers. De ce fait, il
n’existe aucun garde-fou a priori qui empêche l’utilisation de modèles inadéquats ;
seule la diligence des quant et autres utilisateurs des modèles permettront de
garantir, autant que faire se peut, la qualité des modélisations. Comment alors
discerner un bon modèle d’un mauvais modèle ?
Il n’y a pas de réponse toute faite à cette question, hormis le pré-requis indis-
pensable de la non-arbitrabilité du modèle. Si notre modèle offre des possibilités
d’arbitrage, il est à peu près certain que les autres acteurs du marché en profite-
ront. Cette hypothèse de non-arbitrage impose essentiellement aux modèles de
valorisation que le taux de rendement prévisionnel des actifs soit le taux sans
risque. Cela laisse la place à de nombreux modèles concurrents dont la qualité
doit être évaluée.
L’axe le plus étudié est la capacité du modèle à être en phase avec le marché.
En premier lieu, il est facile de vérifier la cohérence du modèle en l’appliquant
aux produits cotés. En second lieu, pour les produits dont les prix ne sont pas
directement observables, les trader connaissent les pratiques de la concurrence et
peuvent ainsi étalonner leur modèle. Si l’on se restreignait à cet axe, il s’ensuivrait
qu’un bon modèle n’est autre qu’un modèle qui fait consensus.
Il existe tout de même d’autres moyens pour évaluer un modèle. La stabilité
dans le temps des paramètres implicites est à ce titre un aspect très important,
elle constitue ce que l’on appelle la robustesse du modèle. Plus les paramètres
sont stables, plus leur interprétation aura du sens et le suivi du risque qui en
découlera sera pertinent. En outre, la stabilité des paramètres est également
primordiale pour la stabilité des stratégies de couverture des produits financiers.
En effet, le modèle indiquera comment couvrir un actif ou un portefeuille d’actifs,
notamment via le calcul du delta ; chaque changement significatif de paramètres
conduit à un changement de composition du portefeuille de couverture, ce qui
génère des risques et des frais. Schématiquement, plus un modèle sera artificiel
et éloigné de la réalité, plus sa recalibration devra être fréquente ; au contraire,
un modèle dont les paramètres sont stables possède un bon pouvoir prédictif et
implique des dynamiques cohérentes avec l’évolution réelle des prix.
Qu’en est-il de la pertinence physique du modèle et de son adéquation aux
historiques des cours ? À l’évidence, il convient que l’évolution des paramètres
implicites soit en phase avec la connaissance du marché : un modèle dont la cor-
rélation implicite diminue alors que l’on constate dans les faits une augmentation
de la corrélation entre les valeurs mérite naturellement d’être revu.
Cependant, l’adéquation des modèles aux historiques passe souvent au
second plan. Les modèles de valorisation ne sont pas calibrés sur des historiques
186 Conclusion
de prix. Cela est d’ailleurs fort heureux car une telle calibration nécessiterait
de supposer la stationnarité des sources de calibration, autrement dit que le
passé soit représentatif du futur. Le graphique 2 du chapitre 2 est un excellent
exemple des ravages que pourrait engendrer une hypothèse de stationnarité
formulée à tort. Toutefois, sans pour autant être calibrés sur des historiques,
il est plus que souhaitable que les modèles calibrés sur des prix de marchés
rendent compte de lois de probabilités cohérentes avec les historiques de prix :
le chapitre 9 nous a montré à quel point les queues de distribution sont sous-
estimées dans les modélisations gaussiennes. Cette sous-estimation conduit par
exemple à une sous-estimation du prix des put dont le strike est très faible.
Or, les crises financières se manifestent généralement lorsque les acteurs de
marché reviennent massivement sur une erreur de jugement ; ce dernier peut
d’ailleurs tout autant porter sur la validité d’une hypothèse de modélisation
que sur notre environnement économique (solvabilité des États, perspectives
d’un secteur d’activité, etc.). Les historiques de prix sont à ce sujet les seuls
éléments statistiques dont nous disposons pour mettre à l’épreuve nos modèles
mathématiques et leurs hypothèses sous-jacentes.
En définitive, est-il préférable que le modèle soit en phase avec les prix de
marché ou avec la réalité historique ? La réponse n’est pas aussi immédiate qu’il
n’y paraît. Si le produit valorisé est parfaitement couvert par d’autres produits
achetés à la concurrence, il est important d’être en accord avec les prix de marché.
John Mayard Keynes nous rappelle que « le marché peut rester irrationnel plus
longtemps que vous ne pouvez rester solvable ». Dans la pratique, les stratégies
de couvertures ne sont pas parfaites et le risque porté par les investisseurs dépend
donc du comportement réel des cours.
Après le calcul des prix vient la mesure du risque : elle vise à quantifier le
risque porté par les activités de marché. La mesure de risque est beaucoup moins
contrainte par les besoins de cohérence avec les prix de marché et beaucoup plus
par la cohérence avec la réalité. Par exemple, les structures de corrélation sim-
plistes issues des vecteurs gaussiens peuvent se révéler totalement inappropriées.
L’étape la plus importante est l’identification des sources de risques, notamment
les facteurs de risque de la VaR. Cette étape, qui passe par une analyse plus
financière que mathématique, permet par exemple d’identifier si une modéli-
sation simple de la corrélation suffit ou si une modélisation plus fine s’impose
pour prendre en compte le wrong way risk notamment. La mesure quantitative du
risque nécessite d’évaluer la probabilité réelle d’occurrence des risques et non
l’implicite. Elle est donc nécessairement tributaire de l’hypothèse de stationna-
rité et des historiques réalisés. De ce fait, elle n’est pas destinée à prédire des
événements statistiquement non observables. Elle doit donc être complétée par

des analyses économiques qui peuvent, quant à elles, nécessiter des mesures
d’impacts de situation de crise (stress test). Par ailleurs, les mesures de risques
font naître d’autres problèmes, qui sont complètement exogènes à la qualité in-
trinsèque de l’évaluation des risques, mais qui tiennent aux risques systémiques
qu’elles concourent à alimenter par leur procyclicité. Ce point est aujourd’hui
bien identifié par les autorités de contrôle bancaires qui vont tenter d’y remédier
notamment grâce aux nouvelles normes Bâle 3.
Une dernière catégorie de modèles, que nous avons abordée au chapitre 3,
vise à identifier les meilleures possibilités d’investissement, voire à réaliser des
arbitrages. Or, un modèle dont les capacités d’arbitrage sont avérées serait utilisé
immédiatement par toute la place financière, ce qui le rendrait de fait inopérant.
Par là même, ces modèles ne peuvent être que très largement remis en cause ou
n’être que très peu répandus.
188 Conclusion
Bibliographie
Ouvrages de référence principaux

B OUCHAUD, J.-P. et P OTTERS, M. (2003). Theory of Financial Risk and Derivative
Pricing : From Statistical Physics to Risk Management. Cambridge University
Press, 2e édition.
W ILMOTT, P. (2006). Paul Wilmott on Quantitative Finance. John Wiley & Sons,
2e édition.
Autres références générales
A LEXANDER, C. (2001). Market Models : A Guide to Financial Data Analysis. John

Wiley & Sons.
D ERMAN, E. (2003). The boy’s guide to pricing and hedging. Risk.
E L K AROUI, N. (2003). Couverture des risques dans les marchés financiers.
Université Paris VI. http://www.cmap.polytechnique.fr/~elkaroui/.
H AUG, E. (2007a). The Complete Guide to Option Pricing Formulas. McGraw-Hill
Professional, 2e édition.
H AUG, E. (2007b). Derivatives : Models on Models. John Wiley & Sons.
H ULL, J. (2011). Options, Futures and Other Derivatives. Pearson Education,
8e édition.
J OSHI, M. (2008). The Concepts and Practice of Mathematical Finance. Cambridge
University Press, 2e édition.
L E G ALL, J.-F. (2011). Mouvement brownien, martingales et calcul stochastique.
Université Paris Sud. http://www.math.u-psud.fr/~jflegall/.
TANKOV, P. (2009). Calibration de modèles et couverture de produits dérivés.
Université Paris VII. http://www.math.jussieu.fr/~tankov/.
Taux d’intérêt
L ITTERMAN, R. et S CHEINKMAN, J. (1991). Common factors affecting bond

returns. The Journal of Fixed Income.
M ARTELLINI, L. et P RIAULET, P. (2004). Produits de taux d’intérêt : méthodes
dynamiques d’évaluation et de couverture. Économica, 2e édition.
N ELSON, C. et S IEGEL, A. (1987). Parsimonious modeling of yield curves. The
Journal of Business.
Risque de crédit et marché du crédit
B RIGO, D., PALLAVICINI, A. et T ORRESETTI, R. (2010). Credit Models and the Crisis :
A Journey into CDOs, Copulas, Correlations and Dynamic Models. John Wiley &
Sons.
J ARROW, R. et T URNBULL, S. (1995). Pricing derivatives on financial securities
subject to credit risk. The Journal of Finance.
M ERTON, R. (1974). On the pricing of corporate debt : The risk structure of
interest rates. The Journal of Finance.
S CHÖNBUCHER, P. (2003). Credit Derivatives Pricing Models : Models, Pricing and
Implementation. John Wiley & Sons.
Théories du portefeuille
B LACK, F. (1972). Capital market equilibrium with restricted borrowing. The

Journal of Business.
E NGLE, R. et G RANGER, C. (1987). Co-integration and error correction : Repre-
sentation, estimation, and testing. Econometrica.
FAMA, E. et F RENCH, K. (1992). The cross-section of expected stock returns. The
Journal of Finance.
L INTNER, J. (1965). The valuation of risk assets and the selection of risky
investments in stock portfolios and capital budgets. The Review of Economics
and Statistics.
M ARKOWITZ, H. (1952). Portfolio selection. Journal of Finance.
M ARKOWITZ, H. (1959). Portfolio Selection : Efficient Diversification of Investments.
John Wiley & Sons.
190 Bibliographie
M OSSIN, J. (1966). Equilibrium in a capital asset market. Econometrica.
R OSS, S. (1976). The arbitrage theory of capital asset pricing. Journal of Economic
Theory.
S HARPE, W. (1964). Capital asset prices : A theory of market equilibrium under
conditions of risk. The Journal of Finance.
S HARPE, W., A LEXANDER, G. et B AILEY, J. (1998). Investments. Pearson Education,
6e édition.
T OBIN, J. (1958). Liquidity preference as behavior towards risk. The Review of
Economic Studies.
Théorie du non arbitrage
D ELBAEN, F. et S CHACHERMAYER, W. (1994). A general version of the fundamen-

tal theorem of asset pricing. Mathematische Annalen.
D ELBAEN, F. et S CHACHERMAYER, W. (1998). The fundamental theorem of asset
pricing for unbounded stochastic processes. Mathematische Annalen.
D ELBAEN, F. et S CHACHERMAYER, W. (2005). The Mathematics of Arbitrage.
Springer Verlag.
H ARRISON, J. et K REPS, D. (1979). Martingales and arbitrage in multiperiod
securities markets. Journal of Economic Theory.
H ARRISON, J. et P LISKA, S. (1981). Martingales and stochastic integrals in the
theory of continuous trading. Stochastic Processes and their Applications.
K REPS, D. (1981). Arbitrage and equilibrium in economies with infinitely many
commodities. Journal of Mathematical Economics.
Modèle de Black-Scholes
B ACHELIER, L. (1900). Théorie de la spéculation. Gauthier-Villars.

B LACK, F. et S CHOLES, M. (1973). The pricing of options and corporate liabilities.
The Journal of Political Economy.
M ERTON, R. (1973). Theory of rational option pricing. The Bell Journal of Economics
and Management Science.

Modèles de volatilité
AYACHE, E., H ENROTTE, P., N ASSAR, S. et WANG, X. (2004). Can anyone solve
the smile problem ? Wilmott Magazine.
D ERMAN, E. et K ANI, I. (1994). Riding on a smile. Risk.
D ERMAN, E. et K ANI, I. (1998). Stochastic implied trees : Arbitrage pricing
with stochastic term and strike structure of volatility. International Journal of
Theoretical and Applied Finance.
D ERMAN, E., K ANI, I. et C HRISS, N. (1996). Implied trinomial trees of the volatility
smile. The Journal of Derivatives.
D UMAS, B., F LEMING, J. et W HALEY, R. (1998). Implied volatility functions :
Empirical tests. The Journal of Finance.
D UPIRE, B. (1994). Pricing with a smile. Risk.
F OUQUE, J.-P., PAPANICOLAOU, G. et S IRCAR, K. (2000). Derivatives in Financial
Markets with Stochastic Volatility. Cambridge University Press.
G ATHERAL, J. (2006). The Volatility Surface : A Practitioner’s Guide. John Wiley &
Sons.
H AGAN, P., K UMAR, D. et L ESNIEWSKI, A. (2002). Managing smile risk. Wilmott
Magazine.
H ESTON, S. (1993). A closed-form solution for options with stochastic volatility
with applications to bond and currency options. The Review of Financial Studies.
L EWIS, A. (2000). Option Valuation Under Stochastic Volatility. Finance Press.
L IPTON, A. et M C G HEE, W. (2002). Universal barriers. Risk.
R EBONATO, R. (2004). Volatility and Correlation : The Perfect Hedger and the Fox.
John Wiley & Sons, 2e édition.
R UBINSTEIN, M. (1994). Implied binomial trees. Journal of Finance.
Méthodes numériques
D UFFY, D. (2006). Finite Difference Methods in Financial Engineering : A Partial

Differential Equation Approach. John Wiley & Sons.
J ÄCKEL, P. (2002). Monte Carlo Methods in Finance. John Wiley & Sons.
L ONGSTAFF, F. et S CHWARTZ, E. (2001). Valuing american options by simulation :
A simple least-squares approach. The Review of Financial Studies.
P OTTERS, M., B OUCHAUD, J.-P. et Š ESTOVI Ć, D. (2001). Hedged monte-carlo :
Low variance derivative pricing with objective probabilities. Physica A.
192 Bibliographie
Value-at-Risk
B ASEL C OMMITTEE (2006). International convergence of capital measurement

and capital standards – a revised framework (comprehensive version).
B ASEL C OMMITTEE (2009a). Principles for sound stress testing practices and
supervision.
B ASEL C OMMITTEE (2009b). Revisions to the basel 2 market risk framework.
B ASEL C OMMITTEE (2010). Basel 3 : A global regulatory framework for more
resilient banks and banking systems.
Modèles non gaussiens
B ACRY, E., D ELOUR, J. et M UZY, J.-F. (2001). Multifractal random walk. Physical
Review E.
B ACRY, E. et M UZY, J.-F. (2003). Log-infinitely divisible multifractal processes.
Communications in Mathematical Physics.
B OUCHAUD, J.-P. (2001). Power laws in economics and finance : Some ideas from
physics. Quantitative Finance.
C ALVET, L. et F ISHER, A. (2008). Multifractal Volatility : Theory, Forecasting, and
Pricing. Academic Press.
C ONT, R. et B OUCHAUD, J.-P. (2000). Herd behavior and aggregate fluctuations
in financial markets. Macroeconomic Dynamics.
C ONT, R. et TANKOV, P. (2003). Financial Modelling with Jump Processes. Chapman
& Hall.
FAMA, E. (1965). The behavior of stock-market prices. The Journal of Business.
G ABAIX, X. (2009). Power laws in economics and finance. Annual Review of
Economics.
M ANDELBROT, B. (1963). The variation of certain speculative prices. The Journal
of Business.
M ERTON, R. (1976). Option pricing when underlying stock returns are disconti-
nuous. Journal of Financial Economics.
M ITCHELL, W. (1915). The making and using of index numbers. Bulletin No. 173
of the US Bureau of Labor Statistics (réimprimé en 1921 dans le Bulletin No. 284 et
en 1938 dans le Bulletin No. 656).
TALEB, N. (2008). Le cygne noir : La puissance de l’imprévisible. Les Belles Lettres.

Index
A Couverture d’un produit financier, 98,

116, 120, 129–133, 155, 180–181
Actualisation, 6–8, 11 CPPI, 181, 182
Agence de notation, 24 Credit Default Swaps (CDS), 29–30, 32, 166
α (alpha), 56–57
Analyse en composantes principales D
(ACP), 18–20 Dérive d’un processus stochastique, 83,
Arbitrage, 65, 67–68 88–91
Opportunité d’arbitrage, 73–74 Delta hedge, 98–99, 116, 129–130, 146, 155,
Théorèmes de non-arbitrage, 75, 84 180
Arbre binomial, 66–67, 86–88, 114 Diversification, 49–51, 161
Arbre trinomial, 76–78
Autocorrélation des rendements, 170 E
B Effet de levier, 52
Effet de troupeau, voir Mimétisme
β (beta), 55, 57–58 Efficience d’un actif (ou d’un
portefeuille d’actifs), 47, 50–53
C Efficience des marchés, 64
Espérance, 40, 55, 90, 125–127
Calibration, 123
Call, voir Option financière F
Capital asset pricing model (CAPM), 53–59
Frontière efficiente, 51–53
Cointégration, 61–63
Comité de Bâle, 165 I
Complétude, 76–79, 95, 100, 115, 120, 181
Continuité des processus stochastiques, Inflation, 9–10
90, 177 L
Convergence d’une méthode
numérique, 134 Log-rendement, 94, 169–170
Corrélation, 40–41, 49–50, 59, 62–63, 156 Loi α-stable (ou pareto stable), 171–172,
Structure gaussienne, voir Vecteur 182
gaussien Loi gaussienne, voir Loi normale
Coupon, voir Obligation Loi lognormale, 102–103, 127
Loi normale, 38–40, 49, 87, 91, 156–157, Option financière, 96, 107–108
160, 163, 169–174, 178–180 À barrière, 107–108
Loi puissance, 172–176 À départ forward, 108
Américaine, 107, 147
M Asiatique, 107
Binaire, 107–110
Martingale, 74–75, 90 D’achat (call), 35, 96–97, 100, 102,
Semi-martingale, 83 107
Mesure de risque cohérente, 161 De vente (put), 96, 107
Mesure risque neutre, voir Probabilité Européenne, 107, 109–110, 122
risque neutre Exotique, 107
Méthodes de Monte-Carlo, 126–128, 152 Vanille, 107
Convergence, 133–136
Hedge optimal, 130–133 P
Méthodes des différences finies, 141–147
Convergence, 143–146 Parité call-put, 106–107
Équation de propagation, 142 Portefeuille de marché, voir Capital asset
Erreur de discrétisation, 141–142 pricing model et portefeuille
Propagation des erreurs, 144–146 tangentiel
Mimétisme, 174–176 Portefeuille tangentiel, 51, 52
Modèle à intensité de défaut, 31–32 Prime de risque, 28, 56, 57, 97
Modèle d’évaluation des actifs Probabilité de défaut implicite, 28–29
financiers (MEDAF), voir Probabilité risque neutre, 72–73, 94–97,
Capital asset pricing model 102, 109–110
Modèle de Black-Scholes, 94–104, 112, Probabilité risque neutre équivalente, 75
127, 140, 178 Processus à saut, 178–181
Équation de Black-Scholes, 99, 140 Processus de Lévy, 177–179, 182–183
Modèle de Heston, 121–122, 127 Processus de Poisson composés, 179
Modèle de Merton (à sauts), 179–181 Processus lognormal, voir Mouvement
Mouvement brownien, 86, 88–91, 178 lognormal
Standard, 90 Processus stochastique, 86–88
Mouvement lognormal, 91–93, 100–102 Put, voir Option financière
N Q
Nappe de volatilité implicite, 102–104, Quant (ou analyste quantitatif), 66

107–111, 116–117 Quasi Monte-Carlo, voir Série quasi
Skew, 102–103 aléatoire
Smile, 102–103 Queue de distribution, 169–170, 172–173,
180
O
R
Obligation, 7–9
Obligation d’État, 10, 26 Réplication de produits financiers, 70–
Obligation risquée, 24–26 73, 100
Obligation Zéro Coupon, 12 Risque de modèle, 111, 182
196 Index
Risque idiosyncratique, voir Risque Value at Risk (VaR), 151–153
spécifique Back testing, 152
Risque spécifique, 56 Facteur de risque, 154–157, 164, 166
Risque systémique, 56 Procyclicité, 164–165
Sous-additivité, 161
S VaR historique, 156, 157
VaR Monte-Carlo, 158
Série quasi aléatoire, 136–140
VaR paramétrique, 160
Série stationnaire, voir Stationnarité
VaR stressée, 165
Spread de crédit, 26, 29–30, 154
Variable aléatoire, 40
Stationnarité, 60, 91–92, 156, 162–163
Variance, 39, 40, 47
Stress test, 165–166
Variation, 81–82, 88
Suite à discrépance faible, voir Série
Variation quadratique, 82, 88
quasi aléatoire
Vecteur gaussien (ou structure de
Suite de Van der Corput, 137–139
corrélation gaussienne), 49–50,
Surface de volatilité implicite, voir
156–157, 160, 163
Nappe de volatilité implicite
Vente à découvert, 52–53
T Volatilité, 47, 88–90, 93
Implicite, 102–104, 106
Taux continu (ou taux de rendement Locale, 113–119
instantané), 94 Nappe, voir Nappe de volatilité
Taux de recouvrement, 27 implicite
Taux de rendement d’une obligation, 8, Stochastique, 119–124
24
Taux sans risque, 25–27, 52, 97 W
Taux Zéro Coupon, 12–15
Théorème central limite, 177–178 Wrong way risk, 30, 166
V Z
Valeur actualisée, voir Actualisation Zéro Coupon, voir Obligation Zéro

Valeur présente, voir Actualisation Coupon

Mathématiques Des Marchés Financiers Modélisation Du Risque Et de L'incertitude

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Mathématiques Des Marchés Financiers Modélisation Du Risque Et de L'incertitude

Transféré par

Droits d'auteur :

Formats disponibles

Collection « Une Introduction à »

dirigée par Michèle Leduc et Michel Le Bellac

Mathieu Le Bellac et Arnaud Viricel

17, avenue du Hoggar

Retrouvez tous nos ouvrages et nos collections sur

1 Les taux d’intérêt 5

2 Risque de crédit et marché du crédit 23

3 Théories d’aide à l’investissement 45

6 Modèles de volatilité 105

7 Méthodes numériques 125

8 La Value at Risk (VaR) 149

9 Modèles non gaussiens 167

Table des matières

L’ingénierie ﬁnancière souffre depuis 40 ans d’un excès d’axiomatisation, de

Les mathématiques ﬁnancières ont été dénoncées par nombre de spécialistes et

« Le temps, c’est de l’argent. » Ce célèbre adage populaire s’applique en particulier

1 Composition des taux et actualisation

6 Chapitre 1. Les taux d’intérêt

Récapitulons au travers d’un exemple plus élaboré. Vous êtes un État et

Encadré 1.2. Les obligations.

MATHÉMATIQUES DES MARCHÉS FINANCIERS 7

Le taux d’actualisation qui permet de vériﬁer l’égalité (1.2) représente ce

8 Chapitre 1. Les taux d’intérêt

Pour ﬁnir de s’en convaincre, plutôt que de s’intéresser à la valeur actualisée,

MATHÉMATIQUES DES MARCHÉS FINANCIERS 9

2 Constructions de la courbe de taux

10 Chapitre 1. Les taux d’intérêt

MATHÉMATIQUES DES MARCHÉS FINANCIERS 11

Encadré 1.3. Les Zéro Coupons.

12 Chapitre 1. Les taux d’intérêt

(a) : Exemple d’échantillon de taux ZC (b) : Exemple d’échantillon de taux ZC

Quelle que soit la densité du maillage obtenu, il est nécessaire de développer

MATHÉMATIQUES DES MARCHÉS FINANCIERS 13

14 Chapitre 1. Les taux d’intérêt

La construction des courbes de taux Zéro Coupon est fondamentale, qu’il

MATHÉMATIQUES DES MARCHÉS FINANCIERS 15

16 Chapitre 1. Les taux d’intérêt

MATHÉMATIQUES DES MARCHÉS FINANCIERS 17

La méthodologie évoquée dans l’exemple précédent s’appelle Analyse en

18 Chapitre 1. Les taux d’intérêt

Reste désormais à interpréter ces résultats :

MATHÉMATIQUES DES MARCHÉS FINANCIERS 19

Nous avons donc identiﬁé les trois principaux types de déformation de la

20 Chapitre 1. Les taux d’intérêt

interfèrent avec cette notion de taux d’intérêt et en particulier le risque de crédit

MATHÉMATIQUES DES MARCHÉS FINANCIERS 21

Il semble assez simple de dégager intuitivement une hiérarchie grossière du

La répercussion du niveau de risque de crédit sur les prix des obligations

24 Chapitre 2. Risque de crédit et marché du crédit

(c) Spread de crédit des obligations

Le graphique 2.1b ne permet toutefois que de comparer deux obligations de

MATHÉMATIQUES DES MARCHÉS FINANCIERS 25

Comment construit-on en pratique la courbe des taux sans risque ? Tradi-

26 Chapitre 2. Risque de crédit et marché du crédit

2 Probabilités de défaut implicites

MATHÉMATIQUES DES MARCHÉS FINANCIERS 27

Cette manière de voir le monde peut surprendre le lecteur. C’est un aspect

28 Chapitre 2. Risque de crédit et marché du crédit

MATHÉMATIQUES DES MARCHÉS FINANCIERS 29

Les dérivés de crédit sont des produits ﬁnanciers prévoyant le versement de

30 Chapitre 2. Risque de crédit et marché du crédit

Prix de Taux sans Prix de Probabilité

Aﬁn de déduire de ces données une structure des probabilités de défaut

où Πm est le rendement du portefeuille de marché et ˜ a est une variable aléatoire