Vous êtes sur la page 1sur 78

Génie MIS Ecole Mohammedia d’Ingénieurs

Génie Modélisation et Informatique Scientifique

Mémoire de Projet de Fin d’Etudes

Modélisation et développement du
portefeuille obligataire et application des
outils de Machine Learning

Réalisé par :
EL Kharmoudi Abir
Soutenu le : 06 Juin 2023
Devant le jury composé de :

M. Chiadmi Salah EMI Président


M. Lamrani Youssef EMI Encadrant
Mme. Dahani Khawla EMI Rapporteur
M. El Horma Akram BCP Parrain

Année Universitaire 2022-2023

1
Dédicace

À mes chers parents, Mourad et Soumia,


Aucune dédicace ne saurait exprimer pleinement l’amour, l’estime, le
dévouement et le respect que j’ai toujours eu pour vous.
Vos efforts inlassables pour mon éducation et mon bien-être sont
inestimables.
Ce travail est le fruit des sacrifices que vous avez consentis pour ma
formation, et aucune dédicace ne pourrait suffire à exprimer tout ce que
vous méritez pour l’amour constant que vous m’avez prodigué depuis ma
naissance, à travers mon enfance et même à l’âge adulte.
À ma sœur Salma et à mon frère Mohamed,
Je vous remercie pour votre écoute, votre disponibilité et tout le soutien que
vous m’avez apporté. Veuillez trouver dans ce travail l’expression de ma
reconnaissance.
À tous les membres de ma famille,
Que vous trouviez dans ce modeste travail l’expression de mon affection.
À mes chères amies Zohra, Chaimae, Nadia, Wafaa, Nihad, et Salma,
Vous avez été présentes à chaque étape de ma vie, apportant de la joie, des
conseils et des moments de complicité inoubliables.
Votre amitié sincère et votre soutien inconditionnel ont été une bénédiction.
Cette dédicace est un hommage à notre amitié précieuse et à toutes les
aventures que nous avons partagées.
Avec tout mon amour et ma gratitude,

Abir El kharmoudi

2
Remerciements

Avant de commencer l’exposition de notre travail, nous aimerions bien re-


mercier toutes les personnes qui ont participé à ce travail du près ou du loin.
Mes remerciements s’adressent à mon encadrant au sein de la BCP M. El
Horma Akram. Je ne trouverai plus les mots pour vous remercier d’avoir
me donner l’opportunité d’acquérir énormément de choses, d’être toujours
attentive à ce que j’apprenais le maximum d’informations dans cette courte
période de stage, et de m’accorder toujours de votre temps même en plein de
votre travail.
Mes remerciements s’adressent aussi à mon encadrant au sein de l’EMI, à
Monsieur Lamrani Youssef qui m’ a suivi pas à pas et m’a soutenu durant
toute la période de stage.
Je remercie aussi Madame Dahani Khawla d’accepter d’être le rapporteur
de mon travail et Monsieur Chiadmi Salah d’accepter de présider ma soute-
nance.
Mon travail s’est passé dans les meilleures conditions au sein de la salle des
marchés de la BCP grâce à toutes les personnes qui étaient très sympa et qui
n’hésitaient pas à me présenter leur soutien et leur aide au sein de l’entreprise.

3
Résumé

La gestion obligataire joue un rôle crucial dans les stratégies d’investissement,


permettant d’optimiser les rendements, de gérer les risques et de maintenir
l’équilibre d’un portefeuille en tirant parti des opportunités offertes par les
marchés obligataires. Dans le cadre de mon PFE au sein de la salle des
marchés de la Banque Centrale Populaire, j’ai mis en place des techniques
de Machine Learning pour la gestion obligataire. J’ai développé deux types
de modèles de machine learning : la régression pour prédire la composition
optimale du portefeuille et la classification supervisé pour identifier les op-
portunités de trading des obligations. Les algorithmes utilisés comprennent
les réseaux de neurones artificiels, les forêts aléatoires, la régression logis-
tique et les arbres de décision. Les résultats obtenus démontrent l’efficacité
de ces méthodes pour optimiser l’allocation des actifs et prendre des décisions
éclairées en matière de trading obligataire.

Mots clés : Marché obligataire -Salles des marchés- Algorithme - Machine


Learning - Classification - Portefeuille obligataire-Prédiction-Trading.

4
Abstract

Bond portfolio management is of utmost importance in investment strate-


gies, offering the opportunity to optimize returns, manage risks, and main-
tain portfolio balance by leveraging opportunities presented in bond markets.
During my final year project at Banque Centrale Populaire’s trading floor, I
implemented Machine Learning techniques in bond management. Two types
of machine learning models were developed: regression for predicting the op-
timal portfolio composition and classification for identifying bond trading op-
portunities. The algorithms utilized encompassed artificial neural networks,
random forests, logistic regressions, decision trees, and random forests. The
results demonstrated the effectiveness of these methods in optimizing asset
allocation and making informed decisions in bond trading.

Keywords : Algorithm - Machine Learning - Classification - Regression-Bond


Portfolio-Prediction.

5
‘jÊÓ
éJ KA¾Ó@ iJK IJ  HAJ
 k ,PAÒJƒB@  j.K@Qƒ@ ú¯ AÖÞ Ag @PðX  H@Y  J‚Ë@ èP@X@ I.ªÊK
ÈCg áÓ é¢®jÖÏ @ à P@ñK úΫ A®mÌ '@ð Q£AjÖÏ @ èP@X@ ð áºÜØ YKA« ú支 @ ‡J ®m '
é¯Q« ú¯ úk. Qm' ¨ðQå„Ó PA£@ áÖޕ . H@Y  J‚Ë@ †@ ñƒ @ ú¯ ékA  JÖÏ @ Q®Ë@ ÈCªJƒ@
 J‚Ë@ èP@X@ ú¯ úÍ B@ ÕΪJË @ HAJ
. H@Y  ¯ ,ú檂Ë@
 J® K ‡J J.¢K . IÔ  ø Q»QÖÏ @ ½JJ.ËAK. Èð@YJË@
.
颮jÒÊË ÉJÓ B@ áK ñºJË@ ©¯ñ  JË P@Ym' B@ :úÍ B@ ÕΪJÊË ág XñÖß QK ñ¢JK IÔ 
. .  ¯
 jJ‚ÖÏ @ HAJ
éÓY  ÓPP@ñmÌ '@ É҂  . H@Y
 J‚Ë@ ú¯ Èð@YJË@ Q¯ YK YjJË ­J’JË@ð
PAm. @ð úæ‚k
 . ñÊË@ P@Ym' B@ð éJ K@ñ‚ªË@ HAK  . AªË@ð éJ «AJ¢“B@ éJ .’ªË@ HA¾J 
 . ‚Ë@
©K PñK á‚m' ú¯ †Q¢Ë@  £ @ . éJ K@ñ‚ªË@
è Yë éJ Ê«A¯ l. ' AJJË@ HQê  HAK 
 . AªË@ð P@Q®Ë@
 J‚Ë@ ú¯ Èð@YJË@ ÈAm.× ú¯ èQJ‚Ó
. H@Y  H@  P @Q¯ XAm' @ð Èñ“ B@

- úÍ @ ÕΪK Ëð@YJË@ HA«A
 ¯ êJÓPP@ñk - H@Y  J‚Ë@ ꢮm× ½JK. : éJ kAJ®Ó HAÒÊ¿ 
. ñJ.K - HA  KAJK. - ­J’

6
Tables des matières

Dédicace 2

Remerciements 3

Résumé 4

Abstract 5

Résumé en arabe 6

Introduction 11

1 Cadre général de l’étude 13


1.1 Présentation de la salle des marchés de la BCP . . . . . . . . 13
1.2 Contexte général du projet . . . . . . . . . . . . . . . . . . . . 15

2 Modélisation de la courbe des taux 19


2.1 Calcul du taux d’intérêt . . . . . . . . . . . . . . . . . . . . . 19
2.2 La courbe de taux BAM . . . . . . . . . . . . . . . . . . . . . 20
2.3 Modélisation des taux d’intérêts . . . . . . . . . . . . . . . . . 24
2.3.1 Modèle à un seul facteur: Modèle de Vasiçek . . . . . . 24
2.3.2 Modèle à multiple facteurs: La fonctionnelle de Nelson
Siegel Svenson . . . . . . . . . . . . . . . . . . . . . . . 32

3 Valorisation des emprunts obligataires 37


3.1 Valorisation des emprunts obligataires à taux fixe . . . . . . . 37
3.2 Caractéristiques du Portefeuille obligataire . . . . . . . . . . . 45

4 Outils et techniques du machine learning utilisés 48


4.1 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . 48
4.2 Apprentissage non supervisé . . . . . . . . . . . . . . . . . . . 49
4.3 Modèles d’apprentissage utilisées . . . . . . . . . . . . . . . . 50

7
Génie MIS Ecole Mohammedia d’Ingénieurs

4.4 Conception d’un modèle Machine Learning . . . . . . . . . . . 56

5 Etude et mise en place d’un système basé sur le Machine


Learning pour la gestion du portefeuille obligataire 60
5.1 Optimisation de la composition du portefeuille obligataire . . 60
5.1.1 Pré-traitement des données et selection des variables . 61
5.1.2 Mise en place des modèles de Machinr Learning . . . . 62
5.2 Prédiction des signaux d’achat ou de vente d’une obligation . 69
5.2.1 Pré-traitement des données et selection des variables . 69
5.2.2 Mise en place des modèles Machine Learning . . . . . . 71

Conclusion 77

Bibliographie 78

8
Liste des figures

1.1 Marché obligataire marocain . . . . . . . . . . . . . . . . . . . 16

2.1 La courbe des taux correspondante au 17/03/2022 . . . . . . 21


2.2 Les taux actuariels du 18/03/2019 par maturité annuelle . . . 22
2.3 Les taux zéro coupon par maturités pleines correspondantes
au 18/03/2019 . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 TMPjj du marché monétaire interbancaire marocain entre 2008
et 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Statistique descriptive du TMPjj . . . . . . . . . . . . . . . . 28
2.6 Test ADF pour l’étude de stationnarité . . . . . . . . . . . . . 29
2.7 Les estimateurs du modèle de Vasiçek . . . . . . . . . . . . . . 30
2.8 L’erreur de prévison du modèle de Vasiçek . . . . . . . . . . . 31
2.9 Evolution des charges des paramètres du modèle NS . . . . . . 33
2.10 Paramètres estimés du modèle de NS pour la date 16/03/2023 34
2.11 Calibrage de la courbe des taux ZC avec le modèle NS pour le
16/03/2023 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

3.1 Ligne obligataire simple avec M et Mr ≤ 1 an . . . . . . . . . 38


3.2 Ligne obligataire simple avec M et Mr supérieur à 1 an : Date
valorisation est avant la date du 1er coupon . . . . . . . . . . 39
3.3 Ligne obligataire simple avec M et Mr supérieur à 1 an le cas
d’une date valorisation après la date du 1er coupon . . . . . . 39
3.4 Interface du Pricer dans le cas cas 2 : Date valorisation est
après la date du 1er coupon . . . . . . . . . . . . . . . . . . . 40
3.5 Interface du Pricer dans le cas cas 2 : Date valorisation est
avant la date du 1er coupon . . . . . . . . . . . . . . . . . . . 41
3.6 Ligne obligataire atypique avec M et Mr supérieur à 1 an :
Date valorisation est avant la date du 1er coupon . . . . . . . 42
3.7 Ligne obligataire atypique avec M et Mr supérieur à 1 an dont
la date de valorisation est après la date du 1er coupon . . . . . 43

9
Génie MIS Ecole Mohammedia d’Ingénieurs

3.8 Ligne obligataire simple avec M supérieur à 1 an et Mr inférieure


à 1 an . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.9 Ligne obligataire atypique avec M supérieur à 1 an et Mr
inférieure à 1 an . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.1 Structure d’un réseaux de neurone artificiel . . . . . . . . . . 51


4.2 Fonctionnement d’un réseaux de neurone artificiel . . . . . . . 51
4.3 Fonctions d’activation . . . . . . . . . . . . . . . . . . . . . . 52
4.4 Schéma Explicatif de l’algorithme RFR . . . . . . . . . . . . 53
4.5 Schéma Explicatif de l’algorithme SVR . . . . . . . . . . . . . 54
4.6 Exemple d’un arbre de décision . . . . . . . . . . . . . . . . . 55
4.7 Principe de fonctionnement du modèle de forêt aléatoire pour
la classification . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.8 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . 58

5.1 Base de données initiale . . . . . . . . . . . . . . . . . . . . . 61


5.2 Nouvelle base de données . . . . . . . . . . . . . . . . . . . . . 62
5.3 Structure du RNA . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4 Résultats du modèle RNA . . . . . . . . . . . . . . . . . . . . 64
5.5 Variation de la fonction côut en fonction de nombre d’itérations 65
5.6 Résultats du modèle RFR . . . . . . . . . . . . . . . . . . . . 66
5.7 Variation de la fonction côut en fonction de nombre d’arbres
de décisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.8 Les meilleures hypperparamètres pour le modèle SVR . . . . . 68
5.9 Résultats du modèle SVR . . . . . . . . . . . . . . . . . . . . 68
5.10 Récapitulatif des résultats des modèles de régression . . . . . . 68
5.11 Base de données initiale . . . . . . . . . . . . . . . . . . . . . 70
5.12 La nouvelle base de données . . . . . . . . . . . . . . . . . . . 70
5.13 Répartition des signaux . . . . . . . . . . . . . . . . . . . . . . 71
5.14 Matrice de confusion pour le modèle RL . . . . . . . . . . . . 72
5.15 Résultats du modèle Régression logistique . . . . . . . . . . . 72
5.16 Matrice de confusion pour le modèle d’arbre de décision . . . 73
5.17 Résultats du modèle Arbre de décision . . . . . . . . . . . . . 74
5.18 Matrice de confusion pour le modèle de forêt aléatoire . . . . 75
5.19 Résultats du modèle Forêt Aléatoire . . . . . . . . . . . . . . . 75
5.20 Récapitulatif des résultats relatifs aux modèles de régression . 76

10
Introduction

Le développement du portefeuille obligataire constitue un enjeu majeur dans


le domaine de la gestion financière. Les approches traditionnelles de gestion
de portefeuille peuvent toutefois présenter des limites dans leur capacité à
traiter efficacement les données complexes et à prendre des décisions rapides
et précises. Face à cette problématique, l’utilisation des techniques de ma-
chine learning offre de nouvelles perspectives pour améliorer la performance
de la gestion des portefeuilles obligataires. La présente étude se concentre
sur la modélisation et le développement du portefeuille obligataire en ex-
ploitant les techniques avancées de machine learning. L’objectif principal
est de développer des modèles prédictifs sophistiqués et adaptatifs capables
d’apprendre à partir des données historiques, afin de prendre des décisions
éclairées concernant l’allocation des actifs et les opportunités de trading.
Le premier chapitre, intitulé ”Cadre général d’étude”, offre une introduction
générale à la salle des marchés de la BCP (Banque Centrale Populaire) et
présente les généralités du marché obligataire. Cette section met également
en évidence la problématique centrale traitée dans ce projet de fin d’études,
ainsi que les objectifs spécifiques visés.
Le deuxième chapitre, ”Modélisation de la courbe des taux”, se concentre sur
la construction de la courbe des taux en utilisant différentes méthodes telles
que l’interpolation linéaire et le Bootstrapping pour la courbe des taux ZC
(Zero Coupon). De plus, les modèles mathématiques de Vasiçek et Nelson-
Siegel sont appliqués pour modéliser la courbe des taux, en analysant les
avantages et les limites de chaque approche.
Le troisième chapitre, ”Valorisation des emprunts obligataires”, met l’accent
sur développement d’un pricer sous Python pour la valorisation des emprunts
obligataires après avoir expliquer comment calculer mathématiquement chaque
type d’obligation.
Ensuite, le quatrième chapitre, ”Présentation des techniques de Machine
Learning utilisées”, aborde les notions générales du machine learning, ainsi
que les différentes méthodes et modèles de machine learning qui seront utilisés
dans le cadre de ce projet.

11
Génie MIS Ecole Mohammedia d’Ingénieurs

Enfin,le dernier chapitre,”Ètude et mise en place d’un système basé sur le


Machine Learning pour la gestion du portefeuille obligataire”, présente une
étude approfondie sur l’utilisation des modèles de régression pour prédire le
poids optimal des obligations dans un portefeuille obligataire. De plus, les
modèles de classification sont utilisés pour prédire les signaux d’achat et de
vente des obligations. Cette section met en évidence les résultats obtenus et
les perspectives offertes par l’utilisation du machine learning dans la gestion
du portefeuille obligataire.
En conclusion, ce projet de fin d’études vise à exploiter les techniques du
machine learning pour améliorer la modélisation et la gestion du porte-
feuille obligataire. En utilisant les données historiques, les modèles prédictifs
développés permettront de prendre des décisions plus éclairées et d’optimiser
la performance globale du portefeuille obligataire.

12
Chapitre 1

Cadre général de l’étude

Dans ce chapitre, nous allons parler brièvement sur le Groupe BCP, et ensuite
nous allons présenter la salle des marché de ce Groupe en introduisant ses
pôles ainsi que ses différentes activités. Nous allons aborder par la suite
la partie dédiée au contexte général du projet et ceci en introduisant d’une
manière générale le marché obligataire marocain et en cadrant notre projet
de fin d’étude par une problématique et des ojectifs précis.

1.1 Présentation de la salle des marchés de la


BCP
Le modèle organisationnel et commercial du Groupe a été introduit au Maroc
par le Dahir du 25 mai 1926 et il a été fondé dès son origine sur des con-
cepts de mutualité et de coopération.Ainsi, dès la fin des années 20 du siècle
dernier, les premières Banques Populaires de type coopératif et à vocation
régionale, furent créées dans les principales villes du Royaume.
Au lendemain de l’indépendance, les pouvoirs publics ont procédé, dans le
cadre de la mise en place des premiers jalons du système bancaire et fi-
nancier marocain,à la refonte du Crédit Populaire du Maroc (CPM), à travers
le Dahir du 28 février 1961, en le dédiant au développement de l’artisanat
et de la PME/ PMI. Cette réforme a également renforcé le modèle organ-
isationnel du CPM, basé désormais sur l’existence de Banques Populaires
Régionales, d’une entité centrale : la Banque Centrale Populaire, et d’une
instance fédératrice : le Comité Directeur du CPM.
En 1974, le groupe a été nommé leader du secteur bancaire national en
matière de dépôts, avec 1 milliard de Dhs de ressources.
En 1976, il a connu l’inauguration de la succursale de la BCDM à Bruxelles

13
Génie MIS Ecole Mohammedia d’Ingénieurs

et aussi la création de Maroc Assistance Internationale, filiale stratégique


de la Banque Centrale Populaire, qui se positionne comme leader en terme
d’assistance au Maroc.
En 1980, la BCP compte 500 000 clients et ses ressources atteignent les 5 MM
de Dhs. La fin des années 80 a aussi connu la création de filiales bancaires en
Centrafrique et en Guinée et de Représentations en Côte d’Ivoire, au Canada
et en Allemagne.
En 1990, Le Groupe monte en puissance, développe ses activités et met en
place de nouveaux produits et services à des conditions tarifaires fructueuses,
pour devenir leader sur les marchés des particuliers, des PME et des MDM
ainsi que dans les activités de marché.
En 2004, La banque centrale populaire a été cotée en Bourse.
La salle des marchés est organisée en trois pôles distincts à savoir :
-Le Front office qui est chargé de la négociation avec les clients.
-Le Middle office qui est chargé de contrôler les risques et d’analyser les
résultats.
-Le Back office chargé des saisies, des contrôles comptables et du contrôle
interne.
Le Front Office est l’entité de la banque des marchés de capitaux chargée de
l’ensemble des actions et opérations liées à la vente se traitant avec les clients
internes et externes sur les différents compartiments, (Change, Monétaire,
Obligataire, Matières premières, et Action).
C’est le compartiment qui révèle un grand progrès technique en matière de
communications, de gestion de flux d’informations ou encore les différents
systèmes informatiques. Ici travaillent les Traders marchés, qui sont en con-
tact avec les marchés financiers pour réaliser les opérations avec les clients,
leur rôle est de les réaliser au meilleur prix en garantissant une prise de risque
minime. On trouve aussi dans le Front Office des Trader Corporate (Sales ou
Dealers), qui sont chargés de développer la vente de produits et les stratégies
auprès de la clientèle de la banque, les analystes économiques dont le rôle est
d’établir des prévisions, les ingénieurs financiers qui sont chargés de mettre
en place de nouveaux produits commerciaux et de développer les outils de
cotation ou de simulation, et enfin, les informaticiens dédiés qui sont chargés
de veiller au bon fonctionnement des logiciels spécifiques ainsi que de leur
bonne interconnections avec les systèmes d’information de la banque. Ils as-
surent également une veille technologique.
Au sein de la Banque des marchés de capitaux de la BCP, Le Front Office
comprend quatre fonctions différentes, inter-agissant entre elles et traitant
sur quatre marchés différents. La structure de la salle est sous forme de 4
demi-cercles, autrement dite, des ≪ Desk ≫, et chaque demi-cercle contient
une fonction qui intervient sur un des marchés. Les marchés concernés par

14
Génie MIS Ecole Mohammedia d’Ingénieurs

ces interventions sont le marché monétaire, le marché obligataire, le marché


de change et le marché des matières premières.
Au sein de la salle des marchés de la des marchés de la BCP, on touve essen-
tiellement trois activités:
L’activité monétaire: C’est le desk chargé de la gestion du portefeuille de
l’entreprise. Ici on trouve deux fonctions principales, la gestion des positions
en devises et la gestion de la trésorerie en Dirham marocain
L’activité obligataire: Dans cette activité on a la gestion du portefeuille
de la banque en investissant dans les taux et dérivés des taux qui sont no-
tamment les actions, les obligations et les OPCVM. Les obligations les plus
fréquentes sur le marché sont celles qui sont indexées sur l’inflation. Les
obligations varient selon les cours des taux et l’évolution du taux d’intérêt
dépend de plusieurs facteurs économiques comme la croissance etc.donc pour
anticiper l’évolution du taux d’intérêt les Traders effectue une modélisation
à partir de l’analyse théorique, l’analyse technique et la connaissance du
marché. Les OPCVM sont des titres où l’on trouve de l’action et de l’obligation.
C’est un grand portefeuille détenu par plusieurs personnes en forme de part.
Ils existent plusieurs types d’OPCVM : les OPCVM long terme, court terme,
moyen-long terme, actions et diversifiés. L’activité obligataire a aussi comme
mission la transmission des investisseurs du marché au trésor en prenant leurs
soumissions car la banque centrale populaire a un statut d’intermédiaire en
valeur de trésor (IVT), la participation aux émission privées pour savoir com-
ment le marché apprécie le risque de l’entreprise, la gestion du portefeuille
des entreprises et l’achat des titres libellés en devises.
L’activité de change: Elle consiste à acheter et vendre des devises pour
le comptes des clients. Les clients sont généralement les PME, Les ME et
les GE. Bank AL Maghreb établie un cours qui subit trois fixing par jour
et sur lequel les banques vont se baser pour effectuer leurs opérations. La
banque peut détenir 70% des devises mais elle doit impérativement céder les
30restantes au marché.

1.2 Contexte général du projet


Le marché obligataire ou marché de la dette est un marché financier qui
répond aux besoins de financement du pays, permet aux entreprises de trou-
ver des ressources de financement supplémentaires, et permet aux particuliers
de rentabiliser leur investissement.Dans le marché obligataire, l’acheteur de
l’obligation remboursera les intérêts et le nominal au receveur de l’obligation
à la date d’échéance. Les intérêts, appelés coupons sont versés périodiquement
selon les conditions du contrat.

15
Génie MIS Ecole Mohammedia d’Ingénieurs

Il existe deux types de titres obligataires émise dans le marché obligataire


marocain, à savoir: les Titres de Créances Négociables (TCN) et les obliga-
tions. Nous allons se contenter par la suite sur les obligations et ses différentes
caractéristiques. La figure 1.1 présente la structure du marché obligataire
marocain.

Figure 1.1: Marché obligataire marocain

Ainsi,une obligation à taux fixe génère chaque année un revenu d’intérêt con-
stant, à fréquence prédéterminée. Le détenteur de l’obligation reçoit le même
montant chaque année ou chaque mois, selon le calendrier de versement des
intérêts. En effet, le taux d’intérêt est fixé à ce moment là et ne changera
pas au cours du temps. Les caractéristiques d’une obligation à taux fixe sont
les suivantes:
- Date d’émission: Il s’agit de la date effective de la souscription et de la
libération du titre. C’est aussi la date à partir de laquelle les intérêts com-
mencent à courir.
- Date de jouissance: C’est la date d’anniversaire des coupons. Autrement
dit, c’est la date de versement des intérêts et/ou du principal.
- Date d’échéance: Date de fin de vie de l’obligation.
- Date de valorisation: C’est la date où l’on cherche à valoriser l’obligation.
- Taux nominal ou Taux Facial: C’est le taux appliqué au nominal pour le
calcul des intérêts ou coupons.
- Maturité: C’est la durée de vie de l’obligation. Il s’agit de la durée séparant
la date d’émission de la date d’échéance.
- Valeur Nominale: C’est également la valeur du principal à rembourser à

16
Génie MIS Ecole Mohammedia d’Ingénieurs

l’échéance.
- Modalités d’amortissement: Généralement, l’amortissement est in fine,
c’est-à-dire que le principal est remboursé à l’échéance du prêt. Mais il ex-
iste d’autres modalités de remboursement à savoir: le remboursement par
annuités constantes dont le remboursement du capital et les coupons sont
identiques pour chaque année et le remboursement par séries égales; dans
ce type de remboursement l’obligataire percevra une fraction identique du
principal chaque période, par conséquent, les intérêts versés dimunueront.
- Périodicité de paiement des coupons: Généralement, les coupons sont
payés annuellement.
- Spread ou la prime de risque: C’est l’écart entre le taux de rendement
actuariel d’une obligation privée et celui du bon de trésor de même durée.
Plus l’investissement est risqué, plus la prime de risque est élevée.
- Ligne simple et ligne atypique: Lorsque la date de jouissance est différente
de la date d’émission du titre, l’emprunt est dit atypique.
Tandis qu’un emprunt obligataire à taux variable est un ensemble de titres
de dette dont l’échéancier de flux est indexé sur un taux observable (Taux de
référence). Ainsi, l’obligation à taux variable aura les mêmes caractéristiques
que celles d’un emprunt obligataire à taux fixe mais avec les éléments suiv-
ants:
- Indice de référence: C’est l’indice qui représente une base de calcul du
taux du coupon à une échéance déterminée selon les règles précisées dans le
contrat d’émission
- Période de référence: C’est la durée au cours de laquelle est calculé le
taux de référence.
- Marge faciale: C’est le pourcentage rajouté ou retranché au taux de
référence pour déterminer le taux du coupon.
Dans le reste du chapitre nous adopterons les notations suivantes:
- tf : Taux facial.
- N: Valeur nominale.
- Dem : Date d’émission de l’obligation.
- Dech : Date d’échéance de l’obligation.
- Djoui : Date de jouissance de l’obligation.
- Dval : Date de valorisation de l’obligation.
- M: maturité en jours.
- Mr : maturité résiduelle en jours
- R: Taux de rendement ou taux d’actualisation.
- S: Spread d’émission ou prime de risque.

17
Génie MIS Ecole Mohammedia d’Ingénieurs

- r= R+S: Taux sur la courbe secondaire Bond de trésor majoré du spread.


- Cpu : Coupon plein unitaire.
- Ccu : Coupon couru unitaire.
- Dcoup(i) : Date de versement du Ième coupon.
- Pdirty : Prix dirty unitaire à la date de valorisation.
- Pclean : Prix Clean unitaire à la date de valorisation. Il est calculé à partir
de la formule suivante :

Pclean = Pdirty − Ccu

- k: Nombre entier égal à 365 ou 366.

Problématique et objectifs du projet


Les approches traditionnelles de gestion de portefeuille peuvent être limitées
dans leur capacité à traiter efficacement les données complexes et à prendre
des décisions rapides et précises. Ainsi, l’utilisation du machine learning offre
la possibilité de développer des modèles prédictifs plus sophistiqués et adap-
tatifs, capables d’apprendre à partir des données historiques et d’améliorer
la performance globale de la gestion de portefeuille obligataire. L’objectif
principal de ce projet est de modéliser et de construire un portefeuille obli-
gataire. Ce qui nous renvoie aux objectifs suivants:

• Construire la courbe des taux par la méthode direct ainsi que les
modèles stochastiques;

• Valoriser les emprunts obligataires;

• Concevoir des modèles du machine learning pour la construction du


portefeuille obligataire et l’identification des signaux d’achat et de vente
pour les obligations.

Conclusion
Dans ce chapire, nous avons cadré notre projet de fin d’étude à travers la
présentation de l’organisme d’acceuil et le marché obligataire marocain, ainsi
que l’identification du contexte général de ce projet.

18
Chapitre 2

Modélisation de la courbe des


taux

La courbe des taux d’intérêt ou également courbe de rendement sans risque,


est une représentation graphique des taux d’intérêts en fonction des maturités
des obligations d’Etat ou des emprunts obligataires. Cette courbe est un outil
très important pour les investisseurs. Elle leur indique le niveau de risque de
défaut de l’emetteur mais aussi elle leur informe des rendements d’un titre
selon sa maturité. Elle renseigne aussi sur les taux d’intérêts à une date future
et sur le niveau d’inflation. La courbe des taux prend 3 formes: Une courbe
normale, plate ou inverse. Ces formes influent considérablement les décisions
du marché monétaire et obligataire ainsi que les stratégies d’investissement
et les plans d’actions futures. Pour bien comprendre la courbe des taux, nous
allons dans ce chapitre la modéliser par la méthode d’interpolation linéaire
mais aussi par des modèles mathématiques.

2.1 Calcul du taux d’intérêt


Afin de calculer les taux de rendement, il est nécessaire de distinguer deux
types de taux en fonction de la maturité, le taux monétaire qui représente
le taux de rendement à court terme, c’est-à-dire des maturités inférieures ou
égales à 364 jours. Ces taux varient en fonction de l’évolution du marché
monétaire. C’est le marché sur lequel les états, les banques, les assur-
ances et les entreprises prêtent et empruntent des fonds pour une courte
durée. En général, le montant des taux à court terme dépend de la politique
monétaire menée par les banques centrales tandis que le taux actuariel ou
le taux à long terme (jusqu’à 50 ans) varient en fonction de l’évolution du
marché obligataire. Quand un État a besoin d’argent, il émet des obligations.

19
Génie MIS Ecole Mohammedia d’Ingénieurs

L’État emprunte une somme aux investisseurs, lesquels achètent des obliga-
tions moyennant une rémunération qui dépendra de la durée du prêt et du
profil de risque de l’État. Pour déterminer les taux de rendement pour des
maturités spécifiques, on procède par interpolation linéaire. Cette méthode
est utilisée pour calculer la valeur d’un taux inconnu sur la courbe de taux,
en calculant une moyenne pondérée des valeurs de deux taux connus qui
l’entourent. Soit t la maturité pour laquelle on souhaite calculer le taux de
rendement r(t), sachant que t est comprise entre t0 et t1 et r(t1 ) et r(t0 ) sont
connus. La formule de l’interpolation linéaire s’exprime alors comme suit :
t0 −t
r(t) = r(t0 ) + t0 −t1
(r(t1 ) − r(t0 ))
Cependant, pour pouvoir interpoler entre deux points de la courbe, ces
derniers doivent avoir la même base d’intérêt d’où la nécessité de la con-
version des taux monétaires en taux actuariels ou inversement. Ainsi, la
formule pour le calcul du taux monétaire est exprimée par:

N bj ours
1 + Tm × 360

Et la formule pour calculer le taux actuariel est exprimée comme ainsi:

N bj ours
(1 + Ta ) base

Où base: 365 ou 366 jours en fonction de l’année.


Ainsi on tire les équivalences suivantes :
N bj ours N bj ours
Tm = [(1 + Ta ) base ) − 1] × (2.1)
360
N bj ours N bbase
Ta = [(1 + Tm × ) j ours ] − 1 (2.2)
360

2.2 La courbe de taux BAM


L’AMMC définit le taux d’intérêt comme la rémunération d’un prêt d’argent.
En effet, elle rémunère le prêteur d’argent pour se couvrir des différents
risques liés à un placement déterminé, à savoir le risque de crédit, la dépréciation
de la monnaie, ainsi que l’augmentation du niveau d’inflation. Le taux
d’intérêt dépend de la méthode de calcul des intérêts, la durée de trans-
action, la fréquence de paiement des intérêts ainsi que la base annuelle et le
mode de calcul des durées.
Le site officiel du Bank Al-Maghreb publie régulièrement la courbe de taux

20
Génie MIS Ecole Mohammedia d’Ingénieurs

des rendements des transactions des obligations du marché secondaire. Pour


construire la courbe des taux il faut passer par la transformation des taux et
l’interpolation linéaire. Le tableau de la figure ci-dessous, illustre la courbe
des taux correspondante au 17/03/2022 publiée par BAM. Les transactions
sont en millions de dirhams.

Figure 2.1: La courbe des taux correspondante au 17/03/2022

La courbe des taux construite par la méthode de l’interpolation linéaire peut


nous servir pour la détermination de la courbe de taux zéro coupons. En
effet, la méthode de calcul des taux Zéro coupon dépend de la maturité des
titres. Sur le cours terme (moins d’un an), il n’y a pas de flux intermédiaire;
le rembousement du capital et le paiement des intérêts sont versés en même
temps à l’échéance. On dit alors que les paiement sont de type zéro coupon
et le atux actuariel et le taux zéro coupon sont égaux pour les maturités
inférieures ou égale à un an.
Lorsque nous nous plaçons sur le plus d’1 an, nous remarquons le versement
des flux intermédiaires généralement annuels. Il faut donc reconstruire la
courbe tes taux ZC pas à pas en partant des taux actuariels Ténor correspon-
dant à des maturités pleines. Cette construction est basée sur la méthode

21
Génie MIS Ecole Mohammedia d’Ingénieurs

de Bootstrapping. En effet, les taux actuariels sont calculés par la méthode


d’interpolation linéaire et la méthode de transformation des taux monétaires
en taux actuariels. Nous nous sommes basés sur le tableau du TMP du
18/03/2019 publié par BAM pour calculer les taux actuariels. Le tableau de
la figure 2.2 illustre les taux actuariels transformés et interpolés calculés sous
python.

Figure 2.2: Les taux actuariels du 18/03/2019 par maturité annuelle

Pour les maturités de 13 semaines(91 jours), 26 semaines(182 jours) et 52


semaines(364 jours) le taux zéro coupon est égale au taux actuariel.Tandis
que pour les maturités qui dépassent un an, le taux zéro coupon est calculé
par l’approximation de Bootstrapping. Pour ce faire, on commence par con-
sidérer une obligation paire, c’est-à-dire que cette obligation est émise à sa
valeur nominale, d’où l’égalité :

n
X CFi N
N= i
+
i=1
(1 + ZCi ) (1 + ZCn )n

Où CFi sont les cash flows annuels et ZCi représente le taux zéro coupon
correspondant à la maturité i.

22
Génie MIS Ecole Mohammedia d’Ingénieurs

Or ∀i ≥ 1 CFi = rN avec r représente le taux actuariel. On sim-


plifie et on obtient :

n
X r r+1
1= i
+
i=1
(1 + ZCi ) (1 + ZCn )n

Le taux zéro coupon vaut alors :

r+1 1
ZCn = ( n )n − 1
X r
1−
i=1
(1 + ZCi )i

1 1
ZCN = ( N −1 )N − 1
X 1 1 1
( i
− i
)+
i=1
(1 + ri ) (1 + ZCi ) (1 + rN )N

Le tableau de la figure 2.3 illustre le taux zéro coupon correspondant au


18/03/2019 :

Figure 2.3: Les taux zéro coupon par maturités pleines correspondantes au
18/03/2019

23
Génie MIS Ecole Mohammedia d’Ingénieurs

2.3 Modélisation des taux d’intérêts


2.3.1 Modèle à un seul facteur: Modèle de Vasiçek
Dans les modèles à un seul facteur, la seule variable qui détermine la dy-
namique et l’évolution de la courbe des taux est le taux à court terme.
L’analyse des taux d’intérêts à court terme à travers ces modèles est es-
sentielle pour comprendre leur évolution futures. La dynamique des taux
d’intérêts est décrite par l’équation stochastique suivante:

dr(t) = µ(r, t)dt + σ(r, t)dB(t) (2.3)


Avec :
- µ(r, t) représente l’espérance de changement de r(t), cet terme est aléatoire
mais il est connu à l’instant t. C’est la partie déterministe de y et il représente
la tendance de r.
- σ(r, t) représente la variance de changement de r par unité de temps. Elle
est aléatoire mais connue à l’instant t, elle contrôle la force par laquelle dB(t)
perturbe la trajectoire de r. C’est la composante imprévue du changement
- B(t) est un mouvement Brownien Standard.
Il existe des multitudes de modèles stochastiques à un seul facteur. Dans ce
rapport,on a opté pour le modèle le plus connu, c’est le modèle de Vasiçek.
L’une des premières modélisations du taux court terme a été développée par
Vasiçek. Ce modèle modèlise la dynamique du taux d’intérêt en introduisant
l’effet de retour à la moyenne du taux jour le jour autour d’une tendance
moyenne et une force de rappel. En d’autres termes, ce modèle s’appuie sur
le processus autorégressif d’Orstein-Uhlenbeck. Le taux court est modélisé
par l’équation différentielle stochastqiue inspirée par le processus d’Ornstein
Uhlenbeck:
dr(t) = a(b − r(t))dt + σdWt (2.4)
Avec:
- σ: Volatilité du taux d’intérêt instantané.
- b: Tendante du taux d’intérêt instantané.
- a: Force de rappel ou la vitesse de moyenne qui fait retourner r vers sa
valeur moyenne b.
- Wt : Processus Brownien.
La solution de cette équation différentielle stochastique est exprimée par:

Z t
−at
r(t) = b + (r(0) − b)e +σ e−a(t−u) dWu (2.5)
0

24
Génie MIS Ecole Mohammedia d’Ingénieurs

C’est un processus gaussien de moyenne rm = b+(r(0)−b)e−at et de variance


σ2
2a
(1 − e−2at ). Pour estimer les paramètres de ce modèle, nous allons utiliser
deux techniques, à savoir l’approche en série chronologiques et l’approche de
maximum de vraissemblance.
Estimation des paramètres du modèle par l’approche en séries
chronologiques:
Pour callibrer ce modèle, nous avons besoin de la solution de son équation
différentielle stochastique en sa forme discrète. Après nous allons recourir
à la méthode des moindres carrées pour effectuer cette estimation. On a la
solution :

Rt
r(t) = b + (r(0) − b)e−at + σ 0
e−a(t−u) dWu

On discrétise cette équation, on obtient:


r
1 − exp (−2adt)
rt = rt−1 exp (−adt) + b(1 − exp (−adt) + σ ϵ (2.6)
2a
Où ϵ suit une loi normale centrée réduite .
Il est clair que cette série suit un processus d’auto-régressif d’ordre 1.
Le modèle se met alors sous la forme :

rt = αrt−1 + β + ξ

Avec :
α = e−adt



β = b(1 − exp (−adt)

(2.7)
 σ 2 1 − exp (−2adt)
∼ N (0, (

ξ ))
2 2a

Pour que l’hypothèse du processus auto-régressif d’ordre 1 soit vérifiée, il


faut mener une étude de stationnarité à cette série temporelle. Une série
chronologique est dite stationnaire, si elle n’a aucun facteur évolutif dans le
temps, c’est à dire qu’elle ne possède ni tendance ni saisonnalité. Une vari-
able stationnaire a tendance à osciller autour de sa valeur moyenne, revenant
constamment à sa valeur d’équilibre, pour pouvoir enfin prédire les valeurs
futurs. Dans le cas du taux court modélissé par Vasiçek, on a intérêt à avoir
la série chronologique pour qu’elle vérifie le processus d’Ornstein-Uhlenbeck
caractérisé par l’effet de retour à la moyenne. Nous testons la stationnarité

25
Génie MIS Ecole Mohammedia d’Ingénieurs

de la série par le test de Dickey FULLER augmenté (ADF). On considère


en effet, l’hypothèse nulle H0 qui dit que la série n’est pas stationnaire et
l’hypothèse non nulle H1 qui dit qu’elle est stationnaire.

Estimation des paramètres du modèle par l’approche du maximum


de vraissemblance:
Le maximum de vraisemblance est une méthode statistique permettant d’estimer
les paramètres d’un modèle de probabilité à partir d’un ensemble d’observations.
Il s’agit de trouver des valeurs pour les paramètres du modèle qui maximisent
la fonction de vraisemblance des données observés.
Avant d’entamer la phase d’estimation des paramètres du modèle de Vasiçek,
nous avons besoin d’abord de la fonction de densité de probabilité de Vasiçek
du taux court rt+1 sachant que l’observation précédente est connue .
Cette fonction est déterminée par la formule suivante :
−r e−a −b(1−e−a ) 2
1 r
−( i+1 i √ )
f (ri+1 \ri , a, b, σ) = √ e 2σ (2.8)
2πσ
Pour un échantillon Xi = r1 , r2 , ..., rn , la fonction de vraisemblance s’écrit:

n−1
Y
L(a, b, σ) = f (ri+1 \ri , a, b, σ)
i=1
Maximiser la fonction de vraisemblance consiste à maximiser également le
logarithme de vraisemblance:

n−1
X
ln(L(a, b, σ)) = f (ri+1 \ri , a, b, σ)
i=1
On remplace f du modèle de Vasiçek par son expression :

n−1
X
ln(L(a, b, σ)) = − n−1
2
(ln(2π) − ln(σ)) − 1
2σ 2
(ri+1 − ri e−a − b(1 − e−a ))2
i=1
Les conditions du premier ordre sont :

∂L(a, b, σ
=0


∂a)





 ∂L(a, b, σ
=0 (2.9)

 ∂b)


 ∂L(a, b, σ
=0


∂σ)

26
Génie MIS Ecole Mohammedia d’Ingénieurs

On trouve ainsi les estimations du maximum de vraisemblance:



 Xn−1
(ri+1 − b)(ri − a)





a = − ln( i=1 n

)



 X
(ri − b)2





i=1
Pn−1 (2.10)
−a
i=1 (ri+1 − ri e )



 b =
(n − 1)(1 − e−a )




n−1


 1 X
2
(ri+1 − b − e−a (ri − b))2

σ = n−1



i=1

On note :  n
X
Sx = ri−1






 i=2

 n

 X



 Sy = ri

 i=1



 n−1
X
Syy = ri2 (2.11)


 i=1

 n

 X



 Sxy = ri ri−1

 i=2

n


 X
 2


 Sxc = ri−1
i=2

On obtient ainsi :
Sxy − θSy − Sy + nθ2

a = − ln( )


Sxx − 2θSx + nθ2




Sy Sxx − Sx Syy

b=


 n(Sxx − Sxy ) − (Sx2 − Sx Sy
σ 2 = 1 (Syy − 2e−a Sxy + e−2a Sxx − 2b(1 − e−a )(Sy − e−a Sx ) + nb2 (1 − e−2a ))



n
(2.12)

Application du modèle aux données du marché marocain


Dans cette partie nous allons appliquer ce modèle par des données réelles

27
Génie MIS Ecole Mohammedia d’Ingénieurs

du marché marocain en utilisant l’approche en séries chronologiques et la


méthode de maximum de vraissemblance.
Le taux court choisi pour estimer les paramètres du modèle de Vasiçek est
le taux moyen pondéré au jour le jour du marché monétaire interbancaire
(T M Pjj ). La base de données qu’on a utilisé est un ensemble d’observations
du TMP de la période allant de 01/01/2008 au 09/04/2019 importées à par-
tir du site officiel de Bank-Al-Maghreb. Ces données sont illustrées dans le
graphique de la figure 2.4 qui décrit les fluctuations du TMP au cours de la
période considérée:

Figure 2.4: TMPjj du marché monétaire interbancaire marocain entre 2008


et 2019
Avant de procéder à la calibration, nous devons calculer certaines statis-
tiques descriptives telles que la moyenne, l’écart-type et la corrélation des
taux d’intérêt.Les statistiques relatives au Taux moyen pondéré déduites sous
python sont représentées dans la figure 2.5 ci-dessous :

Figure 2.5: Statistique descriptive du TMPjj


Les statistiques montrent qu’on a 4083 observations, et en moyenne le taux
moyen interbancaire pondéré est de l’ordre de 2.9%. Pour la calibration
du modèle de Vasiçek par la méthode des séries chronologiques, nous allons

28
Génie MIS Ecole Mohammedia d’Ingénieurs

d’abord mener une étude de stationnarité de la série étudiée. Nous avons


étudié la stationnarité de la série des TMP du jour le jour en utilisant le test
de Dickey-Fuller augmenté (ADF) sous python, les résultats obtenus sont
résumés dans la figure 2.6 :

Figure 2.6: Test ADF pour l’étude de stationnarité

Nous remarquons que la p-value est largement supérieur à 5%, alors on ne


peut pas rejeter l’hypothèse non nulle H0 , la série est donc non stationnaire.
Dans ce cas, si la série de taux d’intérêt à court terme est instable, cela sig-
nifie qu’elle ne suit pas une distribution de probabilité stable dans le temps,
ce qui peut rendre difficile la modélisation et la prévision des taux d’intérêt.
Dans ce cas, pour estimer les paramètres du modèle de Vasicek, la méthode
de maximisation de la vraisemblance peut être utilisée. Cette méthode con-
siste à trouver les paramètres du modèle qui maximisent la probabilité de
l’ensemble observé de taux d’intérêt compte tenu des hypothèses du modèle.
Ainsi, la fonction de vraisemblance évalue dans quelle mesure les données
concordent avec le modèle proposé. Si la série n’est pas stationnaire, la fonc-
tion de vraisemblance sera plus difficile à maximiser car la distribution des
taux d’intérêt ne sera pas stable dans le temps. Cependant, même dans ce
cas, la méthode du maximum de vraisemblance reste une méthode courante
pour estimer les paramètres du modèle de Vasicek, car elle permet de trou-
ver les paramètres qui minimisent l’écart entre la prédiction du modèle et la
valeur observée, même si la série n’est pas parfaitement stationnaire.
La calibration de ce modèle à l’aide de l’approche du maximum de vraisem-
blance sous Python peut être réalisée en suivant les étapes suivantes:

1. Importation des bibliothèques.

2. Importation des données: Nous devons maintenant importer les données


sur les taux d’intérêt.

3. Définition de la fonction de densité de probabilité :Nous allons saisir


dans python la fonction de densité de probabilié introduite dans la
partie précédente.

29
Génie MIS Ecole Mohammedia d’Ingénieurs

4. Définir la fonction de vraisemblance du modèle de Vasicek introduite


dans la partie précédente.

5. Définir les paramètres initiaux et les bornes pour l’optimisation

6. Minimiser la fonction de vraisemblance

7. Afficher les résultats de la calibration

Ainsi les estimations des paramètres de Vasiçek sont :

Figure 2.7: Les estimateurs du modèle de Vasiçek

Après avoir estimer les paramètres de ce modèle, nous devons effectuer un


backtesting pour juger sa performance. Pour ce faire, nous utilisons la for-
mule suivante:

E(rt \rt−1 ) = θ(1 − e−k ) + e−k rt−1

Cette formule nous permet de calculer l’espérance conditionnelle du taux


d’intérêt futur à la date t en fonction du taux d’intérêt à la date t-1. Les
paramètres θ et k sont des paramètres du modèle de Vasicek estimés à partir
des données historiques. Les résultat du Backtesting visualisent l’évaluation
de l’erreur de prévision du modèle de Vasicek pour chaque observation du
taux d’intérêt. Cette erreur est utilisée ensuite pour calculer les statis-
tiques de performance pour le modèle, telles que le RMSE et le coefficient de
détermination R2 .
Ainsi,la figure 2.8 illustre l’erreur du prévision de Vasiçek à partir du Back-
testing qui a été effectué sous python ainsi que les statistiques de performance
exliqués précédemment :

30
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 2.8: L’erreur de prévison du modèle de Vasiçek

On remarque que cette erreur est presque nulle et que la racine carré de
l’erreur quadratique moyenne est de l’ordre de 10−4 c’est à dire qu’elle est
presque négligeable et le coefficient de détermination est supérieur à 90% . Ce
qui explique que l’estimation de notre modèle est performante. Cependant,
comme la plupart des modèles mathématiques, le modèle Vasicek est un
modèle général et il ne représente pas parfaitement le mouvement des marchés
financiers en raison de plusieurs limitations, à savoir :

• Généralité du modèle: Le modèle de Vasicek ne tient pas compte de


la nature des marchés financiers, chacun d’eux, fluctue individuellement
en fonction de la politique monétaire et budgétaire, de la situation
macro-économique de chaque pays.

• Hypothèses loins de la réalité: Le modèle de Vasicek met en oeu-


vre des hypothèses comportementales loin de la réalité, notamment
l’efficience du marché, l’absence d’opportunité d’arbitrage, des investis-
seurs neutres aux risques.

• La continuité du modèle: Les modèles mathématiques, dont celui


de Vasicek, exigent que la trajectoire du taux soit continue afin de tirer
parti des puissants outils mathématiques sur le continuum, mais en
pratique, le taux peut bondir instantanément et être affecté par des
effets de discontinuité sur le marché.

31
Génie MIS Ecole Mohammedia d’Ingénieurs

2.3.2 Modèle à multiple facteurs: La fonctionnelle de


Nelson Siegel Svenson
Dans cette partie nous nous intéressons au modèle de Nelson Siegel Svensson
après avoir construit la courbe des taux à l’aide du modèle de Vasicek. Le
modèle comprend la prévision de la forme et du niveau de la courbe des
taux. Dans ce modèle, Nelson et Siegel modélisent le taux forward instantané
afin d’ajuster la courbe des taux continue sur les rendements observé. Ils
considèrent que ce taux est la solution de l’équation différentielle suivante:

f (τ ) = β0 + β1 e−λτ + β2 λe−λτ (2.13)

Où :

- τ = T − t: Nombres de jours restants jusqu’à l’échéance.


- f (τ ) = f (t, T ): Taux forward instantané à l’instant t et d’échéance T.
- β0 : Facteur de niveau représentant le taux d’intérêt à court terme.
- β1 : Pente de la courbe.
- β2 : Paramètre qui indique la forme de la courbure.
- λ: Paramètre d’échelle.

Nous utilisons la relation en temps continu pour calculer la fonctionnelle des


taux d’intérêts:

1

R(t, T ) = τ 0
f (s)ds

Ainsi, le taux zéro coupon s’écrit comme suit:

−λτ −λτ
R(t, T ) = β0 + β1 ( 1−eλτ ) + β2 ( 1−eλτ − e−λτ )

Le signe de β2 détermine la forme et la taille de la courbe. Autrement dit, si


β2 > 0 la courbe est une bosse c’est-à-dire qu’elle prend la forme de ’⊔’. β0
représente le taux long car pour une longe durée le taux zéro coupon tend
vers β0 . En effet: limτ →+∞ R(t, T ) = β0 . Pour une durée qui tend vers 0,
on a: limτ →+0 R(0, T ) = β0 + β1 . Ce terme représente le taux court de la
courbe. On déduit alors que β1 représente l’écart entre le taux court et le taux
long. Ainsi, la fonctionnelle de Nelson et Siegel est un outil d’évaluation des
quatres formes connues de la courbe des taux d’intérêt soient: ascendante,
descendante, inversée, et plate.

32
Génie MIS Ecole Mohammedia d’Ingénieurs

Evolution des charges des paramètres du modèle de Nelson Siegel


L’évolution des charges des facteurs de la fonctionnelle de Nelson-Siegel
représente la variation dans le temps de la contribution relative de chaque fac-
teur dans la modélisation des taux d’intérêt à long terme. Ce développement
est important car il aide à comprendre comment les facteurs affectent les taux
d’intérêt pour différentes échéances, ce qui aide à prévoir les taux d’intérêt
futurs et à évaluer les risques associés à certains instruments financiers.
La figure 2.9 montre l’évolution des facteurs β0 , β1 et β2 pour différentes
échéances en fixant le paramètre d’échelle λ à 0.074.

Figure 2.9: Evolution des charges des paramètres du modèle NS

Nous analysons le graphe, on constate que β0 reste constante dans le temps,


c’est le niveau qui influence l’ensemble des taux d’intérêt. Par contre, β1
tend vers la valeur 0.8 quand t tend vers 0 et tend vers 0 quand la durée
augemente. On déduit alors queβ1 représente bien le taux court terme. Pour
le dernier facteur β2 , il est presque nul pour les durées longues et courtes
et concave pour les maturités à moyen terme. Donc β2 représente bien le
facteur déterminant la courbure de la courbe.
Calibrage de la courbe par le Modèle de Nelson Siegel :
Construire la courbe des taux à l’aide du modèle de Nelson Siegel revient
à déterminer les valeurs des paramètres du modèle, et ceci se fait à l’aide
de l’ajustement du modèle à la courbe zéro coupon du marché au sens des
moindres carrés : c’est-à-dire minimiser la distance au carré entre les points
de la courbe et les points du modèle tout en fixant le paramètre d’échelle
λ dans un intervalle donné. La valeur retenue de λ est celle qui minimise
notre fonction objective. On choisi de varier λ entre 0 et 40, la fonction de
minimisatiobn s’exprime comme suit:

33
Génie MIS Ecole Mohammedia d’Ingénieurs

n
X
λ̂ = argmin( (R(t, Ti )obs − R(t, Ti )N S )2 ) (2.14)
i=0

Avec:

• R(t, Ti )obs : : le taux observé sur le marché pour la maturité Ti à la


date t.

• R(t, Ti )N S : le taux calculé par le modèle pour la maturité Ti à la date


t.

Application du modèle aux données réels du marché marocain:


Pour estimer les paramètres du modèle de Nelson-Siegel, on applique la
démarche expliquée précédemment pour la date du 16/03/2023 afin de comaprer
les taux zéro-coupon du modèle avec ceux calculés à partir des données du
marché marocain. Pour ce faire nous allons utiliser une méthode d’estimation
préliminaire telle que la méthode des moindres carrés sur les taux zéro coupon
moyens pour estimer les valeurs initiales des facteurs β0 , β1 et β2 . Avec ces
paramètres estimés nous allons construire la courbe des taux zéro coupon
du modèle de NS sous Python et la comparer à la courbe des taux zéros
coupon réelle. On fixe λ = 0.1, la figure 2.10 donne les paramètres initiales
des facteurs du modèle:

Figure 2.10: Paramètres estimés du modèle de NS pour la date 16/03/2023

Nous allons maintenant effectuer un backtesting du modèle en vérifiant la


qualité de l’ajustement en comparant les taux zéro coupon observés sur le
marché avec les taux zéro coupon prédits par le modèle de Nelson-Siegel avec
les paramètres β0 , β1 et β2 estimés. La figure 2.11 permet de visualiser les
deux courbes de taux zéro coupon:

34
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 2.11: Calibrage de la courbe des taux ZC avec le modèle NS pour le


16/03/2023
Nous pouvons remarquer que la courbe NSS ajuste bien la courbe Zéro
Coupon.Des écarts très faibles pour les maturités comprises entre 16 ans
et 23 ans, ces écarts peuvent être expliqués par le faite que le facteur re-
sponsable de la forme de courbure β2 était mal estimé, et par conséquent le
modèle n’a pas pu suivre les petits changements que le marché a connu en
cette période.
Malgré il est largement utilisé en finance, le modèle de Nelson-Siegel présente
également certaines limites:
• La fonction de forme utilisée par le modèle Nelson-Siegel peut être
inadéquate pour modéliser les comportements extrêmes des taux d’intérêt,
comme les pics des vallées dans la CDT. Cela peut entraı̂ner des diffi-
cultés à modéliser avec précision de telles situations.

• La sensibilité du modèle Nelson-Siegel aux données d’entrée signifie que


ses résultats dépendent fortement de la précision des données utilisées
pour son ajustement. Si les données d’entrée sont erronées, la sortie du
modèle sera déformée.

• Le manque de flexibilité: Le modèle de Nelson-Siegel est limité par sa


forme fonctionnelle fixe, qui peut ne pas être en mesure de capturer
toutes les nuances et les complexités de la courbe des taux d’intérêt.

• La non prise en compte des facteurs macroéconomiques: Le modèle de


Nelson-Siegel ne prend pas en compte les facteurs macroéconomiques
tels que l’inflation, le PIB, le chômage, etc. qui peuvent affecter la
courbe des taux d’intérêt.
En résumé, lorsque l’on considère l’utilisation du modèle Nelson-Siegel pour
la modélisation de la courbe des taux d’intérêt, il est important de garder à

35
Génie MIS Ecole Mohammedia d’Ingénieurs

l’esprit ses limites et les prendre en compte lors de son utilisation.


Conclusion
Dans ce chapitre, nous avons construit la courbe des taux en utilisant la
méthode d’interpolation linéaire, ainsi que la courbe des taux ZC par le biais
de la méthode de Bootstrapping. De plus, nous avons appliqué les modèles
mathématiques de Vasiçek et Nelson-Siegel pour modéliser la courbe des
taux. Nous avons analysé les avantages et les limites de chaque approche.

36
Chapitre 3

Valorisation des emprunts


obligataires

Ce chapitre nous allons voir comment valoriser une obligation et nous allons
réaliser un pricer sous Python qui permet d’évaluer les emprunts obligataires,
nous allons également introduire les caractéristiques générales du portefeuille
obligataire.

3.1 Valorisation des emprunts obligataires à


taux fixe
Une obligation est un instrument financier émet par une entreprise, banque
ou un Etat qui reçoit en prêt un montant de la part des acheteurs de ce
titre. Autrement dit, l’émetteur de l’obligation est le prêteur, et l’achteur est
l’emprunteur ou l’investisseur.L’Etat ou les établissements publiques garanties
par l’Etat émettent des obligations dites emprunts publiques (appelées Bons
de Trésor au cas où l’émetteur est l’Etat), par contre les banques et les
entreprises privées emettent des emprunts privés.La valorisation des deux
types d’emprunts est identique, avec une prime de risque qui faut prendre en
compte lors d’une émission privée.

Cas 1: Obligation de maturité et maturité résiduelle inférieur à un


an pour une ligne simple
La figure 3.1 illustre le cas d’une obligation à ligne simple avec maturité M
et maturité résiduelle Mr .

37
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 3.1: Ligne obligataire simple avec M et Mr ≤ 1 an

Le coupon plein unitaire est calculé à partir de la formule suivante :

M
Cpu = tf × N × 360

Le coupon couru est donnée par :


M −Mr
Ccu = tf × N × 360

Ainsi, le prix de l’obligation est donné par la formule suivante:

N +Cp u
Pdirty = 1+r× M r
360

Cas 2: Obligation de maturité et maturité résiduelle supérieur à


un an pour une ligne simple
Dans ce cas, la valorisation des obligation se divise en deux cas, le cas d’une
date de valorisation située avant la date du premier coupon et le cas d’une
date de valorisation située après la date du premier coupon. Les figures 3.2
et 3.3 représentent les deux cas respectivement:

38
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 3.2: Ligne obligataire simple avec M et Mr supérieur à 1 an : Date


valorisation est avant la date du 1er coupon

Figure 3.3: Ligne obligataire simple avec M et Mr supérieur à 1 an le cas


d’une date valorisation après la date du 1er coupon
Le coupon plein est donné par la relation suivante :

Cpu = tf × N

39
Génie MIS Ecole Mohammedia d’Ingénieurs

le prix de l’obligation s’exprime alors comme suit :

M
X Cpu N
Pdirty = Dcoup(j) −Dval + Dcoup(M ) −Dval
j=i (1 + r) k(j) (1 + r) k(M )

Où K(i)=365, s’il n’ y a pas un 29 février entre Dcoup(i) et Dcoup(i−1) , sinon


elle vaut 366. Avec i est la numéro du coupon suivant la date de valorisation.
Le coupon couru se calcule comme suit:
D −Dcoup(i−1)
(
tf × N × val) k(i) Si la date valo est après la date du premier coupon
Ccu =
tf × N × Dvalk−D

em
Si la date valo est avant la date du premier coupon

Avec K’=365, s’il n’ y a pas un 29 février entre Dcoup(i) et Dcoup(i−1) , sinon


elle vaut 366. L’interface du Pricer dans le cas cas 2 où la date de valorisation
est avant et après la date du premier coupon est représentée respectivement
dans les figures 3.4 et 3.5.

Figure 3.4: Interface du Pricer dans le cas cas 2 : Date valorisation est après
la date du 1er coupon

40
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 3.5: Interface du Pricer dans le cas cas 2 : Date valorisation est avant
la date du 1er coupon

Cas 3: Obligation de maturité et maturité résiduelle supérieur à


un an pour une ligne atypique

Si la date de valorisation est avant la date du premier coupon (figure 3.6),


le coupon plein est calculé par la formule suivante:

Dcoup(1) −Dem
Cpu1 = tf × N times k(1)

41
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 3.6: Ligne obligataire atypique avec M et Mr supérieur à 1 an : Date


valorisation est avant la date du 1er coupon

Les autres coupons s’expriment comme suit :

Cpu = tf × N

Ainsi, le prix de l’obligation est donné par:


M
Cpu1
X Cpu N
Pdirty = Dcoup(1) −Dval + Dcoup(j) −Dval + Dcoup(M ) −Dval
(1+r) k(1) j=2 (1 + r) k(j) (1 + r) k(M )

Le coupon couru est donné comme suit:

Dval −Dem
Ccu = tf × N × k

Où K=365, s’il n’ y a pas un 29 février entre Dcoup(i) et Dcoup(i−1) , sinon elle
vaut 366.
Par contre, si la date de valorisation est après la date du premier coupon
(figure 3.7), le coupon plein est exprimé alors par ce qui suit:

Cpu = tf × N

42
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 3.7: Ligne obligataire atypique avec M et Mr supérieur à 1 an dont


la date de valorisation est après la date du 1er coupon

Dans ce cas, l’obligation a déjà généré un flux du coup, les prochains


coupons seront identiques pour la même durée d’un an. On constate alors
que l’obligation est passée d’une ligne atypique à une ligne simple. Le
coupon couru est calculé alors comme suit:

Dval −Dcoup(i−1)
Ccu = tf × N × k(i)

Ainsi, le prix de l’obligation est donné par la formule suivante:

M
X Cpu N
Pdirty = Dcoup(j) −Dval + Dcoup(M ) −Dval
j=i (1 + r) k(j) (1 + r) k(M )

Cas 4: Obligation de maturité supérieur à un an et maturité


résiduelle inférieur à 1 an pour une ligne atypique et simple
Dans ce cas, la procédure est la même pour les deux types de ligne. Les
figures 3.8 et 3.9 illustrent respectivement le cas de cette obligation pour une
ligne simple et une ligne atypique.

43
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 3.8: Ligne obligataire simple avec M supérieur à 1 an et Mr inférieure


à 1 an

Figure 3.9: Ligne obligataire atypique avec M supérieur à 1 an et Mr


inférieure à 1 an
Le coupon plein unitaire est donné par:

Cpu = tf × N
Le coupon couru est exprimé par la formule suivante:

44
Génie MIS Ecole Mohammedia d’Ingénieurs

Dval −Dcoup(M −1)


Ccu = tf × N × k(M )

Ainsi, le prix de l’obligation se calcule comme suit:

N +Cp u
Pdirty = 1+r× M r
360

3.2 Caractéristiques du Portefeuille obli-


gataire
Un portefeuille désigne une collection d’actifs financiers détenus par un
établissement ou un individu. Il est composé de titres de créances et
d’obligations. Nous allons définir ce qui caractérise un portefeuille obligataire
en terme de duration, sensibilité, convexité et rentabilité.
La duration d’un portefeuille est la somme des durations pondérées des obli-
gations le composant, Pour un portefeuille de n titres :
n
X
Dp = wi × Di (3.1)
i=1

avec Di la duration du titre i et wi la proportion de la valeur du portefeuille


investie dans le titre i.
La duration d’une obligation est définie comme la durée de vie effective de
l’obligation, en d’autres termes la durée moyenne au bout de laquelle on
récupère entièrement le capital et les paiements d’intérêt. La duration peut
s’écrire sous la forme du rapport entre la somme de tous les flux actualisés
pondérés par leur année et la valeur actuelle du titre :
m m
X i × Ci X i × Ci
i=1
(1 + tr )i i=1
(1 + tr )i
D= = m (3.2)
P X Ci
i=1
(1 + tr )i

m
X Ci
Car le prix d’une obligation s’exprime comme suit: P =
i=1
(1 + tr )i
Avec:
- Ci est le ième coupon
- m est la maturité de l’obligation
- tr est le taux de rendement

45
Génie MIS Ecole Mohammedia d’Ingénieurs

On note que plus la duration d’une obligation est élevée plus son prix est
volatil, et donc sa détention est risquée car elle est plus sensible à une
variation de taux qu’une obligation qui a une duration moins

La sensibilité d’une obligation est exprimée par :


m
1 dP 1 X i × Ci
S= =− (3.3)
P dtr P i=1 (1 + tr )i
Ainsi, la sensibilité d’un portefeuille est la somme pondérée des sensibilités
des titres qui le composent, et s’écrit sous la formule :
n
X
Sp = wi × Si (3.4)
i=1
On peut établir une équation qui lie la sensibilité et la duration comme suit:
D
S=− (3.5)
1 + tr
On peut alors conclure que la sensibilité d’un titre est d’autant plus
importante que sa duration est élevée.

La duration et la sensibilité sont de bonnes mesures de la variation du prix


occasionnée par de faibles variations des taux. Alors que pour des variation
plus importantes, ces dernières fournissent des estimations moins précises,
qu’on peut expliquer par la forme convexe de la relation qui régit entre le
prix et le taux de rendement à l’échéance. Il convient alors d’utiliser une
mesure de la courbure de la relation entre le prix et le rendement exigé d’une
obligation qu’on appelle la convexité et qui est égale à la dérivée seconde du
prix de l’obligation par rapport à son taux de rendement actuariel divisée
par le prix de l’obligation, son expression est :
m
1 d2 P 1 X i(1 + i)Ci
C= 2
=− (3.6)
P dtr P (1 + tr ) i=1 (1 + tr )i+1
2

Quand au rendement d’un portefeuille obligataire, il est calculé par la


somme pondérée des rendements des obligations qui le composent. Pour un
portefeuille P composé de n obligations, on a :
n
X
Rp = wi × Ri (3.7)
i=1

46
Génie MIS Ecole Mohammedia d’Ingénieurs

Avec:
- Rp : La rentabilité du portefeuille
- wi : Les proportions qui composent le portefeuille d’obligations.
- Ri : La rentabilité de l’ième obligation

47
Chapitre 4

Outils et techniques du
machine learning utilisés

Le Machine Learning est un domaine de l’informatique qui vise à appren-


dre aux ordinateurs comment apprendre et agir de manière autonome. Plus
précisément, le Machine Learning est une approche de l’analyse des données
(Data Analysis) qui implique la construction et l’adaptation de modèles,
qui permettent aux programmes d’apprendre par l’expérience. Le Ma-
chine Learning implique la construction d’algorithmes qui apprennent à
améliorer leur capacité à faire des prédictions à partir d’un large ensemble de
données. Dans certains scénarios, la machine reçoit une quantité importante
de données d’entrainement étiquetées, ce que l’on appelle l’apprentissage su-
pervisé. Dans d’autres cas, aucune donnée étiquetée n’est fournie, c’est ce
qu’on appelle l’apprentissage non supervisé. Dans ce chapitre nous allons
définir ce que c’est l’apprentissage supervisé et non supervisé et quelles sont
les techniques d’apprentissage automatiques utilisées pour la réalisation de
ce projet.

4.1 Apprentissage supervisé


L’apprentissage supervisé est la forme d’apprentissage machine la plus
pratique et la plus largement adoptée. Il consiste à créer une fonc-
tion qui relie les variables d’entrée aux variables de sortie préférées. Les
tâches d’apprentissage supervisées peuvent en outre être classées comme des
problèmes de classification ou de régression.
La classification est un processus qui consiste à classer un ensemble de
données en classes. Elle peut être effectuée sur des données structurées ou non
structurées. Le processus commence par la prédiction de la classe de points de

48
Génie MIS Ecole Mohammedia d’Ingénieurs

données donnés. Les classes sont souvent appelées cibles, étiquettes (Labels)
ou catégories. La modélisation prédictive de la classification est la tâche
d’approximation de la fonction de cartographie des variables d’entrée aux
variables de sortie discrètes. L’objectif principal est d’identifier dans quelle
classe/catégorie les nouvelles données tomberont. Il existe deux grands types
de tâches de classification. Ce sont :

• Classification binaire : fait référence aux tâches de classification avec


deux classes de labels. La détection de courrier électronique (spam ou
non) ou la détection de fraude bancaire (fraude ou non) sont des exem-
ples de classification binaire. La classe correspondant à l’état normal
reçoit le label de classe 0 et la classe correspondant à l’état anormal
reçoit le label de classe 1.

• Classification multi-classes: désigne les tâches de classification qui


ont plus de deux classes de labels. La classification des visages et la
reconnaissance optique de caractères sont des exemples de la classifica-
tion multi-classes.

Tandis que la régression est l’un des types les plus courants de modèles de
Machine Learning, permet d’estimer les relations entre les variables. Alors
que les modèles de classification identifient la catégorie à laquelle appartient
une observation, les modèles de régression estiment une valeur numérique.
Dans le contexte du Machine Learning et de la Data Science, la régression fait
spécifiquement référence à l’estimation d’une variable dépendante continue ou
d’une réponse à partir d’une liste de variables d’entrée, ou de caractéristiques.

4.2 Apprentissage non supervisé


L’apprentissage non supervisé est une technique du Machine Learning qui
permet de trouver et d’analyser des modèles cachés dans des données brutes
ou non étiquetées. En ignorant complètement les étiquettes, un modèle util-
isant l’apprentissage non supervisé peut déduire des relations subtiles et com-
plexes entre des données non triées, et ce sans le temps et les coûts nécessaires
à l’apprentissage supervisé où toutes les données sont étiquetées. C’est une
méthode d’apprentissage dans laquelle au lieu de montrer à la machine des
exemples (X,Y) de ce qui elle doit apprendre on lui fournit uniquement des
données (X) et on lui demande d’analyser la structure de ces données afin
d’apprendre elle même à réaliser certaines taches.

49
Génie MIS Ecole Mohammedia d’Ingénieurs

4.3 Modèles d’apprentissage utilisées


Le principal objectif de ce mémoire est d’améliorer la gestion du portefeuille
obligataire en exploitant les techniques avancées du machine learning. Les
méthodes traditionnelles de gestion de portefeuille obligataire peuvent être
limitées dans leur capacité à prédire avec précision la composition optimale
du portefeuille et à identifier les opportunités de trading. Par conséquent,
l’utilisation d’algorithmes d’apprentissage supervisé représente une approche
prometteuse pour optimiser ces processus. En effet, nous avons choisi
d’optimiser la composition du portfeuille obligataire en utilisant des modèles
de régression pour la prédiction de la valeur du poids de chaque obligation
dans le portefeuille ainsi que d’identifier les opportunités de trading en
utilisant des algorithmes de classification binaire pour identifier le signal
d’achat ou de vente d’une obligation.
Le but de la régression en machine learning est de modéliser la relation
entre un ensemble de variables d’entrée (caractéristiques) et une variable de
sortie continue (le poids des obligations pour notre cas ), également appelée
variable cible. La régression vise à comprendre comment les variables
d’entrée influencent la variable cible et à créer un modèle qui peut prédire
avec précision les valeurs de la variable cible pour de nouvelles données en
se basant sur les caractéristiques disponibles. Tandis que la classification
binaire vise à regrouper les enregistrements en deux classes. Dans notre
cas, les deux classes: Option de vente ou option d’achat(0 ou 1). Donc
nous allons entrainer nos données à travers les algorithmes adéquats de la
régression et la classification binaire vu la nature des données et le type
de traitement envisagé. Ainsi, les algorithmes de régression du Machine
Learning choisis pour la prédiction de l’allocation optimale du portefeuille
sont les suivants :

Réseaux de neurones artificiels: Les réseaux de neurones artificiels sont


des modèles inspirés du cerveau humain, utilisés dans le domaine du Deep
Learning. Ils sont composés de neurones interconnectés, qui reçoivent des
signaux d’entrée, effectuent des calculs et génèrent des sorties. Les neurones
sont organisés en couches, avec une couche d’entrée, des couches cachées
pour le traitement intermédiaire, et une couche de sortie. Ces réseaux
sont flexibles et peuvent modéliser des relations complexes, ce qui les rend
adaptés à de nombreuses tâches telles que la classification, la reconnaissance
d’images et le traitement du langage naturel. Ils excellent dans les domaines
où les relations sont non linéaires ou les données sont complexes. Le schéma
de la figure 4.1 montre la structure des réseaux de neurones.

50
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 4.1: Structure d’un réseaux de neurone artificiel

Fonctionnement des réseaux de neurones :


Les réseaux de neurones imitent les neurones du cerveau humain comme
le montre la figure 4.2; chaque neurone est représenté par une fonction de
transfert qui prend en entrée des signaux x et retourne une sortie y.

Figure 4.2: Fonctionnement d’un réseaux de neurone artificiel

Cette fonction effectue deux étapes : la première consiste l’agrégation: dans


cette étape on fait la somme de toutes les entrées du neurone pondérés par
leurs poids, la deuxième étape consiste l’activation: si le résultat du calcul
précédent dépasse un certain seuil, généralement 0 alors le neurone s’active
et retourne une sortie y=1, sinon il reste à 0.
Ce modèle s’appelle le modèle du perceptron, il est constitué d’un seul neu-
rone et d’un algorithme d’apprentissage lui permettant de trouver les valeurs
des poids afin d’obtenir les sorties y, donc le perceptron suit ici un calcul
linéaire. Mais la fonction d’activation peut ne pas être linéaire. Parmi les
fonctions d’activation les plus populaires on trouve la fonction Sigmoid ou
la fonction logistique, la fonction relu et la fonction tanh. La figure 4.3
représente ces différentes fonctions avec leurs représentations graphiques et
leurs expressions mathématiques.

51
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 4.3: Fonctions d’activation

Le modèle de forêt aléatoire pour la régression: Le modèle de machine


learning appelé Random Forest Regressor est une méthode puissante et
populaire pour la régression. Il utilise une forêt aléatoire composée de
nombreux arbres de décision. Chaque arbre est construit avec un sous-
ensemble aléatoire des données d’entraı̂nement et des variables d’entrée. Les
prédictions de chaque arbre sont agrégées pour obtenir la prédiction finale,
généralement par la moyenne. Le modèle Random Forest Regressor gère
efficacement de grandes quantités de données et évite le surajustement. Le
shcéma de la figure 4.4 explique le fonctionnement de ce modèle.

52
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 4.4: Schéma Explicatif de l’algorithme RFR

L’algorithme Régression à Vecteur de Support (SVR): L’algorithme


Support Vector Regressor (SVR) est une méthode de machine learning
utilisée pour la régression. Il est basé sur le concept de machines à
vecteurs de support (SVM) et est particulièrement efficace pour modéliser
des relations non linéaires entre les variables.L’objectif principal de SVR
est de trouver une fonction (ou un hyperplan dans un espace de grande
dimension) qui se rapproche le plus possible des données d’entraı̂nement
tout en maintenant une marge d’erreur tolérée. Contrairement aux modèles
de régression traditionnels qui essaient de minimiser l’erreur entre les
prédictions et les valeurs réelles, SVR se concentre sur le maintien de la
plupart des points d’entraı̂nement dans une bande (ou un tube) définie par
la marge d’erreur.Les étapes clé de cet algorithme incluent le prétraitement
des données, le choix approprié du noyau pour la transformation des données
dans un espace de dimension supérieur, des exemples courants de noyau
incluent le noyau linéaire , polynomiale ainsi que le noyau gaussien , ensuite
vient la troisième étape de l’entraı̂nement du modèle SVR en optimisant les
paramètres pour trouver l’hyperplan qui maximise la marge d’erreur tolérée
et finalement la prédiction. Le schéma de la figure 4.5 illustre le fonction du
modèle SVR :

53
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 4.5: Schéma Explicatif de l’algorithme SVR


Les algorithmes de classification binaire choisis pour l’identification des op-
portunités de trading pour les obligations sont les suivants :

Régression logistique: La régression logistique est un algorithme


d’apprentissage automatique qui est utilisé pour les problèmes de classifi-
cation, c’est un algorithme d’analyse prédictive et basé sur le concept de
probabilité. Nous pouvons appeler une régression logistique un modèle de
régression linéaire, mais la régression logistique utilise une fonction de coût
plus complexe, cette fonction de coût peut être définie comme la ”fonction
sigmoı̈de” ou également connue comme la ”fonction logistique” au lieu d’une
fonction linéaire. L’hypothèse de la régression logistique tend à limiter la
fonction de coût entre 0 et 1. Les fonctions linéaires ne la représentent donc
pas car elle peut avoir une valeur supérieure à 1 ou inférieure à 0, ce qui
n’est pas possible selon l’hypothèse de la régression logistique. Afin de faire
correspondre les valeurs prédites aux probabilités, nous utilisons la fonction
sigmoı̈de.

Arbre de décision: La méthode des arbres de décision est très facile à lire
et à interpréter. Elle illustre le fait que l’apprentissage automatique n’est
pas toujours synonyme de modèles statistiques mais il peut aussi cibler des
objets symboliques. Un arbre de décision se lit de la racine aux feuilles. Les
feuilles sont associées aux classes alors que les nœuds correspondent aux tests

54
Génie MIS Ecole Mohammedia d’Ingénieurs

sur les valeurs des attributs. La figure 4.6 illustrue un exemple d’un arbre
de décision.

Figure 4.6: Exemple d’un arbre de décision


Dans la figure ci-dessus, la classification d’une nouvelle observation com-
mence par la première racine(ici Temps), si la condition est vérifiée, nous
procédons à la condition suivante (Oui), sinon nous passons à l’autre
condition (Non); et de façon récursive nous enchaı̂nons jusqu’à la dernière
feuille qui contient la classe à laquelle la nouvelle observation sera attribuée.
Ainsi, la construction de cet arbre exige le choix en première racine, de
l’attribut qui, par ses modalités, sépare le mieux les observations de chaque
classe, de façon à avoir des nœuds, contenant chacun le plus possible
d’observations d’une seule classe, puis nous réitérons la même opération sur
chaque nouveau nœud obtenu jusqu’à ce que la séparation des observations
ne soit plus possible ou plus souhaitable.

Forêt Aléatoire Pour la Classification: Les algorithmes du forêt


aléatoire ne sont pas utilisés que dans la régression ,mais ils incluent
également la classification. Le principe est le même que celui du Random
Forest Regressor , la seul différence c’est que le résultat est basé sur un vote
à la majorité des résultats reçus de chaque arbre de décision et non pas la
moyenne des résultats de chaque arbre de décision. La figure 4.7 représente
le principe de fonctionnement de ce modèle.

55
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 4.7: Principe de fonctionnement du modèle de forêt aléatoire pour la


classification

Par la suite, nous allons se baser sur les métriques de performance pour
les deux types des modèles de l’apprentissage automatique - Régression et
Classification- afin de choisir le meilleur modèle pour chacun d’eux.

4.4 Conception d’un modèle Machine Learn-


ing
Pour réaliser avec succès un projet basé sur des modèles machine learning, il
faut impérativemement passer par les étapes suivantes:

1. Collecte des données: La première étape consiste à collecter les


données pertinentes pour le problème qu’on souhaite résoudre. Il est
essentiel d’avoir des données de haute qualité et représentatives pour
garantir la performance du modèle.

2. Préparation des données : Une fois les données collectées, nous


devons les préparer pour le processus d’apprentissage. Cela im-
plique généralement le nettoyage des données en éliminant les valeurs
manquantes, les valeurs aberrantes et les doublons. Nous pouvons
également effectuer des transformations de données telles que la nor-
malisation, la discrétisation ou l’encodage des variables catégorielles.

3. Sélection des caractéristiques: À cette étape, nous identifion-


sles caractéristiques (variables) les plus pertinentes pour le modèle.
Cela peut inclure une analyse exploratoire des données et des tech-
niques de sélection de caractéristiques pour réduire la dimensionnalité
et améliorer la performance du modèle.

4. Choix du modèle d’apprentissage: En fonction de la nature du


problème (classification, régression, clustering, etc.) et des données
disponibles, nous devons choisir l’algorithme de machine learning ap-
proprié. Il existe une grande variété d’algorithmes disponibles, tels que
la régression linéaire, les arbres de décision, les réseaux de neurones,
les machines à vecteurs de support (SVM) et bien d’autres.

5. Division des données: Avant de construire le modèle, il est


courant de diviser les données en ensembles d’entraı̂nement, et de test.
L’ensemble d’entraı̂nement est utilisé pour ajuster les paramètres du

56
Génie MIS Ecole Mohammedia d’Ingénieurs

modèle et l’ensemble de test est utilisé pour évaluer les performances


finales du modèle.

6. Entraı̂nement du modèle: À l’aide de l’ensemble d’entraı̂nement, le


modèle est entraı̂né en ajustant ses paramètres pour minimiser l’erreur
ou maximiser la précision.

7. Évaluation du modèle: Une fois le modèle entraı̂né, il est évalué


à l’aide de l’ensemble de validation pour évaluer ses performances
sur des données non vues auparavant. Cela permet de régler les
hyperparamètres et d’optimiser le modèle en fonction de critères de
performance tels que la précision, le rappel, la F-mesure, l’aire sous la
courbe ROC, etc.
Pour évaluer la performance d’un modèle de régression plusieurs
indicateurs sont proposés dans la littérature, on peut citer:
L’erreur quadratique moyenne (MSE): Elle mesure la moyenne des
carrés des écarts entre les valeurs prédites par le modèle et les valeurs
réelles. Il représente la quantité moyenne d’erreur quadratique dans
les prédictions du modèle. Elle est calculée par la formule suivante :

1
(ypred − ytrue )2
P
n

Avec :
-n: nombre d’échantillon.
-ypred : les valeurs prédites par le modèle de régression.
-ytrue : les valeurs réelles.
La racine de l’erreur quadratique moyenne (RMSE): La RMSE
est simplement la racine carrée du MSE. Elle représente l’erreur
quadratique moyenne dans les prédictions du modèle, exprimée dans la
même unité que la variable cible. La RMSE est généralement préférée
au MSE car elle est plus facile à interpréter.Elle est exprimée par :


RM SE = M SE

L’erreur absolue moyenne (MAE): La MAE mesure la moyenne des


écarts absolus entre les valeurs prédites et les valeurs réelles. Elle
représente la quantité moyenne d’erreur absolue dans les prédictions
du modèle.Elle est exprimée mathématiquement par:

57
Génie MIS Ecole Mohammedia d’Ingénieurs

1
P
n
|ypred − ytrue |

Coefficient de détermination R²: Le coefficient de détermination,


également appelé R-squared, mesure la proportion de la variance
de la variable cible qui est expliquée par le modèle. Il indique la
qualité globale de l’ajustement du modèle aux données. Plus il
s’approche de 1, plus la qualité du modèle est meilleure. Il est exprimé
mathématiquement par:

)2
P
(y −y
R2 = 1 − P pred true 2
(ytrue −ymean )

Avec ymean représente la valeur moyenne de la variable cible y.

Parmi les métriques de performances utilisées pour l’évaluation des


modèles de classification, on cite:
Matrice de Confusion

Figure 4.8: Matrice de confusion

En apprentissage automatique supervisé, la matrice de confusion est


une matrice qui mesure la qualité d’un système de classification.
Comme le montre la figure 4.8, chaque ligne correspond à une classe
réelle et chaque colonne correspond à une classe estimée. En ef-
fet,la case des VN sont les Vrais Négatifs et représentent le nom-
bre d’observations qui sont réellement négatives et qui ont été cor-
rectement prédites comme négatives par le modèle, FP représentent
le nombre d’observations qui sont réellement négatives mais qui ont
été incorrectement prédites comme positives par le modèle, tandis que
FN représentent le nombre d’observations qui sont réellement posi-
tives mais qui ont été incorrectement prédites comme négatives par le
modèle, et finalement les VP représentent le nombre d’observations qui
sont réellement positives et qui ont été correctement prédites comme
positives par le modèle.

58
Génie MIS Ecole Mohammedia d’Ingénieurs

Accuracy: Accuracy ou le taux de succè, représente le nombre des


individus correctement identifiés par rapport au nombre total des indi-
vidus. En effet :

V P +V N
Accuracy= V P +V N +F P +F N

Taux d’erreur: Taux d’erreur ou le taux de mauvais classement dont


la formule est la suivante :

F P +F N
Taux d’erreur = V P +V N +F P +F N

Recall: Rappel ou la sensibilité (En anglais Recall) Elle représente


le pourcentage des valeurs bien prédites positives parmi les valeurs
réellement positives. Cette mesure pénalise les modèles avec beaucoup
des FN. Ellle s’exprime par:

Sensibilité= V PV+F
P
N

Precision: Elle représente le pourcentage des valeurs positives bien


prédites parmi celles prédites positives. Cette mesure pénalise les
modèles avec beaucoup de FP. Elle s’exprime par la formule suivante:

VP
Précision = V P +F P

8. Test et déploiement: Après avoir sélectionné le meilleur modèle à


partir de l’évaluation, nous devons le tester sur l’ensemble de test pour
évaluer ses performances finales. Si le modèle répond aux critères de
performance requis, il peut être déployé dans un environnement de
production pour effectuer des prédictions sur de nouvelles données.

Conclusion
Dans ce chapitre, nous avons brièvement ce que c’est le Machine Learning et
quelles sont ses branches ainsi que les différentes techniques que nous allons
adopté pour réaliser ce projet de fin d’étude.

59
Chapitre 5

Etude et mise en place d’un


système basé sur le Machine
Learning pour la gestion du
portefeuille obligataire

L’objectif de chapitre est de concevoir les modèles de l’apprentissage au-


tomatique introduits précédemment afin de gérer le portefeuille obligataire
et d’identifier les opportunités de trading des obligations.

5.1 Optimisation de la composition du porte-


feuille obligataire
Afin d’optimiser la composition du portefeuille obligataire en utilisant les
techniques de régression du machine learning, il nous faut d’abord une base
de données contenant les variables d’entrée et la variable cible(poids des
obligations). Pour ce faire, nous avons rassemblé 50 portefeuilles obligataires
de la banque populaire, ce portefeuille est dynamique, chaque jour le poids
des obligations change si son cours ou sa quantité change, ce qui nous
a amené à une base de données de 615 observations, chaque observation
représente une obligation, cette dernière est introduite avec sa quantité, son
nominal, son prix, sa maturité, son taux facial et son poids. Nous somme
enfin retouvé avec une base de donnée contenant les caractéristiques des
obligations ainsi que la valeur cible à prédire qui est le poids de l’obligation.

60
Génie MIS Ecole Mohammedia d’Ingénieurs

5.1.1 Pré-traitement des données et selection des vari-


ables
Dans cette étape, pour nettoyer notre base de données, on a éliminé les
valeurs manquantes et les colonnes dont on n’en a pas besoin. La figure 5.1
représente un premier aperçu de notre base de données importée depuis Excel
Vers Python, tandis que la figure 5.2 illustre la nouvelle base de donnée:

Figure 5.1: Base de données initiale

61
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 5.2: Nouvelle base de données

Dans cette partie, nous avons sélectionné les variables d’entrée et la variable à
prédire, on a également effectué la normalisation des données et la divison de
la BDD en base de donnée test et base de données d’entraı̂nement. En effet,
en Machine Learning, il ne faut jamais évaluer la performances d’un modèle
sur les mêmes données qui ont servi à son entraı̂nement. Car, si on entraı̂ne
un modèle avec des donnés d’entraı̂nement puis on évalue la performance de
modèle sur les mêmes données; l’algorithme va bien prédire la sortie puisqu’il
l’a déjà vu la sortie. En revanche, ce qui est plus intéressant c’est de tester
le modèle sur des données qu’il n’a jamais vu. Ainsi on aura une idée sur la
performance future. Pour cette raison, on divise notre échantillon en deux
parties: nous avons consacré 80% de notre échantillon pour l’entraı̂nement,
et les 20% restantes pour le test.

5.1.2 Mise en place des modèles de Machinr Learning


Maintenant que notre base de donnée est prête, on va l’entraı̂ner pour les
trois modèles de la régression.
Réseaux de neurones artificiels: Après avoir collecter et nettoyer les
données pour la prédiction du poids optimal des obligations, nous allons
maintenant construire notre modèle de réseaux de neurones artificiels. Pour

62
Génie MIS Ecole Mohammedia d’Ingénieurs

ce faire nous avons utiliser la librairie Keras de Python. Notre modèle de


RNA contient une couche d’entrée avec les 5 variables d’entrées qui sont la
quantité de l’obligation, la valeur du Nominal, la maturité, le taux facial et le
prix, cette couche contient 64 neurones avec une fonction d’activation ’relu’.
En effet, la fonction ReLU est souvent utilisée dans la couche d’entrée car
elle permet de gérer efficacement des valeurs d’entrée positives et d’ignorer
les valeurs négatives. Étant donné que la couche d’entrée reçoit généralement
des données brutes ou normalisées, la fonction ReLU peut aider à introduire
de la non-linéarité et à traiter efficacement les caractéristiques positives im-
portantes. Après la couche d’entrée, notre réseau de neurone contient deux
couches cachées: la première avec 32 neurones et la deuxième avec 16 neu-
rones, ces deux couches cachées sont utilisées avec la fonction d’activation
sigmoid. Le réseau de neurone se termine avec une couche de sortie contenant
la fonction d’activation sigmoid et un seul neurone qui représente la variable
à prédire qui est le poids pour notre cas. Nous avons choisi la sigmoid dans
les dernières couches car elle donne comme sortie une valeur compris entre 0
et 1 ce qui est parfaitement compatible avec notre prédiction. La figure 5.3
illustre la structure de notre modèle de réseaux de neurone.

Figure 5.3: Structure du RNA


Après avoir construit notre modèle de RNA, nous allons maintenant compiler

63
Génie MIS Ecole Mohammedia d’Ingénieurs

le modèle, pour ce faire nous devons déterminer le choix de la fonction coût


et le choix de l’optimiseur qui permet l’optimisation des poids des neurones
pour minimiser cette fonction perte. On a choisi comme fonction coût la
’MSE’ car elle pénalise davantage les grandes erreurs de prédiction. En
calculant la moyenne des carrés des différences entre les valeurs prédites et les
valeurs réelles, la MSE donne plus de poids aux erreurs importantes, ce qui
permet de mettre l’accent sur les prédictions moins précises et l’optimiseur
qu’on a opté pour effectuer la compilation est ’ADAM’ car il permet une
mise à jour plus adaptative et efficace des poids du réseau neuronal. De
plus, il intègre des mécanismes de moment pour accélérer la convergence et
l’optimisation du modèle. Ensuite, notre modèle est entraı̂né sur la base de
donnée entraı̂nement en donnant une valeur de 80 pour les epochs, c’est à
dire le nombre d’itération sur le tableau de données d’apprentissage,et une
valeur de 8 pour le ’batch-size’ c’est-à-dire le nombre d’échantillons qui se
propagent à travers la formation. Finalement, la performance du modèle est
évaluée à travers le calcul des métriques de perfomances introduites dans la
partie précédente. Ainsi, les résultats du modèle RNA sont résumés dans le
tableau de la figure 5.4:

Figure 5.4: Résultats du modèle RNA

Les résultats que nous avons obtenus pour le coefficient de détermination


(R²), l’erreur quadratique moyenne (MSE), le RMSE et le MAE semblent
indiquer que notre modèle est performant. En effet, La valeur de R² est
de 0.9071, ce qui indique que notre modèle explique environ 90.71% de
la variation des valeurs cibles, ce qui est considéré comme assez bon. La
valeur de MSE est de 0,000515349 ce qui est très proche de zéro. Cela
signifie que les prédictions de notre modèle sont en bonne adéquation avec
les valeurs réelles. Une valeur de MSE aussi faible suggère que le modèle
est capable de capturer les relations complexes entre les variables d’entrée
et la variable cible. La valeur de RMSE est de 0.0227013, ce qui indique
une bonne précision du modèle. La valeur de MAE est de 0,0051974 qui est
également faible, et cela indique également que les prédictions du modèles

64
Génie MIS Ecole Mohammedia d’Ingénieurs

sont proches de la valeur réelle. De plus , nous avons surveillé la convergence


du modèle en traçant la variation de la fonction perte en fonction de n’ombre
d’itérations .Le résultat est visualisé dans la figure 5.5:

Figure 5.5: Variation de la fonction côut en fonction de nombre d’itérations


On remarque que la fonction coût converge à partir des 10 premières
itérations ce qui explique que la performance de notre modèle est bonne.
Globalement, les métriques de performances et la visualisation de la conver-
gence suggèrent que le modèle des réseaux de neurones artificiels présente
une précision raisonnable dans la prédiction du poids des obligations.
Modèle de forêt aléatoire pour la régression: Nous allons constru-
ire un autre modèle en utilisant l’algorithme de forêt aléatoire pour la
régression, et on va interpréter ses résultats. Le principal hyperparamètre
à définir dans ce modèle est le nombre d’arbres de décision dans la forêt,
appelé ”nestimators ”. Cet hyperparamètre détermine combien d’arbres de
décision indépendants seront construits et utilisés pour la prédiction. Pour
notre cas, vu qu’on ne possède pas un grand nombre dans la base de
donnée nous avons choisi une valeur de 8 arbres de décision. Les résultats
de l’entraı̂nement de ce modèle sont visualisés dans le tableau de la figure 5.6:

65
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 5.6: Résultats du modèle RFR

Les résultats que nous avons obtenus pour le coefficient de détermination


(R²), l’erreur quadratique moyenne (MSE), le RMSE et le MAE semblent
indiquer que la performance de notre modèle est meilleure. En effet, La
valeur de R² est de 0.98,49, ce qui indique que notre modèle explique environ
98.49% de la variation des valeurs cibles. C’est une valeur très élevée, ce
qui suggère que le modèle est capable de prédire de manière très précise
les poids des obligations dans le portefeuille obligataire. La valeur de MSE
est de 7,81459e-05, ce qui est très proche de zéro. Cela signifie que les
prédictions de notre modèle sont en très bonne adéquation avec les valeurs
réelles. Une valeur de MSE aussi faible suggère que le modèle est capable
de capturer les relations complexes entre les variables d’entrée et la variable
cible. La valeur de RMSE est de 0.00884, ce qui est également très faible,
et une valeur faible indique une bonne précision du modèle. La valeur de
MAE est de 0,001935 ce qui est extrêmement faible, cela indique également
que les prédictions du modèles sont proches de la valeur réelle. De plus ,
nous avons surveillé la convergence du modèle en traçant la variation de la
fonction perte en fonction de nombre d”arbres de décision. Le résultat est
visualisé dans la figure 5.7 ci-dessous:

66
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 5.7: Variation de la fonction côut en fonction de nombre d’arbres de


décisions
On remarque que la fonction coût converge au fur et à mesure que le nombre
d’arbres de décision augmentent. Ce qui esplique une que notre modèle est
performant.
Modèle de Vecteur à Support pour la régression SVR: Pour entraı̂ner
le modèle SVR, il faut définir soigneusement ses hyperparamètres. Pour ce
faire, nous avons définit une grille de paramètres à tester lors de la recherche
des meilleurs hyperparamètres. Cette grille spécifie les différentes combi-
naisons d’hyperparamètres que le modèle va évaluer pour déterminer ceux
qui donnent les meilleures performances. Plus précisément, la grille est un
dictionnaire qui contient trois clés. La première clé c’est l’hyperparamètre de
régularisation ’C’, qui contrôle la pénalité appliquée aux erreurs du modèle.
Pour notre cas, la plage des variables que nous avons donné à cet hyper-
paramètre est [0.001, 0.01, 0.1, 1.0,10.0,100.0]. La deuxième clé représente
le noyau ’kernel’, cet hyperparamètre spécifie le type de noyau à utiliser
dans le modèle SVR. Dans notre cas, il y a deux options : ’linear’ pour
un noyau linéaire et ’rbf’ pour un noyau gaussien (RBF). Finalement la
dernière clé de la grille ’gamma’, elle représente l’hyperparamètre du noyau,
qui contrôle la flexibilité du modèle en ajustant l’influence de chaque exemple
d’entraı̂nement sur les prédictions.
Après avoir spécifier les une bande de valeur pour les hyperparamètres du

67
Génie MIS Ecole Mohammedia d’Ingénieurs

modèle, nous avons par la suite cherché le meilleur hyperparamètre en util-


isant une recherche sur la grille des valeurs introduites précédemment.
Les résultats des meilleurs paramètres sont illustrués dans la figure 5.8 ci-
dessous:

Figure 5.8: Les meilleures hypperparamètres pour le modèle SVR


Après avoir choisi les meilleures hyperparamètres pour le modèle SVR, nous
avons entraı̂né le modèle en utilisant ces valeurs et le résultat d’entraı̂nement
aboutit aux valeurs représentées dans le tableau suivant :

Figure 5.9: Résultats du modèle SVR


En résumé, les métriques de performance du modèle SVR indiquent qu’il
présente une performance raisonnable, mais ces résultats ne sont pas très
performantes. Il y a encore une certaine erreur dans les prédictions du
modèle, et le modèle n’explique qu’environ 76.24% de la variance globale
des données.
Pour séléctionner le meilleur modèle du Machine Learning, il est important
de comparer la performance des différents modèle entrainés. Le tableau de
la figure 5.10 résume les résultats des trois modèles de régression pour la
prédiction des poids des obligations dans le portefeuille obligataire.

68
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 5.10: Récapitulatif des résultats des modèles de régression

En conclusion, en se basant sur les métriques de performances, le modèle


du forêt aléatoire semble être le meilleur parmi les trois pour effectuer la
prédiction des poids des obligations. Il présente la plus faible erreur moyenne
(MSE, RMSE, MAE) et le plus haut coefficient de détermination (R²), ce qui
indique une meilleure précision et capacité d’explication des variations des
données par rapport aux autres modèles. De plus, le modèle Random Forest
(RFR) offre une capacité d’apprentissage non linéaire et une robustesse aux
valeurs aberrantes et au bruit ainsi qu’une capacité d’interprétation et de
robustesse aux problèmes de surajustement. Tous ces facteurs font du RFR
le meilleur choix pour effectuer la prédiction des poids des obligations dans
un portefeuille obligataire.

5.2 Prédiction des signaux d’achat ou de


vente d’une obligation
Afin de prédire les signaux d’achat et de vente des obligations par les modèles
de classification binaire, il nous faut également une base de donnée contenant
les variables d’entrée et une variable cible, comme pour le cas de la régression.
Nous avons simulé sous Excel une base de donnée contdenant quelques car-
actéristiques d’une obligation et son rendement historique sur une période
de 4 ans soit disant 1460 jours. On a considéré que si le rendement de cette
obligation au jour J+1 est supérieur à celui du jour J, on aura donc un signal
d’achat on l’a affecté par la valeur binaire ”1”, sinon on aura donc un signal
de vente affecté par la valeur de 0. Nous nous somme donc retouvés avec une
base de donnée contenant les caractéristiques des obligations(maturité,taux
facial, prix et rendement) ainsi que la valeur cible à prédire qui est le signal
d’achat ou de vente.

5.2.1 Pré-traitement des données et selection des vari-


ables
De même, dans cette étape, pour nettoyer notre base de données, on a éliminé
les valeurs manquantes et les colonnes dont on n’en a pas besoin. La figure
5.11 représente un premier aperçu de notre base de données importée depuis
Excel Vers Python, tandis que la figure 5.12 illustre la nouvelle base de
donnée:

69
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 5.11: Base de données initiale

Figure 5.12: La nouvelle base de données


Maintenant, nous allons visualiser la répartition des signaux d’achat et de
vente sous forme d’un diagramme circulaire, ce qui peut nous donner un
aperçu visuel de la distribution de ces deux classes dans nos données. La
figure 5.13 illustre cette répartition:

70
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 5.13: Répartition des signaux

Nous remarquons que notre base de données est équilibrée par rapport au
nombre total des observations. On a en effet 736 observations pour le signal
d’achat et 723 observations pour le signal de vente.
Ensuite, nous allons suivre la même démarche de la base de données des
modèles de régression. On va séléctionner les variables représentant la ma-
turité, le coupon ainsi que le rendement comme étant des variables d’entrée,
et la variable ’Signal’ comme étant la variable à prédire. Ensuite nous allons
divisier cette BDD en 80 % d’entraı̂nement et 20% pour le test.

5.2.2 Mise en place des modèles Machine Learning


Régression Logistique: Après avoir préparé notre base de données cette
phase sera consacrée à la création du modèle de la régression logistique. La
première métrique de performance qu’on va évaluer pour ce modèle c’est la
matrice de confusion. Une matrice de confusion est comme un résumé des
prédictions pour un problème de classification. Elle compare les données
réelles de la variable cible avec les données prédites par le modèle. La figure
5.14 ci-dessous nous montre la matrice de confusion que nous avons trouvée
pour le modèle de la régression logistique.

71
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 5.14: Matrice de confusion pour le modèle RL


Nous remarquons que 75 signaux d’obligations ont été correctement prédits
comme étant des signaux d’achat (True Positives) et 70 signaux d’obligations
réels d’achat ont été incorrectement prédits comme des signaux de vente
(False Negatives). Tandis que 75 signaux réels de vente ont été incorrecte-
ment prédits comme des signaux d’achat (False Positives), et finalement 72
signaux ont été correctement prédits comme étant des signaux de vente (True
Negatives). En utilisant ces chiffres, nous allons calculer d’autres métriques
de performance telles que la précision, le rappel (sensibilité), le taux de succès
(accuracy) et le taux d’erreur pour évaluer notre modèle. Le tableau de la
figure ci-dessous résume les résultats de ces différentes métriques pour le
modèle de la régression logistique:

Figure 5.15: Résultats du modèle Régression logistique


Pou ce modèle, le taux de succès est d’environ 50.34%, ce qui signifie que
le modèle prédit correctement un peu plus de la moitié des échantillons. Le

72
Génie MIS Ecole Mohammedia d’Ingénieurs

taux d’erreur est le complément du taux de succès, il est d’environ 49.7%, ce


qui indique que le modèle a une performance inférieure à 50% pour prédire
correctement les signaux d’achat ou de vente. Le rappel ou la sensibilité
mesure la capacité du modèle à identifier correctement les échantillons posi-
tifs (achats) parmi tous les échantillons réels positifs. Dans notre cas, le
rappel est d’environ 48.9%, ce qui suggère que le modèle peut manquer cer-
tains échantillons d’achat et les prédire comme des ventes. La précision
mesure la proportion d’échantillons réellement positifs (achats) parmi les
échantillons prédits comme positifs par le modèle. Dans votre cas, la précision
est d’environ 50.7%, ce qui indique que le modèle a une performance sim-
ilaire à un tirage aléatoire pour prédire correctement les signaux d’achat.
En résumé, les performances de notre modèle semblent être relativement
moyenne, avec des taux de succès, de rappel et de précision dépassant rela-
tivement 50%. Cela suggère que le modèle de régression logistique pourrait
ne pas être suffisamment performant pour prédire avec précision les signaux
d’achat ou de vente d’obligations.
Arbre de décision: Nous allons construire un autre modèle en utilisant
l’algorithme de l’arbre de décision, et nous allons interpréter ses résultats.
Les deux figures 5.16 et 5.17 représentent respecteusement la matrice de con-
fusion et le résultat des métriques de performance:

Figure 5.16: Matrice de confusion pour le modèle d’arbre de décision

73
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 5.17: Résultats du modèle Arbre de décision

En analysant la matrice de confusion, on trouve que Le modèle a prédit 113


signaux correctement comme étant des signaux d’achat (True Positives),
et il a prédit à tort 101 échantillons réels d’achat comme des signaux de
vente (False Negatives) et il a prédit également à tort 102 échantillons réels
de vente comme des signaux d’achat (False Positives).tandis qu’il a prédit
correctement 122 échantillons comme étant des signaux de vente (True
Negatives). Ainsi, on touve que le taux de succès est d’environ 53.7%, ce
qui indique que le modèle prédit correctement un peu plus de la moitié
des échantillons. Le taux d’erreur est d’environ 46.3%, ce qui indique que
le modèle a une performance légèrement supérieure à un tirage aléatoire
pour prédire correctement les signaux d’achat ou de vente. La sensibilité
est d’environ 54.5%, ce qui suggère que le modèle a une certaine capacité
à détecter les signaux d’achat. La précision est d’environ 54.7%, ce qui
indique que le modèle a une performance similaire à un tirage aléatoire
pour prédire correctement les signaux d’achat. Globalement les résultats du
modèle d’arbre de décision semblent être légèrement performantes mais elle
ne sont pas très améliorées.
Forêt aléatoire: Nous allons encore réaliser une modélisation en utilisant
l’algorithme de la Forêt aléatoire. Les deux figures 5.18 et 5.19 ci-dessous
représentent respecteusement la matrice de confusion et le résultat des
métriques de performance:

74
Génie MIS Ecole Mohammedia d’Ingénieurs

Figure 5.18: Matrice de confusion pour le modèle de forêt aléatoire

Figure 5.19: Résultats du modèle Forêt Aléatoire

La matrice de confusion pour ce modèle nous informe que le modèle a prédit


81 signaux correctement comme étant des signaux d’achat (True Positives),
et il a prédit à tort 64 échantillons réels d’achat comme des signaux de vente
(False Negatives) et 62 échantillons réels de vente comme des signaux d’achat
(False Positives), cependant, il a prédit correctement 85 échantillons comme
étant des signaux de vente (True Negatives). De ce fait, le taux de succès est
d’environ 60%, ce qui signifie que le modèle prédit correctement plus de la
moitié des échantillons. Le taux d’erreur est d’environ 40%, ce qui indique
que le modèle a une performance légèrement supérieure à un tirage aléatoire
pour prédire correctement les signaux d’achat ou de vente. Et finalement, la
précision est d’environ 61%, ce qui suggère que le modèle a une performance
légèrement bonne pour prédire les signaux d’achat.

75
Génie MIS Ecole Mohammedia d’Ingénieurs

Finalement, nous allons choisir le modèle le plus performant. La figure 5.20


ci-dessous représente un tableau qui résume les résultats obtenus des trois
modèles.

Figure 5.20: Récapitulatif des résultats relatifs aux modèles de régression

En considérant les performances des trois modèles, le modèle du forêt


aléatoire semble offrir les meilleures performances globales avec des valeurs
légèrement supérieures en termes de taux de succès, de rappel et de précision.
Bien que les performances des modèles ne soient pas parfaites, elles demeurent
satisfaisantes. Les modèles ont réussi à prédire correctement la direction de
plus de 50% des signaux d’achat et de vente, ce qui implique qu’une stratégie
de trading basée sur ces prédictions pourrait être rentable à long terme.

Conclusion
Dans ce chapitre, nous avons démontré les avantages des modèles de
régression et de classification en apprentissage automatique. Ces modèles
peuvent être bénéfiques dans la mesure où ils permettent de prédire la com-
position optimale d’un portefeuille obligataire et d’identifier les opportunités
de trading pour chaque obligation.

76
Conclusion

Dans ce mémoire, l’une des principales responsabilités dans le marché obli-


gataire était la gestion efficace du portefeuille obligataire. Ainsi, la Banque
Centrale Populaire a exprimé son souhait de mettre en place un système
de gestion obligataire basé sur l’apprentissage automatique (Machine Learn-
ing). L’objectif de ce mémoire était d’optimiser la composition du portefeuille
obligataire et d’identifier les opportunités de trading en utilisant des algo-
rithmes de Machine Learning. Pour atteindre cet objectif, nous avons suivi les
différentes étapes nécessaires à la réalisation d’un projet de Machine Learn-
ing. Premièrement, nous avons commencé par le pré-traitement des données
et l’élimination des variables discriminantes. Ensuite, nous avons entrainé
les trois modèles de régression pour la prédiction de la composition optimale
du portefeuille obligataire à savoir les Réseaux de neurones artificiels, les
fortêts aléatoires pour la régression et le vecteur à support de régression,
ainsi que les trois modèles de classification choisis pour l’identification des
signaux d’achats et de vente des obligations à savoir la Regression logistic,
Decision Tree et Random Forest sur la partie d’entrainement de la BDD.
Puis nous avons évalué ces modèles sur la partie test de la BDD en calculant
l’erreur quadratique moyenne, la racine de l’erreur quadratique moyenne,
l’erreur absolue moyenne et le coefficient de détermination pour les modèles
de régression et le taux de succès, le taux d’erreur, la sensibilité et la précision
pour les modèles de classification. Finalement, cette partie d’évaluation des
modèles de Machine Learning a montré la haute performance du modèle de
forêt aléatoire (RFC) dans l’identification des signaux d’achat et de vente
des obligations avec un taux de succès qui dépassent 55%. Ce même modèle
de forêt aléatoire a permi la bonne prédiction du poids optimaux des obliga-
tions dans les modèles de régression avec un coefficient de détermination R²
dépassant 98%.
Finalement, ce stage a été aussi une opportunité non seulement pour appren-
dre des nouvelles technologies, mais aussi pour découvrir l’environnement
du travail au sein d’une grande entreprise et traiter une thématique très
intéressante en relation avec l’analyse des données et la finance des marchés.

77
Bibliographie

[1] https://www.bkam.ma/
[2] https://www.ibm.com/cloud/learn/machine-learning
[3] https://www.jedha.co/formation-ia/arbre-de-decision-random-forest
[4] https://scikit-learn.org/stable/index.html
[5] https://www.soa.org/globalassets/assets/library/newsletters/risk-man-
agement-newsletter/2019/september/rm-2019-iss-45-fr-leiser-kerbeshian.pdf
[6] https://www.ammc.ma/
[7] https://www.math.univ-toulouse.fr/ pontier/statproc.pdf

78

Vous aimerez peut-être aussi