Rapport El Kharmoudi Abir

Génie MIS Ecole Mohammedia d’Ingénieurs
Génie Modélisation et Informatique Scientifique
Mémoire de Projet de Fin d’Etudes
Modélisation et développement du
portefeuille obligataire et application des
outils de Machine Learning
Réalisé par :
EL Kharmoudi Abir
Soutenu le : 06 Juin 2023
Devant le jury composé de :
M. Chiadmi Salah EMI Président

M. Lamrani Youssef EMI Encadrant
Mme. Dahani Khawla EMI Rapporteur
M. El Horma Akram BCP Parrain
Année Universitaire 2022-2023
1
Dédicace
À mes chers parents, Mourad et Soumia,

Aucune dédicace ne saurait exprimer pleinement l’amour, l’estime, le
dévouement et le respect que j’ai toujours eu pour vous.
Vos efforts inlassables pour mon éducation et mon bien-être sont
inestimables.
Ce travail est le fruit des sacrifices que vous avez consentis pour ma
formation, et aucune dédicace ne pourrait suffire à exprimer tout ce que
vous méritez pour l’amour constant que vous m’avez prodigué depuis ma
naissance, à travers mon enfance et même à l’âge adulte.
À ma sœur Salma et à mon frère Mohamed,
Je vous remercie pour votre écoute, votre disponibilité et tout le soutien que
vous m’avez apporté. Veuillez trouver dans ce travail l’expression de ma
reconnaissance.
À tous les membres de ma famille,
Que vous trouviez dans ce modeste travail l’expression de mon affection.
À mes chères amies Zohra, Chaimae, Nadia, Wafaa, Nihad, et Salma,
Vous avez été présentes à chaque étape de ma vie, apportant de la joie, des
conseils et des moments de complicité inoubliables.
Votre amitié sincère et votre soutien inconditionnel ont été une bénédiction.
Cette dédicace est un hommage à notre amitié précieuse et à toutes les
aventures que nous avons partagées.
Avec tout mon amour et ma gratitude,
Abir El kharmoudi
2
Remerciements
Avant de commencer l’exposition de notre travail, nous aimerions bien re-

mercier toutes les personnes qui ont participé à ce travail du près ou du loin.
Mes remerciements s’adressent à mon encadrant au sein de la BCP M. El
Horma Akram. Je ne trouverai plus les mots pour vous remercier d’avoir
me donner l’opportunité d’acquérir énormément de choses, d’être toujours
attentive à ce que j’apprenais le maximum d’informations dans cette courte
période de stage, et de m’accorder toujours de votre temps même en plein de
votre travail.
Mes remerciements s’adressent aussi à mon encadrant au sein de l’EMI, à
Monsieur Lamrani Youssef qui m’ a suivi pas à pas et m’a soutenu durant
toute la période de stage.
Je remercie aussi Madame Dahani Khawla d’accepter d’être le rapporteur
de mon travail et Monsieur Chiadmi Salah d’accepter de présider ma soute-
nance.
Mon travail s’est passé dans les meilleures conditions au sein de la salle des
marchés de la BCP grâce à toutes les personnes qui étaient très sympa et qui
n’hésitaient pas à me présenter leur soutien et leur aide au sein de l’entreprise.
3
Résumé
La gestion obligataire joue un rôle crucial dans les stratégies d’investissement,

permettant d’optimiser les rendements, de gérer les risques et de maintenir
l’équilibre d’un portefeuille en tirant parti des opportunités offertes par les
marchés obligataires. Dans le cadre de mon PFE au sein de la salle des
marchés de la Banque Centrale Populaire, j’ai mis en place des techniques
de Machine Learning pour la gestion obligataire. J’ai développé deux types
de modèles de machine learning : la régression pour prédire la composition
optimale du portefeuille et la classification supervisé pour identifier les op-
portunités de trading des obligations. Les algorithmes utilisés comprennent
les réseaux de neurones artificiels, les forêts aléatoires, la régression logis-
tique et les arbres de décision. Les résultats obtenus démontrent l’efficacité
de ces méthodes pour optimiser l’allocation des actifs et prendre des décisions
éclairées en matière de trading obligataire.
Mots clés : Marché obligataire -Salles des marchés- Algorithme - Machine

Learning - Classification - Portefeuille obligataire-Prédiction-Trading.
4
Abstract
Bond portfolio management is of utmost importance in investment strate-

gies, offering the opportunity to optimize returns, manage risks, and main-
tain portfolio balance by leveraging opportunities presented in bond markets.
During my final year project at Banque Centrale Populaire’s trading floor, I
implemented Machine Learning techniques in bond management. Two types
of machine learning models were developed: regression for predicting the op-
timal portfolio composition and classification for identifying bond trading op-
portunities. The algorithms utilized encompassed artificial neural networks,
random forests, logistic regressions, decision trees, and random forests. The
results demonstrated the effectiveness of these methods in optimizing asset
allocation and making informed decisions in bond trading.
Keywords : Algorithm - Machine Learning - Classification - Regression-Bond

Portfolio-Prediction.
5
jÊÓ
éJ KA¾Ó@ iJK IJ HAJ
k ,PAÒJB@ j.K@Q@ ú¯ AÖÞ Ag @PðX H@Y JË@ èP@X@ I.ªÊK
ÈCg áÓ é¢®jÖÏ @ à P@ñK úÎ« A®mÌ '@ð Q£AjÖÏ @ èP@X@ ð áºÜØ YKA« úæ¯ @ J ®m '
é¯Q« ú¯ úk. Qm' ¨ðQåÓ PA£@ áÖÞ . H@Y JË@ @ ñ @ ú¯ ékA JÖÏ @ Q®Ë@ ÈCªJ@
JË@ èP@X@ ú¯ úÍ B@ ÕÎªJË @ HAJ
. H@Y ¯ ,úæªË@
J® K J J.¢K . IÔ ø Q»QÖÏ @ ½JJ.ËAK. Èð@YJË@
.
é¢®jÒÊË ÉJÓ B@ áK ñºJË@ ©¯ñ JË P@Ym' B@ :úÍ B@ ÕÎªJÊË ág XñÖß QK ñ¢JK IÔ
. . ¯
jJÖÏ @ HAJ
éÓY ÓPP@ñmÌ '@ ÉÒ . H@Y
JË@ ú¯ Èð@YJË@ Q¯ YK YjJË JJË@ð
PAm. @ð úæk
. ñÊË@ P@Ym' B@ð éJ K@ñªË@ HAK . AªË@ð éJ «AJ¢B@ éJ .ªË@ HA¾J
. Ë@
©K PñK ám' ú¯ Q¢Ë@ £ @ . éJ K@ñªË@
è Yë éJ Ê«A¯ l. ' AJJË@ HQê HAK
. AªË@ð P@Q®Ë@
JË@ ú¯ Èð@YJË@ ÈAm.× ú¯ èQJÓ
. H@Y H@ P @Q¯ XAm' @ð Èñ B@

- úÍ @ ÕÎªK Ëð@YJË@ HA«A
¯ êJÓPP@ñk - H@Y JË@ ê¢®m× ½JK. : éJ kAJ®Ó HAÒÊ¿
. ñJ.K - HA KAJK. - J
6
Tables des matières
Dédicace 2
Remerciements 3
Résumé 4
Abstract 5
Résumé en arabe 6
Introduction 11
1 Cadre général de l’étude 13

1.1 Présentation de la salle des marchés de la BCP . . . . . . . . 13
1.2 Contexte général du projet . . . . . . . . . . . . . . . . . . . . 15
2 Modélisation de la courbe des taux 19

2.1 Calcul du taux d’intérêt . . . . . . . . . . . . . . . . . . . . . 19
2.2 La courbe de taux BAM . . . . . . . . . . . . . . . . . . . . . 20
2.3 Modélisation des taux d’intérêts . . . . . . . . . . . . . . . . . 24
2.3.1 Modèle à un seul facteur: Modèle de Vasiçek . . . . . . 24
2.3.2 Modèle à multiple facteurs: La fonctionnelle de Nelson
Siegel Svenson . . . . . . . . . . . . . . . . . . . . . . . 32
3 Valorisation des emprunts obligataires 37

3.1 Valorisation des emprunts obligataires à taux fixe . . . . . . . 37
3.2 Caractéristiques du Portefeuille obligataire . . . . . . . . . . . 45
4 Outils et techniques du machine learning utilisés 48

4.1 Apprentissage supervisé . . . . . . . . . . . . . . . . . . . . . 48
4.2 Apprentissage non supervisé . . . . . . . . . . . . . . . . . . . 49
4.3 Modèles d’apprentissage utilisées . . . . . . . . . . . . . . . . 50
7
4.4 Conception d’un modèle Machine Learning . . . . . . . . . . . 56
5 Etude et mise en place d’un système basé sur le Machine

Learning pour la gestion du portefeuille obligataire 60
5.1 Optimisation de la composition du portefeuille obligataire . . 60
5.1.1 Pré-traitement des données et selection des variables . 61
5.1.2 Mise en place des modèles de Machinr Learning . . . . 62
5.2 Prédiction des signaux d’achat ou de vente d’une obligation . 69
5.2.1 Pré-traitement des données et selection des variables . 69
5.2.2 Mise en place des modèles Machine Learning . . . . . . 71
Conclusion 77
Bibliographie 78
8
Liste des figures
1.1 Marché obligataire marocain . . . . . . . . . . . . . . . . . . . 16
2.1 La courbe des taux correspondante au 17/03/2022 . . . . . . 21

2.2 Les taux actuariels du 18/03/2019 par maturité annuelle . . . 22
2.3 Les taux zéro coupon par maturités pleines correspondantes
au 18/03/2019 . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 TMPjj du marché monétaire interbancaire marocain entre 2008
et 2019 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 Statistique descriptive du TMPjj . . . . . . . . . . . . . . . . 28
2.6 Test ADF pour l’étude de stationnarité . . . . . . . . . . . . . 29
2.7 Les estimateurs du modèle de Vasiçek . . . . . . . . . . . . . . 30
2.8 L’erreur de prévison du modèle de Vasiçek . . . . . . . . . . . 31
2.9 Evolution des charges des paramètres du modèle NS . . . . . . 33
2.10 Paramètres estimés du modèle de NS pour la date 16/03/2023 34
2.11 Calibrage de la courbe des taux ZC avec le modèle NS pour le
16/03/2023 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1 Ligne obligataire simple avec M et Mr ≤ 1 an . . . . . . . . . 38

3.2 Ligne obligataire simple avec M et Mr supérieur à 1 an : Date
valorisation est avant la date du 1er coupon . . . . . . . . . . 39
3.3 Ligne obligataire simple avec M et Mr supérieur à 1 an le cas
d’une date valorisation après la date du 1er coupon . . . . . . 39
3.4 Interface du Pricer dans le cas cas 2 : Date valorisation est
après la date du 1er coupon . . . . . . . . . . . . . . . . . . . 40
3.5 Interface du Pricer dans le cas cas 2 : Date valorisation est
avant la date du 1er coupon . . . . . . . . . . . . . . . . . . . 41
3.6 Ligne obligataire atypique avec M et Mr supérieur à 1 an :
Date valorisation est avant la date du 1er coupon . . . . . . . 42
3.7 Ligne obligataire atypique avec M et Mr supérieur à 1 an dont
la date de valorisation est après la date du 1er coupon . . . . . 43
9
3.8 Ligne obligataire simple avec M supérieur à 1 an et Mr inférieure

à 1 an . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.9 Ligne obligataire atypique avec M supérieur à 1 an et Mr
inférieure à 1 an . . . . . . . . . . . . . . . . . . . . . . . . . 44
4.1 Structure d’un réseaux de neurone artificiel . . . . . . . . . . 51

4.2 Fonctionnement d’un réseaux de neurone artificiel . . . . . . . 51
4.3 Fonctions d’activation . . . . . . . . . . . . . . . . . . . . . . 52
4.4 Schéma Explicatif de l’algorithme RFR . . . . . . . . . . . . 53
4.5 Schéma Explicatif de l’algorithme SVR . . . . . . . . . . . . . 54
4.6 Exemple d’un arbre de décision . . . . . . . . . . . . . . . . . 55
4.7 Principe de fonctionnement du modèle de forêt aléatoire pour
la classification . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.8 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . 58
5.1 Base de données initiale . . . . . . . . . . . . . . . . . . . . . 61

5.2 Nouvelle base de données . . . . . . . . . . . . . . . . . . . . . 62
5.3 Structure du RNA . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4 Résultats du modèle RNA . . . . . . . . . . . . . . . . . . . . 64
5.5 Variation de la fonction côut en fonction de nombre d’itérations 65
5.6 Résultats du modèle RFR . . . . . . . . . . . . . . . . . . . . 66
5.7 Variation de la fonction côut en fonction de nombre d’arbres
de décisions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
5.8 Les meilleures hypperparamètres pour le modèle SVR . . . . . 68
5.9 Résultats du modèle SVR . . . . . . . . . . . . . . . . . . . . 68
5.10 Récapitulatif des résultats des modèles de régression . . . . . . 68
5.11 Base de données initiale . . . . . . . . . . . . . . . . . . . . . 70
5.12 La nouvelle base de données . . . . . . . . . . . . . . . . . . . 70
5.13 Répartition des signaux . . . . . . . . . . . . . . . . . . . . . . 71
5.14 Matrice de confusion pour le modèle RL . . . . . . . . . . . . 72
5.15 Résultats du modèle Régression logistique . . . . . . . . . . . 72
5.16 Matrice de confusion pour le modèle d’arbre de décision . . . 73
5.17 Résultats du modèle Arbre de décision . . . . . . . . . . . . . 74
5.18 Matrice de confusion pour le modèle de forêt aléatoire . . . . 75
5.19 Résultats du modèle Forêt Aléatoire . . . . . . . . . . . . . . . 75
5.20 Récapitulatif des résultats relatifs aux modèles de régression . 76
10
Introduction
Le développement du portefeuille obligataire constitue un enjeu majeur dans

le domaine de la gestion financière. Les approches traditionnelles de gestion
de portefeuille peuvent toutefois présenter des limites dans leur capacité à
traiter efficacement les données complexes et à prendre des décisions rapides
et précises. Face à cette problématique, l’utilisation des techniques de ma-
chine learning offre de nouvelles perspectives pour améliorer la performance
de la gestion des portefeuilles obligataires. La présente étude se concentre
sur la modélisation et le développement du portefeuille obligataire en ex-
ploitant les techniques avancées de machine learning. L’objectif principal
est de développer des modèles prédictifs sophistiqués et adaptatifs capables
d’apprendre à partir des données historiques, afin de prendre des décisions
éclairées concernant l’allocation des actifs et les opportunités de trading.
Le premier chapitre, intitulé ”Cadre général d’étude”, offre une introduction
générale à la salle des marchés de la BCP (Banque Centrale Populaire) et
présente les généralités du marché obligataire. Cette section met également
en évidence la problématique centrale traitée dans ce projet de fin d’études,
ainsi que les objectifs spécifiques visés.
Le deuxième chapitre, ”Modélisation de la courbe des taux”, se concentre sur
la construction de la courbe des taux en utilisant différentes méthodes telles
que l’interpolation linéaire et le Bootstrapping pour la courbe des taux ZC
(Zero Coupon). De plus, les modèles mathématiques de Vasiçek et Nelson-
Siegel sont appliqués pour modéliser la courbe des taux, en analysant les
avantages et les limites de chaque approche.
Le troisième chapitre, ”Valorisation des emprunts obligataires”, met l’accent
sur développement d’un pricer sous Python pour la valorisation des emprunts
obligataires après avoir expliquer comment calculer mathématiquement chaque
type d’obligation.
Ensuite, le quatrième chapitre, ”Présentation des techniques de Machine
Learning utilisées”, aborde les notions générales du machine learning, ainsi
que les différentes méthodes et modèles de machine learning qui seront utilisés
dans le cadre de ce projet.
11
Enfin,le dernier chapitre,”Ètude et mise en place d’un système basé sur le

Machine Learning pour la gestion du portefeuille obligataire”, présente une
étude approfondie sur l’utilisation des modèles de régression pour prédire le
poids optimal des obligations dans un portefeuille obligataire. De plus, les
modèles de classification sont utilisés pour prédire les signaux d’achat et de
vente des obligations. Cette section met en évidence les résultats obtenus et
les perspectives offertes par l’utilisation du machine learning dans la gestion
du portefeuille obligataire.
En conclusion, ce projet de fin d’études vise à exploiter les techniques du
machine learning pour améliorer la modélisation et la gestion du porte-
feuille obligataire. En utilisant les données historiques, les modèles prédictifs
développés permettront de prendre des décisions plus éclairées et d’optimiser
la performance globale du portefeuille obligataire.
12
Chapitre 1
Cadre général de l’étude
Dans ce chapitre, nous allons parler brièvement sur le Groupe BCP, et ensuite
nous allons présenter la salle des marché de ce Groupe en introduisant ses
pôles ainsi que ses différentes activités. Nous allons aborder par la suite
la partie dédiée au contexte général du projet et ceci en introduisant d’une
manière générale le marché obligataire marocain et en cadrant notre projet
de fin d’étude par une problématique et des ojectifs précis.
1.1 Présentation de la salle des marchés de la

BCP
Le modèle organisationnel et commercial du Groupe a été introduit au Maroc
par le Dahir du 25 mai 1926 et il a été fondé dès son origine sur des con-
cepts de mutualité et de coopération.Ainsi, dès la fin des années 20 du siècle
dernier, les premières Banques Populaires de type coopératif et à vocation
régionale, furent créées dans les principales villes du Royaume.
Au lendemain de l’indépendance, les pouvoirs publics ont procédé, dans le
cadre de la mise en place des premiers jalons du système bancaire et fi-
nancier marocain,à la refonte du Crédit Populaire du Maroc (CPM), à travers
le Dahir du 28 février 1961, en le dédiant au développement de l’artisanat
et de la PME/ PMI. Cette réforme a également renforcé le modèle organ-
isationnel du CPM, basé désormais sur l’existence de Banques Populaires
Régionales, d’une entité centrale : la Banque Centrale Populaire, et d’une
instance fédératrice : le Comité Directeur du CPM.
En 1974, le groupe a été nommé leader du secteur bancaire national en
matière de dépôts, avec 1 milliard de Dhs de ressources.
En 1976, il a connu l’inauguration de la succursale de la BCDM à Bruxelles
13
et aussi la création de Maroc Assistance Internationale, filiale stratégique

de la Banque Centrale Populaire, qui se positionne comme leader en terme
d’assistance au Maroc.
En 1980, la BCP compte 500 000 clients et ses ressources atteignent les 5 MM
de Dhs. La fin des années 80 a aussi connu la création de filiales bancaires en
Centrafrique et en Guinée et de Représentations en Côte d’Ivoire, au Canada
et en Allemagne.
En 1990, Le Groupe monte en puissance, développe ses activités et met en
place de nouveaux produits et services à des conditions tarifaires fructueuses,
pour devenir leader sur les marchés des particuliers, des PME et des MDM
ainsi que dans les activités de marché.
En 2004, La banque centrale populaire a été cotée en Bourse.
La salle des marchés est organisée en trois pôles distincts à savoir :
-Le Front office qui est chargé de la négociation avec les clients.
-Le Middle office qui est chargé de contrôler les risques et d’analyser les
résultats.
-Le Back office chargé des saisies, des contrôles comptables et du contrôle
interne.
Le Front Office est l’entité de la banque des marchés de capitaux chargée de
l’ensemble des actions et opérations liées à la vente se traitant avec les clients
internes et externes sur les différents compartiments, (Change, Monétaire,
Obligataire, Matières premières, et Action).
C’est le compartiment qui révèle un grand progrès technique en matière de
communications, de gestion de flux d’informations ou encore les différents
systèmes informatiques. Ici travaillent les Traders marchés, qui sont en con-
tact avec les marchés financiers pour réaliser les opérations avec les clients,
leur rôle est de les réaliser au meilleur prix en garantissant une prise de risque
minime. On trouve aussi dans le Front Office des Trader Corporate (Sales ou
Dealers), qui sont chargés de développer la vente de produits et les stratégies
auprès de la clientèle de la banque, les analystes économiques dont le rôle est
d’établir des prévisions, les ingénieurs financiers qui sont chargés de mettre
en place de nouveaux produits commerciaux et de développer les outils de
cotation ou de simulation, et enfin, les informaticiens dédiés qui sont chargés
de veiller au bon fonctionnement des logiciels spécifiques ainsi que de leur
bonne interconnections avec les systèmes d’information de la banque. Ils as-
surent également une veille technologique.
Au sein de la Banque des marchés de capitaux de la BCP, Le Front Office
comprend quatre fonctions différentes, inter-agissant entre elles et traitant
sur quatre marchés différents. La structure de la salle est sous forme de 4
demi-cercles, autrement dite, des ≪ Desk ≫, et chaque demi-cercle contient
une fonction qui intervient sur un des marchés. Les marchés concernés par
14
ces interventions sont le marché monétaire, le marché obligataire, le marché

de change et le marché des matières premières.
Au sein de la salle des marchés de la des marchés de la BCP, on touve essen-
tiellement trois activités:
L’activité monétaire: C’est le desk chargé de la gestion du portefeuille de
l’entreprise. Ici on trouve deux fonctions principales, la gestion des positions
en devises et la gestion de la trésorerie en Dirham marocain
L’activité obligataire: Dans cette activité on a la gestion du portefeuille
de la banque en investissant dans les taux et dérivés des taux qui sont no-
tamment les actions, les obligations et les OPCVM. Les obligations les plus
fréquentes sur le marché sont celles qui sont indexées sur l’inflation. Les
obligations varient selon les cours des taux et l’évolution du taux d’intérêt
dépend de plusieurs facteurs économiques comme la croissance etc.donc pour
anticiper l’évolution du taux d’intérêt les Traders effectue une modélisation
à partir de l’analyse théorique, l’analyse technique et la connaissance du
marché. Les OPCVM sont des titres où l’on trouve de l’action et de l’obligation.
C’est un grand portefeuille détenu par plusieurs personnes en forme de part.
Ils existent plusieurs types d’OPCVM : les OPCVM long terme, court terme,
moyen-long terme, actions et diversifiés. L’activité obligataire a aussi comme
mission la transmission des investisseurs du marché au trésor en prenant leurs
soumissions car la banque centrale populaire a un statut d’intermédiaire en
valeur de trésor (IVT), la participation aux émission privées pour savoir com-
ment le marché apprécie le risque de l’entreprise, la gestion du portefeuille
des entreprises et l’achat des titres libellés en devises.
L’activité de change: Elle consiste à acheter et vendre des devises pour
le comptes des clients. Les clients sont généralement les PME, Les ME et
les GE. Bank AL Maghreb établie un cours qui subit trois fixing par jour
et sur lequel les banques vont se baser pour effectuer leurs opérations. La
banque peut détenir 70% des devises mais elle doit impérativement céder les
30restantes au marché.
1.2 Contexte général du projet

Le marché obligataire ou marché de la dette est un marché financier qui
répond aux besoins de financement du pays, permet aux entreprises de trou-
ver des ressources de financement supplémentaires, et permet aux particuliers
de rentabiliser leur investissement.Dans le marché obligataire, l’acheteur de
l’obligation remboursera les intérêts et le nominal au receveur de l’obligation
à la date d’échéance. Les intérêts, appelés coupons sont versés périodiquement
selon les conditions du contrat.
15
Il existe deux types de titres obligataires émise dans le marché obligataire

marocain, à savoir: les Titres de Créances Négociables (TCN) et les obliga-
tions. Nous allons se contenter par la suite sur les obligations et ses différentes
caractéristiques. La figure 1.1 présente la structure du marché obligataire
marocain.
Figure 1.1: Marché obligataire marocain
Ainsi,une obligation à taux fixe génère chaque année un revenu d’intérêt con-
stant, à fréquence prédéterminée. Le détenteur de l’obligation reçoit le même
montant chaque année ou chaque mois, selon le calendrier de versement des
intérêts. En effet, le taux d’intérêt est fixé à ce moment là et ne changera
pas au cours du temps. Les caractéristiques d’une obligation à taux fixe sont
les suivantes:
- Date d’émission: Il s’agit de la date effective de la souscription et de la
libération du titre. C’est aussi la date à partir de laquelle les intérêts com-
mencent à courir.
- Date de jouissance: C’est la date d’anniversaire des coupons. Autrement
dit, c’est la date de versement des intérêts et/ou du principal.
- Date d’échéance: Date de fin de vie de l’obligation.
- Date de valorisation: C’est la date où l’on cherche à valoriser l’obligation.
- Taux nominal ou Taux Facial: C’est le taux appliqué au nominal pour le
calcul des intérêts ou coupons.
- Maturité: C’est la durée de vie de l’obligation. Il s’agit de la durée séparant
la date d’émission de la date d’échéance.
- Valeur Nominale: C’est également la valeur du principal à rembourser à
16
l’échéance.
- Modalités d’amortissement: Généralement, l’amortissement est in fine,
c’est-à-dire que le principal est remboursé à l’échéance du prêt. Mais il ex-
iste d’autres modalités de remboursement à savoir: le remboursement par
annuités constantes dont le remboursement du capital et les coupons sont
identiques pour chaque année et le remboursement par séries égales; dans
ce type de remboursement l’obligataire percevra une fraction identique du
principal chaque période, par conséquent, les intérêts versés dimunueront.
- Périodicité de paiement des coupons: Généralement, les coupons sont
payés annuellement.
- Spread ou la prime de risque: C’est l’écart entre le taux de rendement
actuariel d’une obligation privée et celui du bon de trésor de même durée.
Plus l’investissement est risqué, plus la prime de risque est élevée.
- Ligne simple et ligne atypique: Lorsque la date de jouissance est différente
de la date d’émission du titre, l’emprunt est dit atypique.
Tandis qu’un emprunt obligataire à taux variable est un ensemble de titres
de dette dont l’échéancier de flux est indexé sur un taux observable (Taux de
référence). Ainsi, l’obligation à taux variable aura les mêmes caractéristiques
que celles d’un emprunt obligataire à taux fixe mais avec les éléments suiv-
ants:
- Indice de référence: C’est l’indice qui représente une base de calcul du
taux du coupon à une échéance déterminée selon les règles précisées dans le
contrat d’émission
- Période de référence: C’est la durée au cours de laquelle est calculé le
taux de référence.
- Marge faciale: C’est le pourcentage rajouté ou retranché au taux de
référence pour déterminer le taux du coupon.
Dans le reste du chapitre nous adopterons les notations suivantes:
- tf : Taux facial.
- N: Valeur nominale.
- Dem : Date d’émission de l’obligation.
- Dech : Date d’échéance de l’obligation.
- Djoui : Date de jouissance de l’obligation.
- Dval : Date de valorisation de l’obligation.
- M: maturité en jours.
- Mr : maturité résiduelle en jours
- R: Taux de rendement ou taux d’actualisation.
- S: Spread d’émission ou prime de risque.
17
- r= R+S: Taux sur la courbe secondaire Bond de trésor majoré du spread.

- Cpu : Coupon plein unitaire.
- Ccu : Coupon couru unitaire.
- Dcoup(i) : Date de versement du Ième coupon.
- Pdirty : Prix dirty unitaire à la date de valorisation.
- Pclean : Prix Clean unitaire à la date de valorisation. Il est calculé à partir
de la formule suivante :
Pclean = Pdirty − Ccu
- k: Nombre entier égal à 365 ou 366.
Problématique et objectifs du projet

Les approches traditionnelles de gestion de portefeuille peuvent être limitées
dans leur capacité à traiter efficacement les données complexes et à prendre
des décisions rapides et précises. Ainsi, l’utilisation du machine learning offre
la possibilité de développer des modèles prédictifs plus sophistiqués et adap-
tatifs, capables d’apprendre à partir des données historiques et d’améliorer
la performance globale de la gestion de portefeuille obligataire. L’objectif
principal de ce projet est de modéliser et de construire un portefeuille obli-
gataire. Ce qui nous renvoie aux objectifs suivants:
• Construire la courbe des taux par la méthode direct ainsi que les
modèles stochastiques;
• Valoriser les emprunts obligataires;
• Concevoir des modèles du machine learning pour la construction du

portefeuille obligataire et l’identification des signaux d’achat et de vente
pour les obligations.
Conclusion
Dans ce chapire, nous avons cadré notre projet de fin d’étude à travers la
présentation de l’organisme d’acceuil et le marché obligataire marocain, ainsi
que l’identification du contexte général de ce projet.
18
Chapitre 2
Modélisation de la courbe des

taux
La courbe des taux d’intérêt ou également courbe de rendement sans risque,

est une représentation graphique des taux d’intérêts en fonction des maturités
des obligations d’Etat ou des emprunts obligataires. Cette courbe est un outil
très important pour les investisseurs. Elle leur indique le niveau de risque de
défaut de l’emetteur mais aussi elle leur informe des rendements d’un titre
selon sa maturité. Elle renseigne aussi sur les taux d’intérêts à une date future
et sur le niveau d’inflation. La courbe des taux prend 3 formes: Une courbe
normale, plate ou inverse. Ces formes influent considérablement les décisions
du marché monétaire et obligataire ainsi que les stratégies d’investissement
et les plans d’actions futures. Pour bien comprendre la courbe des taux, nous
allons dans ce chapitre la modéliser par la méthode d’interpolation linéaire
mais aussi par des modèles mathématiques.
2.1 Calcul du taux d’intérêt

Afin de calculer les taux de rendement, il est nécessaire de distinguer deux
types de taux en fonction de la maturité, le taux monétaire qui représente
le taux de rendement à court terme, c’est-à-dire des maturités inférieures ou
égales à 364 jours. Ces taux varient en fonction de l’évolution du marché
monétaire. C’est le marché sur lequel les états, les banques, les assur-
ances et les entreprises prêtent et empruntent des fonds pour une courte
durée. En général, le montant des taux à court terme dépend de la politique
monétaire menée par les banques centrales tandis que le taux actuariel ou
le taux à long terme (jusqu’à 50 ans) varient en fonction de l’évolution du
marché obligataire. Quand un État a besoin d’argent, il émet des obligations.
19
L’État emprunte une somme aux investisseurs, lesquels achètent des obliga-
tions moyennant une rémunération qui dépendra de la durée du prêt et du
profil de risque de l’État. Pour déterminer les taux de rendement pour des
maturités spécifiques, on procède par interpolation linéaire. Cette méthode
est utilisée pour calculer la valeur d’un taux inconnu sur la courbe de taux,
en calculant une moyenne pondérée des valeurs de deux taux connus qui
l’entourent. Soit t la maturité pour laquelle on souhaite calculer le taux de
rendement r(t), sachant que t est comprise entre t0 et t1 et r(t1 ) et r(t0 ) sont
connus. La formule de l’interpolation linéaire s’exprime alors comme suit :
t0 −t
r(t) = r(t0 ) + t0 −t1
(r(t1 ) − r(t0 ))
Cependant, pour pouvoir interpoler entre deux points de la courbe, ces
derniers doivent avoir la même base d’intérêt d’où la nécessité de la con-
version des taux monétaires en taux actuariels ou inversement. Ainsi, la
formule pour le calcul du taux monétaire est exprimée par:
N bj ours
1 + Tm × 360
Et la formule pour calculer le taux actuariel est exprimée comme ainsi:
N bj ours
(1 + Ta ) base
Où base: 365 ou 366 jours en fonction de l’année.

Ainsi on tire les équivalences suivantes :
N bj ours N bj ours
Tm = [(1 + Ta ) base ) − 1] × (2.1)
360
N bj ours N bbase
Ta = [(1 + Tm × ) j ours ] − 1 (2.2)
360
2.2 La courbe de taux BAM

L’AMMC définit le taux d’intérêt comme la rémunération d’un prêt d’argent.
En effet, elle rémunère le prêteur d’argent pour se couvrir des différents
risques liés à un placement déterminé, à savoir le risque de crédit, la dépréciation
de la monnaie, ainsi que l’augmentation du niveau d’inflation. Le taux
d’intérêt dépend de la méthode de calcul des intérêts, la durée de trans-
action, la fréquence de paiement des intérêts ainsi que la base annuelle et le
mode de calcul des durées.
Le site officiel du Bank Al-Maghreb publie régulièrement la courbe de taux
20
des rendements des transactions des obligations du marché secondaire. Pour

construire la courbe des taux il faut passer par la transformation des taux et
l’interpolation linéaire. Le tableau de la figure ci-dessous, illustre la courbe
des taux correspondante au 17/03/2022 publiée par BAM. Les transactions
sont en millions de dirhams.
Figure 2.1: La courbe des taux correspondante au 17/03/2022
La courbe des taux construite par la méthode de l’interpolation linéaire peut

nous servir pour la détermination de la courbe de taux zéro coupons. En
effet, la méthode de calcul des taux Zéro coupon dépend de la maturité des
titres. Sur le cours terme (moins d’un an), il n’y a pas de flux intermédiaire;
le rembousement du capital et le paiement des intérêts sont versés en même
temps à l’échéance. On dit alors que les paiement sont de type zéro coupon
et le atux actuariel et le taux zéro coupon sont égaux pour les maturités
inférieures ou égale à un an.
Lorsque nous nous plaçons sur le plus d’1 an, nous remarquons le versement
des flux intermédiaires généralement annuels. Il faut donc reconstruire la
courbe tes taux ZC pas à pas en partant des taux actuariels Ténor correspon-
dant à des maturités pleines. Cette construction est basée sur la méthode
21
de Bootstrapping. En effet, les taux actuariels sont calculés par la méthode

d’interpolation linéaire et la méthode de transformation des taux monétaires
en taux actuariels. Nous nous sommes basés sur le tableau du TMP du
18/03/2019 publié par BAM pour calculer les taux actuariels. Le tableau de
la figure 2.2 illustre les taux actuariels transformés et interpolés calculés sous
python.
Figure 2.2: Les taux actuariels du 18/03/2019 par maturité annuelle
Pour les maturités de 13 semaines(91 jours), 26 semaines(182 jours) et 52

semaines(364 jours) le taux zéro coupon est égale au taux actuariel.Tandis
que pour les maturités qui dépassent un an, le taux zéro coupon est calculé
par l’approximation de Bootstrapping. Pour ce faire, on commence par con-
sidérer une obligation paire, c’est-à-dire que cette obligation est émise à sa
valeur nominale, d’où l’égalité :
n
X CFi N
N= i
+
i=1
(1 + ZCi ) (1 + ZCn )n
Où CFi sont les cash flows annuels et ZCi représente le taux zéro coupon
correspondant à la maturité i.
22
Or ∀i ≥ 1 CFi = rN avec r représente le taux actuariel. On sim-

plifie et on obtient :
n
X r r+1
1= i
+
i=1
(1 + ZCi ) (1 + ZCn )n
Le taux zéro coupon vaut alors :
r+1 1
ZCn = ( n )n − 1
X r
1−
i=1
(1 + ZCi )i
1 1
ZCN = ( N −1 )N − 1
X 1 1 1
( i
− i
)+
i=1
(1 + ri ) (1 + ZCi ) (1 + rN )N
Le tableau de la figure 2.3 illustre le taux zéro coupon correspondant au

18/03/2019 :
Figure 2.3: Les taux zéro coupon par maturités pleines correspondantes au
18/03/2019
23
2.3 Modélisation des taux d’intérêts

2.3.1 Modèle à un seul facteur: Modèle de Vasiçek
Dans les modèles à un seul facteur, la seule variable qui détermine la dy-
namique et l’évolution de la courbe des taux est le taux à court terme.
L’analyse des taux d’intérêts à court terme à travers ces modèles est es-
sentielle pour comprendre leur évolution futures. La dynamique des taux
d’intérêts est décrite par l’équation stochastique suivante:
dr(t) = µ(r, t)dt + σ(r, t)dB(t) (2.3)

Avec :
- µ(r, t) représente l’espérance de changement de r(t), cet terme est aléatoire
mais il est connu à l’instant t. C’est la partie déterministe de y et il représente
la tendance de r.
- σ(r, t) représente la variance de changement de r par unité de temps. Elle
est aléatoire mais connue à l’instant t, elle contrôle la force par laquelle dB(t)
perturbe la trajectoire de r. C’est la composante imprévue du changement
- B(t) est un mouvement Brownien Standard.
Il existe des multitudes de modèles stochastiques à un seul facteur. Dans ce
rapport,on a opté pour le modèle le plus connu, c’est le modèle de Vasiçek.
L’une des premières modélisations du taux court terme a été développée par
Vasiçek. Ce modèle modèlise la dynamique du taux d’intérêt en introduisant
l’effet de retour à la moyenne du taux jour le jour autour d’une tendance
moyenne et une force de rappel. En d’autres termes, ce modèle s’appuie sur
le processus autorégressif d’Orstein-Uhlenbeck. Le taux court est modélisé
par l’équation différentielle stochastqiue inspirée par le processus d’Ornstein
Uhlenbeck:
dr(t) = a(b − r(t))dt + σdWt (2.4)
Avec:
- σ: Volatilité du taux d’intérêt instantané.
- b: Tendante du taux d’intérêt instantané.
- a: Force de rappel ou la vitesse de moyenne qui fait retourner r vers sa
valeur moyenne b.
- Wt : Processus Brownien.
La solution de cette équation différentielle stochastique est exprimée par:
Z t
−at
r(t) = b + (r(0) − b)e +σ e−a(t−u) dWu (2.5)
0
24
C’est un processus gaussien de moyenne rm = b+(r(0)−b)e−at et de variance

σ2
2a
(1 − e−2at ). Pour estimer les paramètres de ce modèle, nous allons utiliser
deux techniques, à savoir l’approche en série chronologiques et l’approche de
maximum de vraissemblance.
Estimation des paramètres du modèle par l’approche en séries
chronologiques:
Pour callibrer ce modèle, nous avons besoin de la solution de son équation
différentielle stochastique en sa forme discrète. Après nous allons recourir
à la méthode des moindres carrées pour effectuer cette estimation. On a la
solution :
Rt
r(t) = b + (r(0) − b)e−at + σ 0
e−a(t−u) dWu
On discrétise cette équation, on obtient:

r
1 − exp (−2adt)
rt = rt−1 exp (−adt) + b(1 − exp (−adt) + σ ϵ (2.6)
2a
Où ϵ suit une loi normale centrée réduite .
Il est clair que cette série suit un processus d’auto-régressif d’ordre 1.
Le modèle se met alors sous la forme :
rt = αrt−1 + β + ξ
Avec :
α = e−adt



β = b(1 − exp (−adt)

(2.7)
 σ 2 1 − exp (−2adt)
∼ N (0, (

ξ ))
2 2a
Pour que l’hypothèse du processus auto-régressif d’ordre 1 soit vérifiée, il

faut mener une étude de stationnarité à cette série temporelle. Une série
chronologique est dite stationnaire, si elle n’a aucun facteur évolutif dans le
temps, c’est à dire qu’elle ne possède ni tendance ni saisonnalité. Une vari-
able stationnaire a tendance à osciller autour de sa valeur moyenne, revenant
constamment à sa valeur d’équilibre, pour pouvoir enfin prédire les valeurs
futurs. Dans le cas du taux court modélissé par Vasiçek, on a intérêt à avoir
la série chronologique pour qu’elle vérifie le processus d’Ornstein-Uhlenbeck
caractérisé par l’effet de retour à la moyenne. Nous testons la stationnarité
25
de la série par le test de Dickey FULLER augmenté (ADF). On considère

en effet, l’hypothèse nulle H0 qui dit que la série n’est pas stationnaire et
l’hypothèse non nulle H1 qui dit qu’elle est stationnaire.
Estimation des paramètres du modèle par l’approche du maximum

de vraissemblance:
Le maximum de vraisemblance est une méthode statistique permettant d’estimer
les paramètres d’un modèle de probabilité à partir d’un ensemble d’observations.
Il s’agit de trouver des valeurs pour les paramètres du modèle qui maximisent
la fonction de vraisemblance des données observés.
Avant d’entamer la phase d’estimation des paramètres du modèle de Vasiçek,
nous avons besoin d’abord de la fonction de densité de probabilité de Vasiçek
du taux court rt+1 sachant que l’observation précédente est connue .
Cette fonction est déterminée par la formule suivante :
−r e−a −b(1−e−a ) 2
1 r
−( i+1 i √ )
f (ri+1 \ri , a, b, σ) = √ e 2σ (2.8)
2πσ
Pour un échantillon Xi = r1 , r2 , ..., rn , la fonction de vraisemblance s’écrit:
n−1
Y
L(a, b, σ) = f (ri+1 \ri , a, b, σ)
i=1
Maximiser la fonction de vraisemblance consiste à maximiser également le
logarithme de vraisemblance:
n−1
X
ln(L(a, b, σ)) = f (ri+1 \ri , a, b, σ)
i=1
On remplace f du modèle de Vasiçek par son expression :
n−1
X
ln(L(a, b, σ)) = − n−1
2
(ln(2π) − ln(σ)) − 1
2σ 2
(ri+1 − ri e−a − b(1 − e−a ))2
i=1
Les conditions du premier ordre sont :

∂L(a, b, σ
=0


∂a)





 ∂L(a, b, σ
=0 (2.9)

 ∂b)


 ∂L(a, b, σ
=0


∂σ)

26
On trouve ainsi les estimations du maximum de vraisemblance:


 Xn−1
(ri+1 − b)(ri − a)





a = − ln( i=1 n

)



 X
(ri − b)2





i=1
Pn−1 (2.10)
−a
i=1 (ri+1 − ri e )



 b =
(n − 1)(1 − e−a )




n−1


 1 X
2
(ri+1 − b − e−a (ri − b))2

σ = n−1



i=1
On note :  n
X
Sx = ri−1






 i=2

 n

 X



 Sy = ri

 i=1



 n−1
X
Syy = ri2 (2.11)


 i=1

 n

 X



 Sxy = ri ri−1

 i=2

n


 X
 2


 Sxc = ri−1
i=2
On obtient ainsi :
Sxy − θSy − Sy + nθ2

a = − ln( )


Sxx − 2θSx + nθ2




Sy Sxx − Sx Syy

b=


 n(Sxx − Sxy ) − (Sx2 − Sx Sy
σ 2 = 1 (Syy − 2e−a Sxy + e−2a Sxx − 2b(1 − e−a )(Sy − e−a Sx ) + nb2 (1 − e−2a ))



n
(2.12)
Application du modèle aux données du marché marocain

Dans cette partie nous allons appliquer ce modèle par des données réelles
27
du marché marocain en utilisant l’approche en séries chronologiques et la

méthode de maximum de vraissemblance.
Le taux court choisi pour estimer les paramètres du modèle de Vasiçek est
le taux moyen pondéré au jour le jour du marché monétaire interbancaire
(T M Pjj ). La base de données qu’on a utilisé est un ensemble d’observations
du TMP de la période allant de 01/01/2008 au 09/04/2019 importées à par-
tir du site officiel de Bank-Al-Maghreb. Ces données sont illustrées dans le
graphique de la figure 2.4 qui décrit les fluctuations du TMP au cours de la
période considérée:
Figure 2.4: TMPjj du marché monétaire interbancaire marocain entre 2008

et 2019
Avant de procéder à la calibration, nous devons calculer certaines statis-
tiques descriptives telles que la moyenne, l’écart-type et la corrélation des
taux d’intérêt.Les statistiques relatives au Taux moyen pondéré déduites sous
python sont représentées dans la figure 2.5 ci-dessous :
Figure 2.5: Statistique descriptive du TMPjj

Les statistiques montrent qu’on a 4083 observations, et en moyenne le taux
moyen interbancaire pondéré est de l’ordre de 2.9%. Pour la calibration
du modèle de Vasiçek par la méthode des séries chronologiques, nous allons
28
d’abord mener une étude de stationnarité de la série étudiée. Nous avons

étudié la stationnarité de la série des TMP du jour le jour en utilisant le test
de Dickey-Fuller augmenté (ADF) sous python, les résultats obtenus sont
résumés dans la figure 2.6 :
Figure 2.6: Test ADF pour l’étude de stationnarité
Nous remarquons que la p-value est largement supérieur à 5%, alors on ne

peut pas rejeter l’hypothèse non nulle H0 , la série est donc non stationnaire.
Dans ce cas, si la série de taux d’intérêt à court terme est instable, cela sig-
nifie qu’elle ne suit pas une distribution de probabilité stable dans le temps,
ce qui peut rendre difficile la modélisation et la prévision des taux d’intérêt.
Dans ce cas, pour estimer les paramètres du modèle de Vasicek, la méthode
de maximisation de la vraisemblance peut être utilisée. Cette méthode con-
siste à trouver les paramètres du modèle qui maximisent la probabilité de
l’ensemble observé de taux d’intérêt compte tenu des hypothèses du modèle.
Ainsi, la fonction de vraisemblance évalue dans quelle mesure les données
concordent avec le modèle proposé. Si la série n’est pas stationnaire, la fonc-
tion de vraisemblance sera plus difficile à maximiser car la distribution des
taux d’intérêt ne sera pas stable dans le temps. Cependant, même dans ce
cas, la méthode du maximum de vraisemblance reste une méthode courante
pour estimer les paramètres du modèle de Vasicek, car elle permet de trou-
ver les paramètres qui minimisent l’écart entre la prédiction du modèle et la
valeur observée, même si la série n’est pas parfaitement stationnaire.
La calibration de ce modèle à l’aide de l’approche du maximum de vraisem-
blance sous Python peut être réalisée en suivant les étapes suivantes:
1. Importation des bibliothèques.
2. Importation des données: Nous devons maintenant importer les données

sur les taux d’intérêt.
3. Définition de la fonction de densité de probabilité :Nous allons saisir

dans python la fonction de densité de probabilié introduite dans la
partie précédente.
29
4. Définir la fonction de vraisemblance du modèle de Vasicek introduite

dans la partie précédente.
5. Définir les paramètres initiaux et les bornes pour l’optimisation
6. Minimiser la fonction de vraisemblance
7. Afficher les résultats de la calibration
Ainsi les estimations des paramètres de Vasiçek sont :
Figure 2.7: Les estimateurs du modèle de Vasiçek
Après avoir estimer les paramètres de ce modèle, nous devons effectuer un

backtesting pour juger sa performance. Pour ce faire, nous utilisons la for-
mule suivante:
E(rt \rt−1 ) = θ(1 − e−k ) + e−k rt−1
Cette formule nous permet de calculer l’espérance conditionnelle du taux

d’intérêt futur à la date t en fonction du taux d’intérêt à la date t-1. Les
paramètres θ et k sont des paramètres du modèle de Vasicek estimés à partir
des données historiques. Les résultat du Backtesting visualisent l’évaluation
de l’erreur de prévision du modèle de Vasicek pour chaque observation du
taux d’intérêt. Cette erreur est utilisée ensuite pour calculer les statis-
tiques de performance pour le modèle, telles que le RMSE et le coefficient de
détermination R2 .
Ainsi,la figure 2.8 illustre l’erreur du prévision de Vasiçek à partir du Back-
testing qui a été effectué sous python ainsi que les statistiques de performance
exliqués précédemment :
30
Figure 2.8: L’erreur de prévison du modèle de Vasiçek
On remarque que cette erreur est presque nulle et que la racine carré de
l’erreur quadratique moyenne est de l’ordre de 10−4 c’est à dire qu’elle est
presque négligeable et le coefficient de détermination est supérieur à 90% . Ce
qui explique que l’estimation de notre modèle est performante. Cependant,
comme la plupart des modèles mathématiques, le modèle Vasicek est un
modèle général et il ne représente pas parfaitement le mouvement des marchés
financiers en raison de plusieurs limitations, à savoir :
• Généralité du modèle: Le modèle de Vasicek ne tient pas compte de

la nature des marchés financiers, chacun d’eux, fluctue individuellement
en fonction de la politique monétaire et budgétaire, de la situation
macro-économique de chaque pays.
• Hypothèses loins de la réalité: Le modèle de Vasicek met en oeu-

vre des hypothèses comportementales loin de la réalité, notamment
l’efficience du marché, l’absence d’opportunité d’arbitrage, des investis-
seurs neutres aux risques.
• La continuité du modèle: Les modèles mathématiques, dont celui

de Vasicek, exigent que la trajectoire du taux soit continue afin de tirer
parti des puissants outils mathématiques sur le continuum, mais en
pratique, le taux peut bondir instantanément et être affecté par des
effets de discontinuité sur le marché.
31
2.3.2 Modèle à multiple facteurs: La fonctionnelle de

Nelson Siegel Svenson
Dans cette partie nous nous intéressons au modèle de Nelson Siegel Svensson
après avoir construit la courbe des taux à l’aide du modèle de Vasicek. Le
modèle comprend la prévision de la forme et du niveau de la courbe des
taux. Dans ce modèle, Nelson et Siegel modélisent le taux forward instantané
afin d’ajuster la courbe des taux continue sur les rendements observé. Ils
considèrent que ce taux est la solution de l’équation différentielle suivante:
f (τ ) = β0 + β1 e−λτ + β2 λe−λτ (2.13)
Où :
- τ = T − t: Nombres de jours restants jusqu’à l’échéance.

- f (τ ) = f (t, T ): Taux forward instantané à l’instant t et d’échéance T.
- β0 : Facteur de niveau représentant le taux d’intérêt à court terme.
- β1 : Pente de la courbe.
- β2 : Paramètre qui indique la forme de la courbure.
- λ: Paramètre d’échelle.
Nous utilisons la relation en temps continu pour calculer la fonctionnelle des

taux d’intérêts:
1
Rτ
R(t, T ) = τ 0
f (s)ds
Ainsi, le taux zéro coupon s’écrit comme suit:
−λτ −λτ
R(t, T ) = β0 + β1 ( 1−eλτ ) + β2 ( 1−eλτ − e−λτ )
Le signe de β2 détermine la forme et la taille de la courbe. Autrement dit, si

β2 > 0 la courbe est une bosse c’est-à-dire qu’elle prend la forme de ’⊔’. β0
représente le taux long car pour une longe durée le taux zéro coupon tend
vers β0 . En effet: limτ →+∞ R(t, T ) = β0 . Pour une durée qui tend vers 0,
on a: limτ →+0 R(0, T ) = β0 + β1 . Ce terme représente le taux court de la
courbe. On déduit alors que β1 représente l’écart entre le taux court et le taux
long. Ainsi, la fonctionnelle de Nelson et Siegel est un outil d’évaluation des
quatres formes connues de la courbe des taux d’intérêt soient: ascendante,
descendante, inversée, et plate.
32
Evolution des charges des paramètres du modèle de Nelson Siegel

L’évolution des charges des facteurs de la fonctionnelle de Nelson-Siegel
représente la variation dans le temps de la contribution relative de chaque fac-
teur dans la modélisation des taux d’intérêt à long terme. Ce développement
est important car il aide à comprendre comment les facteurs affectent les taux
d’intérêt pour différentes échéances, ce qui aide à prévoir les taux d’intérêt
futurs et à évaluer les risques associés à certains instruments financiers.
La figure 2.9 montre l’évolution des facteurs β0 , β1 et β2 pour différentes
échéances en fixant le paramètre d’échelle λ à 0.074.
Figure 2.9: Evolution des charges des paramètres du modèle NS
Nous analysons le graphe, on constate que β0 reste constante dans le temps,

c’est le niveau qui influence l’ensemble des taux d’intérêt. Par contre, β1
tend vers la valeur 0.8 quand t tend vers 0 et tend vers 0 quand la durée
augemente. On déduit alors queβ1 représente bien le taux court terme. Pour
le dernier facteur β2 , il est presque nul pour les durées longues et courtes
et concave pour les maturités à moyen terme. Donc β2 représente bien le
facteur déterminant la courbure de la courbe.
Calibrage de la courbe par le Modèle de Nelson Siegel :
Construire la courbe des taux à l’aide du modèle de Nelson Siegel revient
à déterminer les valeurs des paramètres du modèle, et ceci se fait à l’aide
de l’ajustement du modèle à la courbe zéro coupon du marché au sens des
moindres carrés : c’est-à-dire minimiser la distance au carré entre les points
de la courbe et les points du modèle tout en fixant le paramètre d’échelle
λ dans un intervalle donné. La valeur retenue de λ est celle qui minimise
notre fonction objective. On choisi de varier λ entre 0 et 40, la fonction de
minimisatiobn s’exprime comme suit:
33
n
X
λ̂ = argmin( (R(t, Ti )obs − R(t, Ti )N S )2 ) (2.14)
i=0
Avec:
• R(t, Ti )obs : : le taux observé sur le marché pour la maturité Ti à la

date t.
• R(t, Ti )N S : le taux calculé par le modèle pour la maturité Ti à la date

t.
Application du modèle aux données réels du marché marocain:

Pour estimer les paramètres du modèle de Nelson-Siegel, on applique la
démarche expliquée précédemment pour la date du 16/03/2023 afin de comaprer
les taux zéro-coupon du modèle avec ceux calculés à partir des données du
marché marocain. Pour ce faire nous allons utiliser une méthode d’estimation
préliminaire telle que la méthode des moindres carrés sur les taux zéro coupon
moyens pour estimer les valeurs initiales des facteurs β0 , β1 et β2 . Avec ces
paramètres estimés nous allons construire la courbe des taux zéro coupon
du modèle de NS sous Python et la comparer à la courbe des taux zéros
coupon réelle. On fixe λ = 0.1, la figure 2.10 donne les paramètres initiales
des facteurs du modèle:
Figure 2.10: Paramètres estimés du modèle de NS pour la date 16/03/2023
Nous allons maintenant effectuer un backtesting du modèle en vérifiant la

qualité de l’ajustement en comparant les taux zéro coupon observés sur le
marché avec les taux zéro coupon prédits par le modèle de Nelson-Siegel avec
les paramètres β0 , β1 et β2 estimés. La figure 2.11 permet de visualiser les
deux courbes de taux zéro coupon:
34
Figure 2.11: Calibrage de la courbe des taux ZC avec le modèle NS pour le

16/03/2023
Nous pouvons remarquer que la courbe NSS ajuste bien la courbe Zéro
Coupon.Des écarts très faibles pour les maturités comprises entre 16 ans
et 23 ans, ces écarts peuvent être expliqués par le faite que le facteur re-
sponsable de la forme de courbure β2 était mal estimé, et par conséquent le
modèle n’a pas pu suivre les petits changements que le marché a connu en
cette période.
Malgré il est largement utilisé en finance, le modèle de Nelson-Siegel présente
également certaines limites:
• La fonction de forme utilisée par le modèle Nelson-Siegel peut être
inadéquate pour modéliser les comportements extrêmes des taux d’intérêt,
comme les pics des vallées dans la CDT. Cela peut entraı̂ner des diffi-
cultés à modéliser avec précision de telles situations.
• La sensibilité du modèle Nelson-Siegel aux données d’entrée signifie que

ses résultats dépendent fortement de la précision des données utilisées
pour son ajustement. Si les données d’entrée sont erronées, la sortie du
modèle sera déformée.
• Le manque de flexibilité: Le modèle de Nelson-Siegel est limité par sa

forme fonctionnelle fixe, qui peut ne pas être en mesure de capturer
toutes les nuances et les complexités de la courbe des taux d’intérêt.
• La non prise en compte des facteurs macroéconomiques: Le modèle de

Nelson-Siegel ne prend pas en compte les facteurs macroéconomiques
tels que l’inflation, le PIB, le chômage, etc. qui peuvent affecter la
courbe des taux d’intérêt.
En résumé, lorsque l’on considère l’utilisation du modèle Nelson-Siegel pour
la modélisation de la courbe des taux d’intérêt, il est important de garder à
35
l’esprit ses limites et les prendre en compte lors de son utilisation.

Conclusion
Dans ce chapitre, nous avons construit la courbe des taux en utilisant la
méthode d’interpolation linéaire, ainsi que la courbe des taux ZC par le biais
de la méthode de Bootstrapping. De plus, nous avons appliqué les modèles
mathématiques de Vasiçek et Nelson-Siegel pour modéliser la courbe des
taux. Nous avons analysé les avantages et les limites de chaque approche.
36
Chapitre 3
Valorisation des emprunts

obligataires
Ce chapitre nous allons voir comment valoriser une obligation et nous allons
réaliser un pricer sous Python qui permet d’évaluer les emprunts obligataires,
nous allons également introduire les caractéristiques générales du portefeuille
obligataire.
3.1 Valorisation des emprunts obligataires à

taux fixe
Une obligation est un instrument financier émet par une entreprise, banque
ou un Etat qui reçoit en prêt un montant de la part des acheteurs de ce
titre. Autrement dit, l’émetteur de l’obligation est le prêteur, et l’achteur est
l’emprunteur ou l’investisseur.L’Etat ou les établissements publiques garanties
par l’Etat émettent des obligations dites emprunts publiques (appelées Bons
de Trésor au cas où l’émetteur est l’Etat), par contre les banques et les
entreprises privées emettent des emprunts privés.La valorisation des deux
types d’emprunts est identique, avec une prime de risque qui faut prendre en
compte lors d’une émission privée.
Cas 1: Obligation de maturité et maturité résiduelle inférieur à un

an pour une ligne simple
La figure 3.1 illustre le cas d’une obligation à ligne simple avec maturité M
et maturité résiduelle Mr .
37
Figure 3.1: Ligne obligataire simple avec M et Mr ≤ 1 an
Le coupon plein unitaire est calculé à partir de la formule suivante :
M
Cpu = tf × N × 360
Le coupon couru est donnée par :

M −Mr
Ccu = tf × N × 360
Ainsi, le prix de l’obligation est donné par la formule suivante:
N +Cp u
Pdirty = 1+r× M r
360
Cas 2: Obligation de maturité et maturité résiduelle supérieur à

un an pour une ligne simple
Dans ce cas, la valorisation des obligation se divise en deux cas, le cas d’une
date de valorisation située avant la date du premier coupon et le cas d’une
date de valorisation située après la date du premier coupon. Les figures 3.2
et 3.3 représentent les deux cas respectivement:
38
Figure 3.2: Ligne obligataire simple avec M et Mr supérieur à 1 an : Date

valorisation est avant la date du 1er coupon
Figure 3.3: Ligne obligataire simple avec M et Mr supérieur à 1 an le cas

d’une date valorisation après la date du 1er coupon
Le coupon plein est donné par la relation suivante :
Cpu = tf × N
39
le prix de l’obligation s’exprime alors comme suit :
M
X Cpu N
Pdirty = Dcoup(j) −Dval + Dcoup(M ) −Dval
j=i (1 + r) k(j) (1 + r) k(M )
Où K(i)=365, s’il n’ y a pas un 29 février entre Dcoup(i) et Dcoup(i−1) , sinon

elle vaut 366. Avec i est la numéro du coupon suivant la date de valorisation.
Le coupon couru se calcule comme suit:
D −Dcoup(i−1)
(
tf × N × val) k(i) Si la date valo est après la date du premier coupon
Ccu =
tf × N × Dvalk−D
′
em
Si la date valo est avant la date du premier coupon
Avec K’=365, s’il n’ y a pas un 29 février entre Dcoup(i) et Dcoup(i−1) , sinon

elle vaut 366. L’interface du Pricer dans le cas cas 2 où la date de valorisation
est avant et après la date du premier coupon est représentée respectivement
dans les figures 3.4 et 3.5.
Figure 3.4: Interface du Pricer dans le cas cas 2 : Date valorisation est après
la date du 1er coupon
40
Figure 3.5: Interface du Pricer dans le cas cas 2 : Date valorisation est avant
la date du 1er coupon
Cas 3: Obligation de maturité et maturité résiduelle supérieur à

un an pour une ligne atypique
Si la date de valorisation est avant la date du premier coupon (figure 3.6),

le coupon plein est calculé par la formule suivante:
Dcoup(1) −Dem
Cpu1 = tf × N times k(1)
41
Figure 3.6: Ligne obligataire atypique avec M et Mr supérieur à 1 an : Date

valorisation est avant la date du 1er coupon
Les autres coupons s’expriment comme suit :
Cpu = tf × N
Ainsi, le prix de l’obligation est donné par:

M
Cpu1
X Cpu N
Pdirty = Dcoup(1) −Dval + Dcoup(j) −Dval + Dcoup(M ) −Dval
(1+r) k(1) j=2 (1 + r) k(j) (1 + r) k(M )
Le coupon couru est donné comme suit:
Dval −Dem
Ccu = tf × N × k
Où K=365, s’il n’ y a pas un 29 février entre Dcoup(i) et Dcoup(i−1) , sinon elle
vaut 366.
Par contre, si la date de valorisation est après la date du premier coupon
(figure 3.7), le coupon plein est exprimé alors par ce qui suit:
Cpu = tf × N
42
Figure 3.7: Ligne obligataire atypique avec M et Mr supérieur à 1 an dont

la date de valorisation est après la date du 1er coupon
Dans ce cas, l’obligation a déjà généré un flux du coup, les prochains

coupons seront identiques pour la même durée d’un an. On constate alors
que l’obligation est passée d’une ligne atypique à une ligne simple. Le
coupon couru est calculé alors comme suit:
Dval −Dcoup(i−1)
Ccu = tf × N × k(i)
Ainsi, le prix de l’obligation est donné par la formule suivante:
M
X Cpu N
Pdirty = Dcoup(j) −Dval + Dcoup(M ) −Dval
j=i (1 + r) k(j) (1 + r) k(M )
Cas 4: Obligation de maturité supérieur à un an et maturité

résiduelle inférieur à 1 an pour une ligne atypique et simple
Dans ce cas, la procédure est la même pour les deux types de ligne. Les
figures 3.8 et 3.9 illustrent respectivement le cas de cette obligation pour une
ligne simple et une ligne atypique.
43
Figure 3.8: Ligne obligataire simple avec M supérieur à 1 an et Mr inférieure

à 1 an
Figure 3.9: Ligne obligataire atypique avec M supérieur à 1 an et Mr

inférieure à 1 an
Le coupon plein unitaire est donné par:
Cpu = tf × N
Le coupon couru est exprimé par la formule suivante:
44
Dval −Dcoup(M −1)

Ccu = tf × N × k(M )
Ainsi, le prix de l’obligation se calcule comme suit:
N +Cp u
Pdirty = 1+r× M r
360
3.2 Caractéristiques du Portefeuille obli-

gataire
Un portefeuille désigne une collection d’actifs financiers détenus par un
établissement ou un individu. Il est composé de titres de créances et
d’obligations. Nous allons définir ce qui caractérise un portefeuille obligataire
en terme de duration, sensibilité, convexité et rentabilité.
La duration d’un portefeuille est la somme des durations pondérées des obli-
gations le composant, Pour un portefeuille de n titres :
n
X
Dp = wi × Di (3.1)
i=1
avec Di la duration du titre i et wi la proportion de la valeur du portefeuille

investie dans le titre i.
La duration d’une obligation est définie comme la durée de vie effective de
l’obligation, en d’autres termes la durée moyenne au bout de laquelle on
récupère entièrement le capital et les paiements d’intérêt. La duration peut
s’écrire sous la forme du rapport entre la somme de tous les flux actualisés
pondérés par leur année et la valeur actuelle du titre :
m m
X i × Ci X i × Ci
i=1
(1 + tr )i i=1
(1 + tr )i
D= = m (3.2)
P X Ci
i=1
(1 + tr )i
m
X Ci
Car le prix d’une obligation s’exprime comme suit: P =
i=1
(1 + tr )i
Avec:
- Ci est le ième coupon
- m est la maturité de l’obligation
- tr est le taux de rendement
45
On note que plus la duration d’une obligation est élevée plus son prix est
volatil, et donc sa détention est risquée car elle est plus sensible à une
variation de taux qu’une obligation qui a une duration moins
La sensibilité d’une obligation est exprimée par :

m
1 dP 1 X i × Ci
S= =− (3.3)
P dtr P i=1 (1 + tr )i
Ainsi, la sensibilité d’un portefeuille est la somme pondérée des sensibilités
des titres qui le composent, et s’écrit sous la formule :
n
X
Sp = wi × Si (3.4)
i=1
On peut établir une équation qui lie la sensibilité et la duration comme suit:
D
S=− (3.5)
1 + tr
On peut alors conclure que la sensibilité d’un titre est d’autant plus
importante que sa duration est élevée.
La duration et la sensibilité sont de bonnes mesures de la variation du prix

occasionnée par de faibles variations des taux. Alors que pour des variation
plus importantes, ces dernières fournissent des estimations moins précises,
qu’on peut expliquer par la forme convexe de la relation qui régit entre le
prix et le taux de rendement à l’échéance. Il convient alors d’utiliser une
mesure de la courbure de la relation entre le prix et le rendement exigé d’une
obligation qu’on appelle la convexité et qui est égale à la dérivée seconde du
prix de l’obligation par rapport à son taux de rendement actuariel divisée
par le prix de l’obligation, son expression est :
m
1 d2 P 1 X i(1 + i)Ci
C= 2
=− (3.6)
P dtr P (1 + tr ) i=1 (1 + tr )i+1
2
Quand au rendement d’un portefeuille obligataire, il est calculé par la

somme pondérée des rendements des obligations qui le composent. Pour un
portefeuille P composé de n obligations, on a :
n
X
Rp = wi × Ri (3.7)
i=1
46
Avec:
- Rp : La rentabilité du portefeuille
- wi : Les proportions qui composent le portefeuille d’obligations.
- Ri : La rentabilité de l’ième obligation
47
Chapitre 4
Outils et techniques du
machine learning utilisés
Le Machine Learning est un domaine de l’informatique qui vise à appren-

dre aux ordinateurs comment apprendre et agir de manière autonome. Plus
précisément, le Machine Learning est une approche de l’analyse des données
(Data Analysis) qui implique la construction et l’adaptation de modèles,
qui permettent aux programmes d’apprendre par l’expérience. Le Ma-
chine Learning implique la construction d’algorithmes qui apprennent à
améliorer leur capacité à faire des prédictions à partir d’un large ensemble de
données. Dans certains scénarios, la machine reçoit une quantité importante
de données d’entrainement étiquetées, ce que l’on appelle l’apprentissage su-
pervisé. Dans d’autres cas, aucune donnée étiquetée n’est fournie, c’est ce
qu’on appelle l’apprentissage non supervisé. Dans ce chapitre nous allons
définir ce que c’est l’apprentissage supervisé et non supervisé et quelles sont
les techniques d’apprentissage automatiques utilisées pour la réalisation de
ce projet.
4.1 Apprentissage supervisé

L’apprentissage supervisé est la forme d’apprentissage machine la plus
pratique et la plus largement adoptée. Il consiste à créer une fonc-
tion qui relie les variables d’entrée aux variables de sortie préférées. Les
tâches d’apprentissage supervisées peuvent en outre être classées comme des
problèmes de classification ou de régression.
La classification est un processus qui consiste à classer un ensemble de
données en classes. Elle peut être effectuée sur des données structurées ou non
structurées. Le processus commence par la prédiction de la classe de points de
48
données donnés. Les classes sont souvent appelées cibles, étiquettes (Labels)
ou catégories. La modélisation prédictive de la classification est la tâche
d’approximation de la fonction de cartographie des variables d’entrée aux
variables de sortie discrètes. L’objectif principal est d’identifier dans quelle
classe/catégorie les nouvelles données tomberont. Il existe deux grands types
de tâches de classification. Ce sont :
• Classification binaire : fait référence aux tâches de classification avec

deux classes de labels. La détection de courrier électronique (spam ou
non) ou la détection de fraude bancaire (fraude ou non) sont des exem-
ples de classification binaire. La classe correspondant à l’état normal
reçoit le label de classe 0 et la classe correspondant à l’état anormal
reçoit le label de classe 1.
• Classification multi-classes: désigne les tâches de classification qui

ont plus de deux classes de labels. La classification des visages et la
reconnaissance optique de caractères sont des exemples de la classifica-
tion multi-classes.
Tandis que la régression est l’un des types les plus courants de modèles de
Machine Learning, permet d’estimer les relations entre les variables. Alors
que les modèles de classification identifient la catégorie à laquelle appartient
une observation, les modèles de régression estiment une valeur numérique.
Dans le contexte du Machine Learning et de la Data Science, la régression fait
spécifiquement référence à l’estimation d’une variable dépendante continue ou
d’une réponse à partir d’une liste de variables d’entrée, ou de caractéristiques.
4.2 Apprentissage non supervisé

L’apprentissage non supervisé est une technique du Machine Learning qui
permet de trouver et d’analyser des modèles cachés dans des données brutes
ou non étiquetées. En ignorant complètement les étiquettes, un modèle util-
isant l’apprentissage non supervisé peut déduire des relations subtiles et com-
plexes entre des données non triées, et ce sans le temps et les coûts nécessaires
à l’apprentissage supervisé où toutes les données sont étiquetées. C’est une
méthode d’apprentissage dans laquelle au lieu de montrer à la machine des
exemples (X,Y) de ce qui elle doit apprendre on lui fournit uniquement des
données (X) et on lui demande d’analyser la structure de ces données afin
d’apprendre elle même à réaliser certaines taches.
49
4.3 Modèles d’apprentissage utilisées

Le principal objectif de ce mémoire est d’améliorer la gestion du portefeuille
obligataire en exploitant les techniques avancées du machine learning. Les
méthodes traditionnelles de gestion de portefeuille obligataire peuvent être
limitées dans leur capacité à prédire avec précision la composition optimale
du portefeuille et à identifier les opportunités de trading. Par conséquent,
l’utilisation d’algorithmes d’apprentissage supervisé représente une approche
prometteuse pour optimiser ces processus. En effet, nous avons choisi
d’optimiser la composition du portfeuille obligataire en utilisant des modèles
de régression pour la prédiction de la valeur du poids de chaque obligation
dans le portefeuille ainsi que d’identifier les opportunités de trading en
utilisant des algorithmes de classification binaire pour identifier le signal
d’achat ou de vente d’une obligation.
Le but de la régression en machine learning est de modéliser la relation
entre un ensemble de variables d’entrée (caractéristiques) et une variable de
sortie continue (le poids des obligations pour notre cas ), également appelée
variable cible. La régression vise à comprendre comment les variables
d’entrée influencent la variable cible et à créer un modèle qui peut prédire
avec précision les valeurs de la variable cible pour de nouvelles données en
se basant sur les caractéristiques disponibles. Tandis que la classification
binaire vise à regrouper les enregistrements en deux classes. Dans notre
cas, les deux classes: Option de vente ou option d’achat(0 ou 1). Donc
nous allons entrainer nos données à travers les algorithmes adéquats de la
régression et la classification binaire vu la nature des données et le type
de traitement envisagé. Ainsi, les algorithmes de régression du Machine
Learning choisis pour la prédiction de l’allocation optimale du portefeuille
sont les suivants :
Réseaux de neurones artificiels: Les réseaux de neurones artificiels sont

des modèles inspirés du cerveau humain, utilisés dans le domaine du Deep
Learning. Ils sont composés de neurones interconnectés, qui reçoivent des
signaux d’entrée, effectuent des calculs et génèrent des sorties. Les neurones
sont organisés en couches, avec une couche d’entrée, des couches cachées
pour le traitement intermédiaire, et une couche de sortie. Ces réseaux
sont flexibles et peuvent modéliser des relations complexes, ce qui les rend
adaptés à de nombreuses tâches telles que la classification, la reconnaissance
d’images et le traitement du langage naturel. Ils excellent dans les domaines
où les relations sont non linéaires ou les données sont complexes. Le schéma
de la figure 4.1 montre la structure des réseaux de neurones.
50
Figure 4.1: Structure d’un réseaux de neurone artificiel
Fonctionnement des réseaux de neurones :

Les réseaux de neurones imitent les neurones du cerveau humain comme
le montre la figure 4.2; chaque neurone est représenté par une fonction de
transfert qui prend en entrée des signaux x et retourne une sortie y.
Figure 4.2: Fonctionnement d’un réseaux de neurone artificiel
Cette fonction effectue deux étapes : la première consiste l’agrégation: dans

cette étape on fait la somme de toutes les entrées du neurone pondérés par
leurs poids, la deuxième étape consiste l’activation: si le résultat du calcul
précédent dépasse un certain seuil, généralement 0 alors le neurone s’active
et retourne une sortie y=1, sinon il reste à 0.
Ce modèle s’appelle le modèle du perceptron, il est constitué d’un seul neu-
rone et d’un algorithme d’apprentissage lui permettant de trouver les valeurs
des poids afin d’obtenir les sorties y, donc le perceptron suit ici un calcul
linéaire. Mais la fonction d’activation peut ne pas être linéaire. Parmi les
fonctions d’activation les plus populaires on trouve la fonction Sigmoid ou
la fonction logistique, la fonction relu et la fonction tanh. La figure 4.3
représente ces différentes fonctions avec leurs représentations graphiques et
leurs expressions mathématiques.
51
Figure 4.3: Fonctions d’activation
Le modèle de forêt aléatoire pour la régression: Le modèle de machine

learning appelé Random Forest Regressor est une méthode puissante et
populaire pour la régression. Il utilise une forêt aléatoire composée de
nombreux arbres de décision. Chaque arbre est construit avec un sous-
ensemble aléatoire des données d’entraı̂nement et des variables d’entrée. Les
prédictions de chaque arbre sont agrégées pour obtenir la prédiction finale,
généralement par la moyenne. Le modèle Random Forest Regressor gère
efficacement de grandes quantités de données et évite le surajustement. Le
shcéma de la figure 4.4 explique le fonctionnement de ce modèle.
52
Figure 4.4: Schéma Explicatif de l’algorithme RFR
L’algorithme Régression à Vecteur de Support (SVR): L’algorithme

Support Vector Regressor (SVR) est une méthode de machine learning
utilisée pour la régression. Il est basé sur le concept de machines à
vecteurs de support (SVM) et est particulièrement efficace pour modéliser
des relations non linéaires entre les variables.L’objectif principal de SVR
est de trouver une fonction (ou un hyperplan dans un espace de grande
dimension) qui se rapproche le plus possible des données d’entraı̂nement
tout en maintenant une marge d’erreur tolérée. Contrairement aux modèles
de régression traditionnels qui essaient de minimiser l’erreur entre les
prédictions et les valeurs réelles, SVR se concentre sur le maintien de la
plupart des points d’entraı̂nement dans une bande (ou un tube) définie par
la marge d’erreur.Les étapes clé de cet algorithme incluent le prétraitement
des données, le choix approprié du noyau pour la transformation des données
dans un espace de dimension supérieur, des exemples courants de noyau
incluent le noyau linéaire , polynomiale ainsi que le noyau gaussien , ensuite
vient la troisième étape de l’entraı̂nement du modèle SVR en optimisant les
paramètres pour trouver l’hyperplan qui maximise la marge d’erreur tolérée
et finalement la prédiction. Le schéma de la figure 4.5 illustre le fonction du
modèle SVR :
53
Figure 4.5: Schéma Explicatif de l’algorithme SVR

Les algorithmes de classification binaire choisis pour l’identification des op-
portunités de trading pour les obligations sont les suivants :
Régression logistique: La régression logistique est un algorithme

d’apprentissage automatique qui est utilisé pour les problèmes de classifi-
cation, c’est un algorithme d’analyse prédictive et basé sur le concept de
probabilité. Nous pouvons appeler une régression logistique un modèle de
régression linéaire, mais la régression logistique utilise une fonction de coût
plus complexe, cette fonction de coût peut être définie comme la ”fonction
sigmoı̈de” ou également connue comme la ”fonction logistique” au lieu d’une
fonction linéaire. L’hypothèse de la régression logistique tend à limiter la
fonction de coût entre 0 et 1. Les fonctions linéaires ne la représentent donc
pas car elle peut avoir une valeur supérieure à 1 ou inférieure à 0, ce qui
n’est pas possible selon l’hypothèse de la régression logistique. Afin de faire
correspondre les valeurs prédites aux probabilités, nous utilisons la fonction
sigmoı̈de.
Arbre de décision: La méthode des arbres de décision est très facile à lire
et à interpréter. Elle illustre le fait que l’apprentissage automatique n’est
pas toujours synonyme de modèles statistiques mais il peut aussi cibler des
objets symboliques. Un arbre de décision se lit de la racine aux feuilles. Les
feuilles sont associées aux classes alors que les nœuds correspondent aux tests
54
sur les valeurs des attributs. La figure 4.6 illustrue un exemple d’un arbre
de décision.
Figure 4.6: Exemple d’un arbre de décision

Dans la figure ci-dessus, la classification d’une nouvelle observation com-
mence par la première racine(ici Temps), si la condition est vérifiée, nous
procédons à la condition suivante (Oui), sinon nous passons à l’autre
condition (Non); et de façon récursive nous enchaı̂nons jusqu’à la dernière
feuille qui contient la classe à laquelle la nouvelle observation sera attribuée.
Ainsi, la construction de cet arbre exige le choix en première racine, de
l’attribut qui, par ses modalités, sépare le mieux les observations de chaque
classe, de façon à avoir des nœuds, contenant chacun le plus possible
d’observations d’une seule classe, puis nous réitérons la même opération sur
chaque nouveau nœud obtenu jusqu’à ce que la séparation des observations
ne soit plus possible ou plus souhaitable.
Forêt Aléatoire Pour la Classification: Les algorithmes du forêt

aléatoire ne sont pas utilisés que dans la régression ,mais ils incluent
également la classification. Le principe est le même que celui du Random
Forest Regressor , la seul différence c’est que le résultat est basé sur un vote
à la majorité des résultats reçus de chaque arbre de décision et non pas la
moyenne des résultats de chaque arbre de décision. La figure 4.7 représente
le principe de fonctionnement de ce modèle.
55
Figure 4.7: Principe de fonctionnement du modèle de forêt aléatoire pour la

classification
Par la suite, nous allons se baser sur les métriques de performance pour
les deux types des modèles de l’apprentissage automatique - Régression et
Classification- afin de choisir le meilleur modèle pour chacun d’eux.
4.4 Conception d’un modèle Machine Learn-

ing
Pour réaliser avec succès un projet basé sur des modèles machine learning, il
faut impérativemement passer par les étapes suivantes:
1. Collecte des données: La première étape consiste à collecter les

données pertinentes pour le problème qu’on souhaite résoudre. Il est
essentiel d’avoir des données de haute qualité et représentatives pour
garantir la performance du modèle.
2. Préparation des données : Une fois les données collectées, nous

devons les préparer pour le processus d’apprentissage. Cela im-
plique généralement le nettoyage des données en éliminant les valeurs
manquantes, les valeurs aberrantes et les doublons. Nous pouvons
également effectuer des transformations de données telles que la nor-
malisation, la discrétisation ou l’encodage des variables catégorielles.
3. Sélection des caractéristiques: À cette étape, nous identifion-

sles caractéristiques (variables) les plus pertinentes pour le modèle.
Cela peut inclure une analyse exploratoire des données et des tech-
niques de sélection de caractéristiques pour réduire la dimensionnalité
et améliorer la performance du modèle.
4. Choix du modèle d’apprentissage: En fonction de la nature du

problème (classification, régression, clustering, etc.) et des données
disponibles, nous devons choisir l’algorithme de machine learning ap-
proprié. Il existe une grande variété d’algorithmes disponibles, tels que
la régression linéaire, les arbres de décision, les réseaux de neurones,
les machines à vecteurs de support (SVM) et bien d’autres.
5. Division des données: Avant de construire le modèle, il est

courant de diviser les données en ensembles d’entraı̂nement, et de test.
L’ensemble d’entraı̂nement est utilisé pour ajuster les paramètres du
56
modèle et l’ensemble de test est utilisé pour évaluer les performances

finales du modèle.
6. Entraı̂nement du modèle: À l’aide de l’ensemble d’entraı̂nement, le

modèle est entraı̂né en ajustant ses paramètres pour minimiser l’erreur
ou maximiser la précision.
7. Évaluation du modèle: Une fois le modèle entraı̂né, il est évalué

à l’aide de l’ensemble de validation pour évaluer ses performances
sur des données non vues auparavant. Cela permet de régler les
hyperparamètres et d’optimiser le modèle en fonction de critères de
performance tels que la précision, le rappel, la F-mesure, l’aire sous la
courbe ROC, etc.
Pour évaluer la performance d’un modèle de régression plusieurs
indicateurs sont proposés dans la littérature, on peut citer:
L’erreur quadratique moyenne (MSE): Elle mesure la moyenne des
carrés des écarts entre les valeurs prédites par le modèle et les valeurs
réelles. Il représente la quantité moyenne d’erreur quadratique dans
les prédictions du modèle. Elle est calculée par la formule suivante :
1
(ypred − ytrue )2
P
n
Avec :
-n: nombre d’échantillon.
-ypred : les valeurs prédites par le modèle de régression.
-ytrue : les valeurs réelles.
La racine de l’erreur quadratique moyenne (RMSE): La RMSE
est simplement la racine carrée du MSE. Elle représente l’erreur
quadratique moyenne dans les prédictions du modèle, exprimée dans la
même unité que la variable cible. La RMSE est généralement préférée
au MSE car elle est plus facile à interpréter.Elle est exprimée par :
√
RM SE = M SE
L’erreur absolue moyenne (MAE): La MAE mesure la moyenne des

écarts absolus entre les valeurs prédites et les valeurs réelles. Elle
représente la quantité moyenne d’erreur absolue dans les prédictions
du modèle.Elle est exprimée mathématiquement par:
57
1
P
n
|ypred − ytrue |
Coefficient de détermination R²: Le coefficient de détermination,

également appelé R-squared, mesure la proportion de la variance
de la variable cible qui est expliquée par le modèle. Il indique la
qualité globale de l’ajustement du modèle aux données. Plus il
s’approche de 1, plus la qualité du modèle est meilleure. Il est exprimé
mathématiquement par:
)2
P
(y −y
R2 = 1 − P pred true 2
(ytrue −ymean )
Avec ymean représente la valeur moyenne de la variable cible y.
Parmi les métriques de performances utilisées pour l’évaluation des

modèles de classification, on cite:
Matrice de Confusion
Figure 4.8: Matrice de confusion
En apprentissage automatique supervisé, la matrice de confusion est

une matrice qui mesure la qualité d’un système de classification.
Comme le montre la figure 4.8, chaque ligne correspond à une classe
réelle et chaque colonne correspond à une classe estimée. En ef-
fet,la case des VN sont les Vrais Négatifs et représentent le nom-
bre d’observations qui sont réellement négatives et qui ont été cor-
rectement prédites comme négatives par le modèle, FP représentent
le nombre d’observations qui sont réellement négatives mais qui ont
été incorrectement prédites comme positives par le modèle, tandis que
FN représentent le nombre d’observations qui sont réellement posi-
tives mais qui ont été incorrectement prédites comme négatives par le
modèle, et finalement les VP représentent le nombre d’observations qui
sont réellement positives et qui ont été correctement prédites comme
positives par le modèle.
58
Accuracy: Accuracy ou le taux de succè, représente le nombre des

individus correctement identifiés par rapport au nombre total des indi-
vidus. En effet :
V P +V N
Accuracy= V P +V N +F P +F N
Taux d’erreur: Taux d’erreur ou le taux de mauvais classement dont

la formule est la suivante :
F P +F N
Taux d’erreur = V P +V N +F P +F N
Recall: Rappel ou la sensibilité (En anglais Recall) Elle représente

le pourcentage des valeurs bien prédites positives parmi les valeurs
réellement positives. Cette mesure pénalise les modèles avec beaucoup
des FN. Ellle s’exprime par:
Sensibilité= V PV+F
P
N
Precision: Elle représente le pourcentage des valeurs positives bien

prédites parmi celles prédites positives. Cette mesure pénalise les
modèles avec beaucoup de FP. Elle s’exprime par la formule suivante:
VP
Précision = V P +F P
8. Test et déploiement: Après avoir sélectionné le meilleur modèle à

partir de l’évaluation, nous devons le tester sur l’ensemble de test pour
évaluer ses performances finales. Si le modèle répond aux critères de
performance requis, il peut être déployé dans un environnement de
production pour effectuer des prédictions sur de nouvelles données.
Conclusion
Dans ce chapitre, nous avons brièvement ce que c’est le Machine Learning et
quelles sont ses branches ainsi que les différentes techniques que nous allons
adopté pour réaliser ce projet de fin d’étude.
59
Chapitre 5
Etude et mise en place d’un

système basé sur le Machine
Learning pour la gestion du
portefeuille obligataire
L’objectif de chapitre est de concevoir les modèles de l’apprentissage au-

tomatique introduits précédemment afin de gérer le portefeuille obligataire
et d’identifier les opportunités de trading des obligations.
5.1 Optimisation de la composition du porte-

feuille obligataire
Afin d’optimiser la composition du portefeuille obligataire en utilisant les
techniques de régression du machine learning, il nous faut d’abord une base
de données contenant les variables d’entrée et la variable cible(poids des
obligations). Pour ce faire, nous avons rassemblé 50 portefeuilles obligataires
de la banque populaire, ce portefeuille est dynamique, chaque jour le poids
des obligations change si son cours ou sa quantité change, ce qui nous
a amené à une base de données de 615 observations, chaque observation
représente une obligation, cette dernière est introduite avec sa quantité, son
nominal, son prix, sa maturité, son taux facial et son poids. Nous somme
enfin retouvé avec une base de donnée contenant les caractéristiques des
obligations ainsi que la valeur cible à prédire qui est le poids de l’obligation.
60
5.1.1 Pré-traitement des données et selection des vari-

ables
Dans cette étape, pour nettoyer notre base de données, on a éliminé les
valeurs manquantes et les colonnes dont on n’en a pas besoin. La figure 5.1
représente un premier aperçu de notre base de données importée depuis Excel
Vers Python, tandis que la figure 5.2 illustre la nouvelle base de donnée:
Figure 5.1: Base de données initiale
61
Figure 5.2: Nouvelle base de données
Dans cette partie, nous avons sélectionné les variables d’entrée et la variable à
prédire, on a également effectué la normalisation des données et la divison de
la BDD en base de donnée test et base de données d’entraı̂nement. En effet,
en Machine Learning, il ne faut jamais évaluer la performances d’un modèle
sur les mêmes données qui ont servi à son entraı̂nement. Car, si on entraı̂ne
un modèle avec des donnés d’entraı̂nement puis on évalue la performance de
modèle sur les mêmes données; l’algorithme va bien prédire la sortie puisqu’il
l’a déjà vu la sortie. En revanche, ce qui est plus intéressant c’est de tester
le modèle sur des données qu’il n’a jamais vu. Ainsi on aura une idée sur la
performance future. Pour cette raison, on divise notre échantillon en deux
parties: nous avons consacré 80% de notre échantillon pour l’entraı̂nement,
et les 20% restantes pour le test.
5.1.2 Mise en place des modèles de Machinr Learning

Maintenant que notre base de donnée est prête, on va l’entraı̂ner pour les
trois modèles de la régression.
Réseaux de neurones artificiels: Après avoir collecter et nettoyer les
données pour la prédiction du poids optimal des obligations, nous allons
maintenant construire notre modèle de réseaux de neurones artificiels. Pour
62
ce faire nous avons utiliser la librairie Keras de Python. Notre modèle de

RNA contient une couche d’entrée avec les 5 variables d’entrées qui sont la
quantité de l’obligation, la valeur du Nominal, la maturité, le taux facial et le
prix, cette couche contient 64 neurones avec une fonction d’activation ’relu’.
En effet, la fonction ReLU est souvent utilisée dans la couche d’entrée car
elle permet de gérer efficacement des valeurs d’entrée positives et d’ignorer
les valeurs négatives. Étant donné que la couche d’entrée reçoit généralement
des données brutes ou normalisées, la fonction ReLU peut aider à introduire
de la non-linéarité et à traiter efficacement les caractéristiques positives im-
portantes. Après la couche d’entrée, notre réseau de neurone contient deux
couches cachées: la première avec 32 neurones et la deuxième avec 16 neu-
rones, ces deux couches cachées sont utilisées avec la fonction d’activation
sigmoid. Le réseau de neurone se termine avec une couche de sortie contenant
la fonction d’activation sigmoid et un seul neurone qui représente la variable
à prédire qui est le poids pour notre cas. Nous avons choisi la sigmoid dans
les dernières couches car elle donne comme sortie une valeur compris entre 0
et 1 ce qui est parfaitement compatible avec notre prédiction. La figure 5.3
illustre la structure de notre modèle de réseaux de neurone.
Figure 5.3: Structure du RNA

Après avoir construit notre modèle de RNA, nous allons maintenant compiler
63
le modèle, pour ce faire nous devons déterminer le choix de la fonction coût

et le choix de l’optimiseur qui permet l’optimisation des poids des neurones
pour minimiser cette fonction perte. On a choisi comme fonction coût la
’MSE’ car elle pénalise davantage les grandes erreurs de prédiction. En
calculant la moyenne des carrés des différences entre les valeurs prédites et les
valeurs réelles, la MSE donne plus de poids aux erreurs importantes, ce qui
permet de mettre l’accent sur les prédictions moins précises et l’optimiseur
qu’on a opté pour effectuer la compilation est ’ADAM’ car il permet une
mise à jour plus adaptative et efficace des poids du réseau neuronal. De
plus, il intègre des mécanismes de moment pour accélérer la convergence et
l’optimisation du modèle. Ensuite, notre modèle est entraı̂né sur la base de
donnée entraı̂nement en donnant une valeur de 80 pour les epochs, c’est à
dire le nombre d’itération sur le tableau de données d’apprentissage,et une
valeur de 8 pour le ’batch-size’ c’est-à-dire le nombre d’échantillons qui se
propagent à travers la formation. Finalement, la performance du modèle est
évaluée à travers le calcul des métriques de perfomances introduites dans la
partie précédente. Ainsi, les résultats du modèle RNA sont résumés dans le
tableau de la figure 5.4:
Figure 5.4: Résultats du modèle RNA
Les résultats que nous avons obtenus pour le coefficient de détermination

(R²), l’erreur quadratique moyenne (MSE), le RMSE et le MAE semblent
indiquer que notre modèle est performant. En effet, La valeur de R² est
de 0.9071, ce qui indique que notre modèle explique environ 90.71% de
la variation des valeurs cibles, ce qui est considéré comme assez bon. La
valeur de MSE est de 0,000515349 ce qui est très proche de zéro. Cela
signifie que les prédictions de notre modèle sont en bonne adéquation avec
les valeurs réelles. Une valeur de MSE aussi faible suggère que le modèle
est capable de capturer les relations complexes entre les variables d’entrée
et la variable cible. La valeur de RMSE est de 0.0227013, ce qui indique
une bonne précision du modèle. La valeur de MAE est de 0,0051974 qui est
également faible, et cela indique également que les prédictions du modèles
64
sont proches de la valeur réelle. De plus , nous avons surveillé la convergence

du modèle en traçant la variation de la fonction perte en fonction de n’ombre
d’itérations .Le résultat est visualisé dans la figure 5.5:
Figure 5.5: Variation de la fonction côut en fonction de nombre d’itérations

On remarque que la fonction coût converge à partir des 10 premières
itérations ce qui explique que la performance de notre modèle est bonne.
Globalement, les métriques de performances et la visualisation de la conver-
gence suggèrent que le modèle des réseaux de neurones artificiels présente
une précision raisonnable dans la prédiction du poids des obligations.
Modèle de forêt aléatoire pour la régression: Nous allons constru-
ire un autre modèle en utilisant l’algorithme de forêt aléatoire pour la
régression, et on va interpréter ses résultats. Le principal hyperparamètre
à définir dans ce modèle est le nombre d’arbres de décision dans la forêt,
appelé ”nestimators ”. Cet hyperparamètre détermine combien d’arbres de
décision indépendants seront construits et utilisés pour la prédiction. Pour
notre cas, vu qu’on ne possède pas un grand nombre dans la base de
donnée nous avons choisi une valeur de 8 arbres de décision. Les résultats
de l’entraı̂nement de ce modèle sont visualisés dans le tableau de la figure 5.6:
65
Figure 5.6: Résultats du modèle RFR
Les résultats que nous avons obtenus pour le coefficient de détermination

(R²), l’erreur quadratique moyenne (MSE), le RMSE et le MAE semblent
indiquer que la performance de notre modèle est meilleure. En effet, La
valeur de R² est de 0.98,49, ce qui indique que notre modèle explique environ
98.49% de la variation des valeurs cibles. C’est une valeur très élevée, ce
qui suggère que le modèle est capable de prédire de manière très précise
les poids des obligations dans le portefeuille obligataire. La valeur de MSE
est de 7,81459e-05, ce qui est très proche de zéro. Cela signifie que les
prédictions de notre modèle sont en très bonne adéquation avec les valeurs
réelles. Une valeur de MSE aussi faible suggère que le modèle est capable
de capturer les relations complexes entre les variables d’entrée et la variable
cible. La valeur de RMSE est de 0.00884, ce qui est également très faible,
et une valeur faible indique une bonne précision du modèle. La valeur de
MAE est de 0,001935 ce qui est extrêmement faible, cela indique également
que les prédictions du modèles sont proches de la valeur réelle. De plus ,
nous avons surveillé la convergence du modèle en traçant la variation de la
fonction perte en fonction de nombre d”arbres de décision. Le résultat est
visualisé dans la figure 5.7 ci-dessous:
66
Figure 5.7: Variation de la fonction côut en fonction de nombre d’arbres de

décisions
On remarque que la fonction coût converge au fur et à mesure que le nombre
d’arbres de décision augmentent. Ce qui esplique une que notre modèle est
performant.
Modèle de Vecteur à Support pour la régression SVR: Pour entraı̂ner
le modèle SVR, il faut définir soigneusement ses hyperparamètres. Pour ce
faire, nous avons définit une grille de paramètres à tester lors de la recherche
des meilleurs hyperparamètres. Cette grille spécifie les différentes combi-
naisons d’hyperparamètres que le modèle va évaluer pour déterminer ceux
qui donnent les meilleures performances. Plus précisément, la grille est un
dictionnaire qui contient trois clés. La première clé c’est l’hyperparamètre de
régularisation ’C’, qui contrôle la pénalité appliquée aux erreurs du modèle.
Pour notre cas, la plage des variables que nous avons donné à cet hyper-
paramètre est [0.001, 0.01, 0.1, 1.0,10.0,100.0]. La deuxième clé représente
le noyau ’kernel’, cet hyperparamètre spécifie le type de noyau à utiliser
dans le modèle SVR. Dans notre cas, il y a deux options : ’linear’ pour
un noyau linéaire et ’rbf’ pour un noyau gaussien (RBF). Finalement la
dernière clé de la grille ’gamma’, elle représente l’hyperparamètre du noyau,
qui contrôle la flexibilité du modèle en ajustant l’influence de chaque exemple
d’entraı̂nement sur les prédictions.
Après avoir spécifier les une bande de valeur pour les hyperparamètres du
67
modèle, nous avons par la suite cherché le meilleur hyperparamètre en util-

isant une recherche sur la grille des valeurs introduites précédemment.
Les résultats des meilleurs paramètres sont illustrués dans la figure 5.8 ci-
dessous:
Figure 5.8: Les meilleures hypperparamètres pour le modèle SVR

Après avoir choisi les meilleures hyperparamètres pour le modèle SVR, nous
avons entraı̂né le modèle en utilisant ces valeurs et le résultat d’entraı̂nement
aboutit aux valeurs représentées dans le tableau suivant :
Figure 5.9: Résultats du modèle SVR

En résumé, les métriques de performance du modèle SVR indiquent qu’il
présente une performance raisonnable, mais ces résultats ne sont pas très
performantes. Il y a encore une certaine erreur dans les prédictions du
modèle, et le modèle n’explique qu’environ 76.24% de la variance globale
des données.
Pour séléctionner le meilleur modèle du Machine Learning, il est important
de comparer la performance des différents modèle entrainés. Le tableau de
la figure 5.10 résume les résultats des trois modèles de régression pour la
prédiction des poids des obligations dans le portefeuille obligataire.
68
Figure 5.10: Récapitulatif des résultats des modèles de régression
En conclusion, en se basant sur les métriques de performances, le modèle

du forêt aléatoire semble être le meilleur parmi les trois pour effectuer la
prédiction des poids des obligations. Il présente la plus faible erreur moyenne
(MSE, RMSE, MAE) et le plus haut coefficient de détermination (R²), ce qui
indique une meilleure précision et capacité d’explication des variations des
données par rapport aux autres modèles. De plus, le modèle Random Forest
(RFR) offre une capacité d’apprentissage non linéaire et une robustesse aux
valeurs aberrantes et au bruit ainsi qu’une capacité d’interprétation et de
robustesse aux problèmes de surajustement. Tous ces facteurs font du RFR
le meilleur choix pour effectuer la prédiction des poids des obligations dans
un portefeuille obligataire.
5.2 Prédiction des signaux d’achat ou de

vente d’une obligation
Afin de prédire les signaux d’achat et de vente des obligations par les modèles
de classification binaire, il nous faut également une base de donnée contenant
les variables d’entrée et une variable cible, comme pour le cas de la régression.
Nous avons simulé sous Excel une base de donnée contdenant quelques car-
actéristiques d’une obligation et son rendement historique sur une période
de 4 ans soit disant 1460 jours. On a considéré que si le rendement de cette
obligation au jour J+1 est supérieur à celui du jour J, on aura donc un signal
d’achat on l’a affecté par la valeur binaire ”1”, sinon on aura donc un signal
de vente affecté par la valeur de 0. Nous nous somme donc retouvés avec une
base de donnée contenant les caractéristiques des obligations(maturité,taux
facial, prix et rendement) ainsi que la valeur cible à prédire qui est le signal
d’achat ou de vente.
5.2.1 Pré-traitement des données et selection des vari-

ables
De même, dans cette étape, pour nettoyer notre base de données, on a éliminé
les valeurs manquantes et les colonnes dont on n’en a pas besoin. La figure
5.11 représente un premier aperçu de notre base de données importée depuis
Excel Vers Python, tandis que la figure 5.12 illustre la nouvelle base de
donnée:
69
Figure 5.11: Base de données initiale
Figure 5.12: La nouvelle base de données

Maintenant, nous allons visualiser la répartition des signaux d’achat et de
vente sous forme d’un diagramme circulaire, ce qui peut nous donner un
aperçu visuel de la distribution de ces deux classes dans nos données. La
figure 5.13 illustre cette répartition:
70
Figure 5.13: Répartition des signaux
Nous remarquons que notre base de données est équilibrée par rapport au
nombre total des observations. On a en effet 736 observations pour le signal
d’achat et 723 observations pour le signal de vente.
Ensuite, nous allons suivre la même démarche de la base de données des
modèles de régression. On va séléctionner les variables représentant la ma-
turité, le coupon ainsi que le rendement comme étant des variables d’entrée,
et la variable ’Signal’ comme étant la variable à prédire. Ensuite nous allons
divisier cette BDD en 80 % d’entraı̂nement et 20% pour le test.
5.2.2 Mise en place des modèles Machine Learning

Régression Logistique: Après avoir préparé notre base de données cette
phase sera consacrée à la création du modèle de la régression logistique. La
première métrique de performance qu’on va évaluer pour ce modèle c’est la
matrice de confusion. Une matrice de confusion est comme un résumé des
prédictions pour un problème de classification. Elle compare les données
réelles de la variable cible avec les données prédites par le modèle. La figure
5.14 ci-dessous nous montre la matrice de confusion que nous avons trouvée
pour le modèle de la régression logistique.
71
Figure 5.14: Matrice de confusion pour le modèle RL

Nous remarquons que 75 signaux d’obligations ont été correctement prédits
comme étant des signaux d’achat (True Positives) et 70 signaux d’obligations
réels d’achat ont été incorrectement prédits comme des signaux de vente
(False Negatives). Tandis que 75 signaux réels de vente ont été incorrecte-
ment prédits comme des signaux d’achat (False Positives), et finalement 72
signaux ont été correctement prédits comme étant des signaux de vente (True
Negatives). En utilisant ces chiffres, nous allons calculer d’autres métriques
de performance telles que la précision, le rappel (sensibilité), le taux de succès
(accuracy) et le taux d’erreur pour évaluer notre modèle. Le tableau de la
figure ci-dessous résume les résultats de ces différentes métriques pour le
modèle de la régression logistique:
Figure 5.15: Résultats du modèle Régression logistique

Pou ce modèle, le taux de succès est d’environ 50.34%, ce qui signifie que
le modèle prédit correctement un peu plus de la moitié des échantillons. Le
72
taux d’erreur est le complément du taux de succès, il est d’environ 49.7%, ce

qui indique que le modèle a une performance inférieure à 50% pour prédire
correctement les signaux d’achat ou de vente. Le rappel ou la sensibilité
mesure la capacité du modèle à identifier correctement les échantillons posi-
tifs (achats) parmi tous les échantillons réels positifs. Dans notre cas, le
rappel est d’environ 48.9%, ce qui suggère que le modèle peut manquer cer-
tains échantillons d’achat et les prédire comme des ventes. La précision
mesure la proportion d’échantillons réellement positifs (achats) parmi les
échantillons prédits comme positifs par le modèle. Dans votre cas, la précision
est d’environ 50.7%, ce qui indique que le modèle a une performance sim-
ilaire à un tirage aléatoire pour prédire correctement les signaux d’achat.
En résumé, les performances de notre modèle semblent être relativement
moyenne, avec des taux de succès, de rappel et de précision dépassant rela-
tivement 50%. Cela suggère que le modèle de régression logistique pourrait
ne pas être suffisamment performant pour prédire avec précision les signaux
d’achat ou de vente d’obligations.
Arbre de décision: Nous allons construire un autre modèle en utilisant
l’algorithme de l’arbre de décision, et nous allons interpréter ses résultats.
Les deux figures 5.16 et 5.17 représentent respecteusement la matrice de con-
fusion et le résultat des métriques de performance:
Figure 5.16: Matrice de confusion pour le modèle d’arbre de décision
73
Figure 5.17: Résultats du modèle Arbre de décision
En analysant la matrice de confusion, on trouve que Le modèle a prédit 113

signaux correctement comme étant des signaux d’achat (True Positives),
et il a prédit à tort 101 échantillons réels d’achat comme des signaux de
vente (False Negatives) et il a prédit également à tort 102 échantillons réels
de vente comme des signaux d’achat (False Positives).tandis qu’il a prédit
correctement 122 échantillons comme étant des signaux de vente (True
Negatives). Ainsi, on touve que le taux de succès est d’environ 53.7%, ce
qui indique que le modèle prédit correctement un peu plus de la moitié
des échantillons. Le taux d’erreur est d’environ 46.3%, ce qui indique que
le modèle a une performance légèrement supérieure à un tirage aléatoire
pour prédire correctement les signaux d’achat ou de vente. La sensibilité
est d’environ 54.5%, ce qui suggère que le modèle a une certaine capacité
à détecter les signaux d’achat. La précision est d’environ 54.7%, ce qui
indique que le modèle a une performance similaire à un tirage aléatoire
pour prédire correctement les signaux d’achat. Globalement les résultats du
modèle d’arbre de décision semblent être légèrement performantes mais elle
ne sont pas très améliorées.
Forêt aléatoire: Nous allons encore réaliser une modélisation en utilisant
l’algorithme de la Forêt aléatoire. Les deux figures 5.18 et 5.19 ci-dessous
représentent respecteusement la matrice de confusion et le résultat des
métriques de performance:
74
Figure 5.18: Matrice de confusion pour le modèle de forêt aléatoire
Figure 5.19: Résultats du modèle Forêt Aléatoire
La matrice de confusion pour ce modèle nous informe que le modèle a prédit

81 signaux correctement comme étant des signaux d’achat (True Positives),
et il a prédit à tort 64 échantillons réels d’achat comme des signaux de vente
(False Negatives) et 62 échantillons réels de vente comme des signaux d’achat
(False Positives), cependant, il a prédit correctement 85 échantillons comme
étant des signaux de vente (True Negatives). De ce fait, le taux de succès est
d’environ 60%, ce qui signifie que le modèle prédit correctement plus de la
moitié des échantillons. Le taux d’erreur est d’environ 40%, ce qui indique
que le modèle a une performance légèrement supérieure à un tirage aléatoire
pour prédire correctement les signaux d’achat ou de vente. Et finalement, la
précision est d’environ 61%, ce qui suggère que le modèle a une performance
légèrement bonne pour prédire les signaux d’achat.
75
Finalement, nous allons choisir le modèle le plus performant. La figure 5.20

ci-dessous représente un tableau qui résume les résultats obtenus des trois
modèles.
Figure 5.20: Récapitulatif des résultats relatifs aux modèles de régression
En considérant les performances des trois modèles, le modèle du forêt

aléatoire semble offrir les meilleures performances globales avec des valeurs
légèrement supérieures en termes de taux de succès, de rappel et de précision.
Bien que les performances des modèles ne soient pas parfaites, elles demeurent
satisfaisantes. Les modèles ont réussi à prédire correctement la direction de
plus de 50% des signaux d’achat et de vente, ce qui implique qu’une stratégie
de trading basée sur ces prédictions pourrait être rentable à long terme.
Conclusion
Dans ce chapitre, nous avons démontré les avantages des modèles de
régression et de classification en apprentissage automatique. Ces modèles
peuvent être bénéfiques dans la mesure où ils permettent de prédire la com-
position optimale d’un portefeuille obligataire et d’identifier les opportunités
de trading pour chaque obligation.
76
Conclusion
Dans ce mémoire, l’une des principales responsabilités dans le marché obli-

gataire était la gestion efficace du portefeuille obligataire. Ainsi, la Banque
Centrale Populaire a exprimé son souhait de mettre en place un système
de gestion obligataire basé sur l’apprentissage automatique (Machine Learn-
ing). L’objectif de ce mémoire était d’optimiser la composition du portefeuille
obligataire et d’identifier les opportunités de trading en utilisant des algo-
rithmes de Machine Learning. Pour atteindre cet objectif, nous avons suivi les
différentes étapes nécessaires à la réalisation d’un projet de Machine Learn-
ing. Premièrement, nous avons commencé par le pré-traitement des données
et l’élimination des variables discriminantes. Ensuite, nous avons entrainé
les trois modèles de régression pour la prédiction de la composition optimale
du portefeuille obligataire à savoir les Réseaux de neurones artificiels, les
fortêts aléatoires pour la régression et le vecteur à support de régression,
ainsi que les trois modèles de classification choisis pour l’identification des
signaux d’achats et de vente des obligations à savoir la Regression logistic,
Decision Tree et Random Forest sur la partie d’entrainement de la BDD.
Puis nous avons évalué ces modèles sur la partie test de la BDD en calculant
l’erreur quadratique moyenne, la racine de l’erreur quadratique moyenne,
l’erreur absolue moyenne et le coefficient de détermination pour les modèles
de régression et le taux de succès, le taux d’erreur, la sensibilité et la précision
pour les modèles de classification. Finalement, cette partie d’évaluation des
modèles de Machine Learning a montré la haute performance du modèle de
forêt aléatoire (RFC) dans l’identification des signaux d’achat et de vente
des obligations avec un taux de succès qui dépassent 55%. Ce même modèle
de forêt aléatoire a permi la bonne prédiction du poids optimaux des obliga-
tions dans les modèles de régression avec un coefficient de détermination R²
dépassant 98%.
Finalement, ce stage a été aussi une opportunité non seulement pour appren-
dre des nouvelles technologies, mais aussi pour découvrir l’environnement
du travail au sein d’une grande entreprise et traiter une thématique très
intéressante en relation avec l’analyse des données et la finance des marchés.
77
Bibliographie
[1] https://www.bkam.ma/
[2] https://www.ibm.com/cloud/learn/machine-learning
[3] https://www.jedha.co/formation-ia/arbre-de-decision-random-forest
[4] https://scikit-learn.org/stable/index.html
[5] https://www.soa.org/globalassets/assets/library/newsletters/risk-man-
agement-newsletter/2019/september/rm-2019-iss-45-fr-leiser-kerbeshian.pdf
[6] https://www.ammc.ma/
[7] https://www.math.univ-toulouse.fr/ pontier/statproc.pdf
78

Rapport El Kharmoudi Abir

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rapport El Kharmoudi Abir

Transféré par

Droits d'auteur :

Formats disponibles

Génie MIS Ecole Mohammedia d’Ingénieurs

Génie Modélisation et Informatique Scientifique

Mémoire de Projet de Fin d’Etudes

M. Chiadmi Salah EMI Président

Année Universitaire 2022-2023

À mes chers parents, Mourad et Soumia,

Avant de commencer l’exposition de notre travail, nous aimerions bien re-

La gestion obligataire joue un rôle crucial dans les stratégies d’investissement,

Mots clés : Marché obligataire -Salles des marchés- Algorithme - Machine

Bond portfolio management is of utmost importance in investment strate-

Keywords : Algorithm - Machine Learning - Classification - Regression-Bond

1 Cadre général de l’étude 13

2 Modélisation de la courbe des taux 19

3 Valorisation des emprunts obligataires 37

4 Outils et techniques du machine learning utilisés 48

4.4 Conception d’un modèle Machine Learning . . . . . . . . . . . 56

5 Etude et mise en place d’un système basé sur le Machine

1.1 Marché obligataire marocain . . . . . . . . . . . . . . . . . . . 16

2.1 La courbe des taux correspondante au 17/03/2022 . . . . . . 21

3.1 Ligne obligataire simple avec M et Mr ≤ 1 an . . . . . . . . . 38

3.8 Ligne obligataire simple avec M supérieur à 1 an et Mr inférieure

4.1 Structure d’un réseaux de neurone artificiel . . . . . . . . . . 51

5.1 Base de données initiale . . . . . . . . . . . . . . . . . . . . . 61

Le développement du portefeuille obligataire constitue un enjeu majeur dans

Enfin,le dernier chapitre,”Ètude et mise en place d’un système basé sur le

Cadre général de l’étude

1.1 Présentation de la salle des marchés de la

et aussi la création de Maroc Assistance Internationale, filiale stratégique

ces interventions sont le marché monétaire, le marché obligataire, le marché

1.2 Contexte général du projet

Il existe deux types de titres obligataires émise dans le marché obligataire

Figure 1.1: Marché obligataire marocain

- r= R+S: Taux sur la courbe secondaire Bond de trésor majoré du spread.

Pclean = Pdirty − Ccu

- k: Nombre entier égal à 365 ou 366.

Problématique et objectifs du projet

• Valoriser les emprunts obligataires;

• Concevoir des modèles du machine learning pour la construction du

Modélisation de la courbe des

La courbe des taux d’intérêt ou également courbe de rendement sans risque,

2.1 Calcul du taux d’intérêt

Et la formule pour calculer le taux actuariel est exprimée comme ainsi:

Où base: 365 ou 366 jours en fonction de l’année.

2.2 La courbe de taux BAM

des rendements des transactions des obligations du marché secondaire. Pour

Figure 2.1: La courbe des taux correspondante au 17/03/2022

La courbe des taux construite par la méthode de l’interpolation linéaire peut

de Bootstrapping. En effet, les taux actuariels sont calculés par la méthode

Figure 2.2: Les taux actuariels du 18/03/2019 par maturité annuelle

Pour les maturités de 13 semaines(91 jours), 26 semaines(182 jours) et 52

Or ∀i ≥ 1 CFi = rN avec r représente le taux actuariel. On sim-

Le taux zéro coupon vaut alors :

Le tableau de la figure 2.3 illustre le taux zéro coupon correspondant au

2.3 Modélisation des taux d’intérêts

dr(t) = µ(r, t)dt + σ(r, t)dB(t) (2.3)

C’est un processus gaussien de moyenne rm = b+(r(0)−b)e−at et de variance

On discrétise cette équation, on obtient:

Pour que l’hypothèse du processus auto-régressif d’ordre 1 soit vérifiée, il

de la série par le test de Dickey FULLER augmenté (ADF). On considère

Estimation des paramètres du modèle par l’approche du maximum

On trouve ainsi les estimations du maximum de vraisemblance:

Application du modèle aux données du marché marocain

du marché marocain en utilisant l’approche en séries chronologiques et la

Figure 2.4: TMPjj du marché monétaire interbancaire marocain entre 2008