Académique Documents
Professionnel Documents
Culture Documents
La dernière crise financière a mis en exergue la nécessité pour les sociétés de crédit de se
doter de modèles dynamiques et précis d’évaluation du risque de défaut de leurs clients. A
cet effet la quantification de la probabilité de défaut et sa prédiction constitue , un jalon
incontournable des activités de gestion du risque. Dans ce cadre, le présent projet propose
des modèles statistiques qui ont pour but la prédiction du défaut et la détermination des
variables qui contribuent à la survenance évènement . Ceci, tout en mettant en relief la
pertinence de ces modèles à travers leur propension à prédire et à capter la dynamique du
défaut et en apportant des évidences empiriques et des analyses concernant les pratiques
de la société en étude.
En vertu des prédictions et de la norme de l’IFRS 9, on a réduit la provision de l’orga-
nisme avec un pourcentage d’environs 5%.
1
Abstract :
The last financial crisis has highlighted the need for credit companies to have dynamic
and accurate models to assess the risk of default of their customers. To this end, the
quantification of the probability of default and its prediction is an essential step in risk
management activities. In this context, the present project proposes statistical models
that aim at predicting default and determining the variables that contribute to the occur-
rence of the event. This, while highlighting the relevance of these models through their
propensity to predict and capture the dynamics of default and providing empirical evi-
dence and analysis on the practices of the company under study. Based on the predictions
and the IFRS9 standard, the organization’s provision was reduced by approximately 5%.
Keywords : Default risk ,Logistic regression, Support vector machine ,Neural network,
IFRS 9 .
2
Dedicace :
À ma chère maman
Aucune dédicace ne pourrait exprimer la profondeur de mes sentiments. Sans vos prières,votre
bénédiction et patience, je ne saurai guerre arriver là où je suis. Puisse Dieu, tout puissant
vous combler de santé, de bonheur et vous procurer une longue vie. Ce travail est le fruit
de tous les sacrifices que vous avez déployés pour mon éducation et ma formation. Je
t’aime maman.
3
Dedicace :
À ma chère maman
Autant de phrases aussi expressives soient-elles ne sauraient montrer le degré d’amour
que j’éprouve pour toi.Tu as toujours été présente à mes cotés pour me consoler quand il
fallait. En ce jour mémorable, pour moi ainsi que pour toi, reçoit ce travail en signe de
ma vive reconnaissance et mon profond estime. Puisse le tout puissant te donner santé,
bonheur et longue vie afin que je puisse te combler à mon tour.
4
Remerciements :
Tout d’abord nous tenons à exprimer nos remerciements à notre encadrant interne M.
OUAZZA AHMED, pour nous avoir guidé par ses conseils et ses consignes et pour avoir
été présent durant cette période de stage.
Nous tenons à remercier vivement notre encadrant externe M. AZHOUM CHAKIR pour
nous avoir épaulé et guidé durant toute la période passée à SOFAC.
Nous remercions également le corps professoral de l’INSEA, pour leurs efforts et leur
contribution dans l’épanouissement de l’institut.
Enfin, nous tenons à remercier toute personne ayant contribué de près ou de loin au bon
déroulement de notre Projet de fin d’étude.
5
Table des matières
1 contexte général 14
1.1 Définitions et Généralités : . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1 Introduction : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.2 Définition du risque de crédit : . . . . . . . . . . . . . . . . . . . . 15
1.2 Les dépréciations des risques de crédit sous la norme IFRS 9 : . . . . . . 17
6
3 Modélisation du risque de défaut - Cadre pratique 37
3.1 Présentation du cadre du travail : . . . . . . . . . . . . . . . . . . . . . . 38
3.1.1 Analyse de la base de données : . . . . . . . . . . . . . . . . . . 38
3.1.2 Résumé de statistique descriptive : . . . . . . . . . . . . . . . . . 40
3.2 Traitement des valeurs aberrantes : . . . . . . . . . . . . . . . . . . . . . 43
3.3 Traitement des valeurs manquantes : . . . . . . . . . . . . . . . . . . . . 44
3.4 Échantillonnage : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5 Régression logistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.1 Construction du modèle : . . . . . . . . . . . . . . . . . . . . . . 49
3.6 Support à vaste marge : . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.6.1 Élaboration du modèle des anciens clients : . . . . . . . . . . . . . 57
3.6.2 Élaboration du modèle des nouveaux clients : . . . . . . . . . . . 59
3.7 Réseaux de neurones artificielles : . . . . . . . . . . . . . . . . . . . . . . 61
3.7.1 Élaboration du modèle des anciens clients : . . . . . . . . . . . . . 61
3.7.2 Élaboration du modèle des nouveaux clients : . . . . . . . . . . . 62
3.8 Choix du meilleur modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . 63
7
Liste des abréviations :
8
Liste des tableaux
9
Table des figures
10
3.20 Accuracy du modèle SVM sur la base des anciens clients. . . . . . . . . . 58
3.21 Matrice de confusion du modèle SVM sur la base des anciens clients. . . 58
3.22 Matrice de confusion du modèle SVM sur la base des anciens clients . . . 59
3.23 Matrice de confusion du modèle SVM sur la base des anciens clients avec
les hyper-paramètres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.24 Matrice de confusion sur la base des NV_clients avec les hyper-paramètres. 61
3.25 Réseau de neurones -Anciens clients-. . . . . . . . . . . . . . . . . . . . . 62
3.26 Matrice de confusion ‘du RN pour le modèle des anciens clients . . . . . . 62
3.27 Matrice de confusion du RN pour les nouveaux clients. . . . . . . . . . . 63
11
Introduction :
12
informationnelle . On peut citer : l’auto-sélection des risques, les collatéraux ou les ga-
ranties de prêts et le scoring bancaire. Diverses variables tant d’ordre qualitatifs que
quantitatifs, sont utilisées pour spécifier les probabilités de défaut des emprunteurs.
Parallèlement, l’évolution de la conjoncture économique met en exergue réguliè-
rement les failles du système existant et nous exhorte à une correction des politiques
adaptées, on définit ainsi des pratiques et des modèles internes d’évaluation du risque au
vu de la nature particulière des clients. De cette manière, la diversité des pratiques su-
jettes aux aléas du cycle économique impose une certaine révision continuelle des modèles
existants. Cet exercice, qui d’une part améliore les pratiques de la société en question en
matière de gestion de risque, favorise d’autre part un certain appariement entre le risque
quantifié et le risque réel que représente le client. Par ailleurs, il permet de dégager les
paramètres qui identifient le risque qu’encourt l’entreprise et une modélisation efficiente
des composantes du risque de défaut.
L’objectif principal de ce stage consiste donc à tester les pratiques de la SOFAC
en termes d’analyse des différents risques des prêts octroyés, en estimant des modèles
statistiques en vue de prédire la défaillance de ses clients. Pour ce faire, certaines don-
nées rendues disponibles par cet organisme seront utilisées afin de déterminer quelles sont
les variables significatives dans la prédiction du défaut. De plus, on s’appuiera sur des
méthodes de classification dont le but est principalement d’identifier la classe au quelle
appartient un client potentiel.
Pour une analyse fine et subtile on va établir en premier lieu un cadre conceptuel,
au niveau duquel on va détailler les concepts qu’on va utiliser le long de notre rapport.
En second lieu on va élaborer un cadre théorique qui fait appel aux modèles déployés. En
troisième lieu on va entamer la préparation des données qui constitue l’étape crucial de
notre étude, ainsi que la pratique des modèles détaillés auparavant. Finalement le dernier
chapitre aura pour objectif de réduire les provisions de la SOFAC tout en respectant la
norme IFRS 9.
13
Chapitre 1
contexte général
14
1.1 Définitions et Généralités :
1.1.1 Introduction :
Toute institution financière, dans l’exercice de ses fonctions est sujette à des risques
financiers qui nécessitent un mécanisme de gestion interne.
On distingue cinq principaux types :
— Le risque de crédit : est le plus important et celui auquel sont confrontés tous
les établissements de crédit de nos jours, il peut être géré s’il est bien mesuré d’où
l’intérêt de développer un mécanisme de gestion interne de ce type de risque. Dans
ce qui suit, on va nous intéresser uniquement au risque de crédit.
15
importants sont le risque de liquidité, le risque de transaction et le risque de marché.
Nous allons ici, mettre en avant le risque de crédit au détriment des autres, car c’est celui
que nous visons à réduire à travers notre modèle.
16
client rentre en défaut à cause d’un crédit, il contamine tous les autres crédits qu’il pos-
sède. Selon la BIS, si le contrat (un ou plusieurs) d’un client atteint plus de 90 jours
d’impayés et que le montant dû (sur l’ensemble des contrats ayant atteint 90 jours d’im-
payés) est au-delà d’un certain seuil de matérialité, alors le client est considéré en défaut.
La contagion est appliquée au niveau du client (tous ses crédits entrent en défaut).
17
Chapitre 2
Modélisation du risque de défaut - Cadre
théorique
Cette section retrace les modèles mis à contribution dans le présent travail, les hypothèses
posées pour faire l’inférence statistique et les différentes procédures et mesures utilisées
pour valider la spécification finale des modèles et tester leurs performances.
En ce qui a trait à la modélisation de la probabilité de défaut , plusieurs techniques ont
fait d’importants avancements. Pour ce faire les méthodes utilisées pour la classification
sont nombreuses, citons : La régression logistique, la méthode des Séparateurs à Vastes
Marges (SVM) et les Réseaux de Neurones.
Nous présentons dans la suite de ce chapitre une étude détaillée des trois techniques citées
au dessus.
18
2.1 Régression Logistique Binaire - Principe et esti-
mation :
En apprentissage supervisé, l’objectif est de prédire et/ou expliquer une variable catégo-
rielle Y à partir d’une collection de descripteurs X = (X1 , X2 , ..., XJ ).
Il s’agit en quelque sorte de mettre en évidence l’existence d’une liaison fonctionnelle
sous-jacente entre ces descripeteurs de la forme :
Y = f (X, α) (2.1)
exp(β0 + β1 X1 + ... + βJ XJ )
θ= (2.3)
(1 + exp β0 + β1 X1 + ... + βJ XJ )
tel que β0 est la constante du modèle , les βj sont les coefficients des variables indépen-
dantes, et j le nombre des variables indépendantes.
θ(x)
Logit(θ(x)) = log( ) = β0 + β1 X1 + ... + βJ XJ (2.4)
1 − θ(x)
19
A propos de la fonction de transformation :
20
probabilités sans jamais introduire des hypothèses sur les distributions. En effet, lors du
traitement d’un problème réel, il faudrait en toute rigueur s’assurer de la crédibilité des
hypothèses avant de pouvoir mettre en œuvre la technique. On se rend compte que les
méthodes paramétriques sont souvent robustes.
Elles restent opérationnelles même lorsque l’on s’écarte assez fortement des hypothèses
qui les sous-tendent. L’idée la plus importante à retenir finalement est que les hypothèses
pèsent sur la forme de la frontière induite pour distinguer les classes dans l’espace de
représentation.
La régression logistique par conséquent produit un séparateur linéaire.
Le véritable enjeu réside donc dans l’estimation du rapport de probabilité θ(x)
1−θ(x)
. La ré-
gression logistique introduit une et une seule hypothèse fondamentale schématisée dans
l’équation (2.4).
Cette hypothèse couvre une large palette de lois de distribution des données :
-La loi normale (comme pour l’analyse discriminante) ;
-Les lois exponentielles ;
-Les lois discrètes ;
-Les lois Beta, les lois Gamma et les lois de Poisson ;
Contrairement à l’Analyse Discriminante Linéaire, que l’on qualifie de méthode para-
métrique car on émet une hypothèse sur les distributions respectives de θ et 1 − θ, la
régression logistique est une méthode semi-paramétrique car l’hypothèse porte unique-
ment sur le rapport de ces probabilités. Elle est moins restrictive et son champs d’action
est donc théoriquement plus large.
21
-Moins il y aura de variables, plus facile sera l’interprétation : En évacuant les
descripteurs qui ne sont pas nécessaires à l’explication de la variable dépendante, nous
pouvons plus facilement cerner le rôle de celles qui sont retenues.
-Le déploiement sera facilité. Lorsque le modèle sera mis en production, on a toujours
intérêt à poser peu de questions pour identifier la classe d’appartenance d’un individu.
-Un modèle avec peu de variables a de meilleures chances d’être plus ro-
buste en généralisation. En effet, lorsque le nombre de paramètres du modèle est trop
élevé, le sur-apprentissage nous guette. Le classiffieur "colle" trop aux données et, au
lieu d’intégrer les informations essentielles qui se rapportent à la population, il ingère les
particularités de l’échantillon d’apprentissage.On pense généralement qu’il faut respecter
un certain ratio entre le nombre de paramètres à estimer et la taille de l’échantillon.À
titre indicatif, nous citerons la règle empirique suivante :
min(n+ , n− )
J +1≤ (2.5)
10
les méthodes de sélection se rejoignent sur le mode d’exploration de l’espace des solutions.
ce sont des procédures pas-à-pas qui évaluent une succession de modèles emboîtés :
La selection FORWARD :
Part du modèle trivial, puis rajoute une à une les variables explicatives jusqu’à ce
que l’on déclenche la règle d’arrêt.Le processus s’arrête soit quand il n’y a plus de variable
à ajouter, soit quand un certain critère est n’est plus satisfait.
La selection BACKWARD :
Part du modèle complet, incluant la totalité des descripteurs, puis enlève une à
une les variables non significatives.Une fois la variable supprimée, il est impossible de la
réintégrer.
La selection STEPWISE :
Elle alterne forward et backward, elle consiste à vérifier si chaque ajout de variable
ne provoque pas le retrait d’une variable explicative qui aurait été intégrée précédem-
ment.Ces méthodes permettent de pallier au problème de l’irrévocabilité de la suppression
ou de l’ajout d’une variable, problème présent dans les deux autres méthodes.
22
2.1.3 Tests de significativité globale et des coefficients :
La validation d’un modèle est indissociable de tout processus d’estimation. C’est une
étape cruciale dans l’élaboration de tout modèle de prédiction. À cet effet, diverses pro-
cédures et métriques qui permettent de valider un modèle sont utilisées dans la littérature.
LR = DO − DM (2.6)
Elle suit une loi du χ2 , reste à déterminer les degrés de liberté. Les degrés de liberté des
modèles à opposer s’écrivent :
ddl0 = n − (K − 1) (2.8)
Nous pouvons aussi décider via la p-value. Si elle est plus petite que α , le modèle est
globalement significatif.
Le test de Wald :
L’objectif de ce test de significativité est d’éprouver le rôle d’une, de plusieurs, de
l’ensemble, des variables explicatives. Formellement, les hypothèses nulles peuvent se dé-
cliner comme suit :
H0 :β1 = β2 = ... = βJ = 0
23
Il s’agit d’une évaluation globale de la régression. En effet, si l’hypothèse nulle est compa-
tible avec les données, cela signifie qu’aucun des descripteurs ne contribue à l’explication
de la variable dépendante. Le modèle peut être jeté aux orties. Dans tous les cas, l’hypo-
thèse alternative correspond à : "un des coefficients au moins est non-nul".
R2 de McFadden :
Notons LLM la vraisemblance du modèle étudié, le R2 de McFadden est défini de
la même manière que pour la régression binaire, à savoir
LLm
2
RM F = 1− (2.11)
LL0
On suggère que le RM
2
F est le plus adapté à la régression logistique : il est le plus proche
La matrice de confusion :
La matrice de confusion confronte toujours les valeurs observées de la variable dé-
pendante avec celles qui sont prédites, puis comptabilise les bonnes et les mauvaises
prédictions. Son intérêt est qu’elle permet à la fois d’appréhender la quantité de l’erreur
(le taux d’erreur) et de rendre compte de la structure de l’erreur (la manière de se tromper
du modèle).
Y×Ỹ +̃ −̃ Total
+ a b a+b
- c d c+d
Total a+c b+d n=a+b+c+d
24
-a sont les vrais positifs c.-à-d. les observations qui ont été classées positives et qui le sont
réellement.
-c sont les faux positifs c.-à-d. les individus classés positifs et qui sont réalité des négatifs.
-Le taux d’erreur est égal au nombre de mauvais classement rapporté à l’effectif total
c.-à-d.
b+c a+d
ϵ= =1− (2.12)
n n
Il estime la probabilité de mauvais classement du modèle.
a+d
θ= =1−ϵ (2.13)
n
a
Se = Sensibilité = T V P = (2.14)
a+b
-La précision indique la proportion des vrais positifs parmi les individus qui ont été classés
positifs
a
P récision = (2.15)
a+c
Elle estime la probabilité d’un individu d’être réellement positif lorsque le modèle le classe
comme tel. Dans certains domaines, on parle de valeur prédictive positive (VPP).
d
Sp = Spécif icité = (2.16)
d+c
Test de Hosmer-Lemeshow
Il est basé sur un regroupement des probabilités prédites par le modèle. On calcule,
pour chacun des groupes, le nombre observé de réponses positives y=1 et de réponses
négatives y = 0, que l’on compare au nombre espéré prédit par le modèle. Une distance
25
entre les fréquences observées et prédites au moyen d’une statistique de χ2 est alors
calculée.Concrètement, nous procédons de la manière suivante :
1. Appliquer le classifieur sur les données pour obtenir les estimations θ̃(ω) ;
X (mg1 − m̂g1 )2
C
b= (2.17)
m̂g1 (1 − π̄g1 )
L’approximation de la loi de distribution de la statistique du test sous H0 est de meilleure
qualité. Ceci dit que lorsque la probabilité critique du test (p-value) est plus grande que
le risque choisi, le modèle issu de la régression logistique est accepté.
26
Figure 2.2 – Courbe ROC - Deux situations extrêmes.
27
Au final, il apparaît que le critère AUC est un résumé très commode. Il permet,
entre autres, les comparaisons rapides entre les classifieurs, Mais il est évident que si l’on
souhaite analyser finement leur comportement, rien ne vaut la courbe ROC.
n
X
h(x) = ⟨w, x⟩ + b = w i xi + b (2.18)
i=1
28
composantes des vecteurs contenant les données. Notons que l’opérateur ⟨ ⟩ désigne le
produit scalaire usuel dans Rn . w et b sont les paramètres à estimer de la fonction de
décision h(x).
Pour décider à quelle catégorie un exemple estimé x ′ appartient, il suffit de prendre le
signe de la fonction de décision : y = sign(h(x ′ )). la fonction sign() est appelée classifieur.
Géométriquement (figure 2.3), cela revient à considérer un hyperplan qui est le lieu des
points x satisfaisant ⟨w, x⟩ + b = 0.
En orientant l’hyperplan, la règle de décision correspond à observer de quel coté de
l’hyperplan se trouve l’exemple x ′ .
On voit que le vecteur w définit la pente de l’hyperplan (w est perpenduclaire à
l’hyperplan). Le terme b quant à lui permet de translater l’hyperplan parallèlement à
lui-même.
L’objectif de la discrimination linéaire est de trouver la bonne fonction de décision h(x).La
classe de tous les hyperplans qui en découle sera notée H.
29
la marge. La marge géométrique représente la distance euclidienne prise perpendiculaire-
ment entre l’hyperplan et l’exemple xi . En prenant un point quelconque xp se trouvant
sur l’hyperplan, la marge géométrique peut s’exprimer par :
w
∗ (xi − xp ) (2.19)
||w||
||xi − xj ||2
K(xi , xj ) = exp(− ) (2.22)
2σ
30
Le paramètre σ permet de régler la largeur de la gaussienne. En prenant un σ grand, la
similarité d’un exemple par rapport à ceux qui l’entourent sera assez élevée, alors qu’on
prenant un σ tendant vers 0, l’exemple ne sera similaire à aucun autre.
— Les exemples de test sont comparés juste avec les supports vecteur et non pas avec
tout les exemples d’apprentissage.
Inconvénients :
— Temps de calcul élevé lors d’une régularisation des paramètres de la fonction noyau.
31
Figure 2.4 – Schéma de la structure d’un réseau artificiel de type "feed-forward"
T
zm = α0m + αm h, m = 1....M (2.24)
32
Avec : h = [hj1 , hj2 , ..., hJ ] et αm = [αm1 , αm2 , ..., αmJ ] est le vecteur de poids pour la
couche de sortie. La sortie est ensuite à nouveau transformée par une fonction d’activation.
La fonction d’activation (ou fonction de seuillage, ou encore fonction de transfert) sert à
introduire une non-linéarité dans le fonctionnement du neurone. Les fonctions de transfert
sont nombreuses, on cite :
4. La fonction Relu La fonction Rectified Linear Unit (RELU) est la fonction d’ac-
tivation la plus simple et la plus utilisée.Elle donne x si x est supérieur à 0, 0 sinon.
Autrement dit, c’est le maximum entre x et 0.
1
fm (x) = ρm (h) = , m = 1...M (2.25)
1 + exp(hm )
ou ρ(.) est la fonction sigmoïde. Il est à noter aussi que cette méthode suppose la norma-
lisation des variables.
33
tropie en classification :
n
X n X
X M
Q(w, α) = Qi = − yi logfm (xi ) (2.26)
i=1 i=1 m=1
Différents algorithmes d’optimisation sont proposés, ils sont généralement basés sur une
évaluation du gradient par rétro-propagation. La minimisation de Q(w, α) se fait par op-
timisation numérique à l’aide de l’algorithme de rétro-propagation qui dévalue la dérivée
de cette fonction coût en une observation et par rapport aux différents paramètres.
∂Qi −yim ′
= ρ (wT hi )hji (2.27)
∂wmj ρm (xi ) m m
M
∂Qi X yim ′
=− T
ρm (wm hi )wmj ϕ′ (αjT xi )xil (2.28)
∂αjl m=1
ρ m (hi )
Compte tenu de ces dérivées, uneise à jour par descente de gradient à la la (n+1)ème
itération a la forme suivante :
n
(n+1)
X ∂Qi
wjm = wjm − η (n)
(2.29)
i=1 ∂wmj
(n+1) ∂Qi
αjl = αjl − η (n)
(2.30)
∂αjl
où η est le taux d’apprentissage qui joue un rôle important pour l’algorithme de descente
de gradient. Un petit taux d’apprentissage ralentit la convergence et un grand taux d’ap-
prentissage pourrait ne pas converger complètement.
Au début, l’algorithme utilise un taux d’apprentissage élevé pour accélérer la convergence
mais dès que l’algorithme se rapproche d’une valeur optimale pour les vecteurs de poids,
le taux d’apprentissage diminue.
L’algorithme ADAM incorpore ces taux d’apprentissage adaptatifs et garde la trace à la
fois des gradients passés et des gradients quadratiques passés. learning_rate : Ce para-
mètre devrait être une politique de mise à jour, ou un optimiseur.
34
— Apprentissage automatique des poids.
Inconvénients :
35
Conclusion
Dans cette partie, nous avons mis le point sur le cadre théorique et les paramètres utilisés
dans nos modèles statistique, afin de savoir le fond théorique de ce qu’on fait .
36
Chapitre 3
Modélisation du risque de défaut - Cadre
pratique
Dans cette partie nous allons procéder à la préparation des données ainsi que la modéli-
sation du risque de défaut. En effet le pré-traitement des données est une étape cruciale
dans toute analyse en vue de vérifier avec soin toutes les variables et de déceler d’éven-
tuelles erreurs. L’objectif est d’éliminer les données de mauvaise qualité (redondantes,
incomplètes ou incorrectes) et de commencer à créer les données qui peuvent garantir un
environnement sain pour mener une modélisation tangible.
Nous formerons ensuite aux méthodes d’apprentissage automatique dans le contexte spé-
cifique de la modélisation du risque de crédit. Nous mettrons en exergue les commandes
de mise en oeuvre des méthodes évoquées précédemment puis nous étudierons leurs per-
formances.
37
3.1 Présentation du cadre du travail :
Dans le présent travail, les modèles en étude sont des modèles à variables dépen-
dantes dichotomiques. L’entreprise pour laquelle nous devons construire un modèle en
mesure de prédire la probabilité de défaut de ses clients, est une entreprise marocaine
spécialisée dans les solutions de crédits, qui a pour vocation de donner des produits de cré-
dits classiques.On est alors amené à réaliser des modèles statistiques qui vont permettre
la prévention du risque crédit inhérent à son activité.
38
3.1.1.2 Compréhension des variables :
La base de données sujette de notre étude contient des informations sur 32381 clients
relatives à 46 variables. Il est important de comprendre la signification de chacune de ces
variables. En revanche par faute d’espace on n’explicitera que certaines, les informations
en plus constitueront nos annexes.
39
• L’arriéré du débiteur sur un crédit important dû au groupe bancaire dépasse 90
jours. »
Ainsi dans notre étude, on définit le critère de défaut conformément aux normes de Bâle
II :
Ainsi, des 55860 observations retenues (pour lesquelles suffisamment de données étaient
disponibles), 2849 sont reconnues comme étant en défaut, représentant ainsi 5,1% des
affaires de l’échantillon.
40
41
Figure 3.1 – Description des variables qualitatives .
42
Figure 3.2 – Description des variables quantitatives.
43
3.3 Traitement des valeurs manquantes :
En statistique on parle de valeurs manquantes lorsqu’on n’a pas d’observations pour
une variables donnée pour un individu donnée.
Les données manquantes ne peuvent pas être ignorée lors d’une analyse statistique,
mais selon leur proportion et leur type, des solutions différentes peuvent être mise en
oeuvre.
C’est tentant de se débarrasser tout simplement des individus ayant des valeurs man-
quantes mais au même temps on supprime une quantité très importante d’information,
donc pour y remédier, le traitement des valeurs manquantes se fait par le biais des mé-
thodes d’imputation qui consiste à remplacer cette valeur manquante au lieu de la sup-
primer.
Il existe diverses méthodes d’imputation :
• Imputation par le plus proche voisin : Dans ce cas, il faut élaborer une sorte
de critère pour déterminer l’unité répondante qui ressemble le plus à l’unité ayant
la valeur manquante, conformément aux caractéristiques prédéterminées. L’unité la
plus proche de la valeur manquante est alors utilisée comme donneur. Il s’agit en
fait d’établir une fonction distance à partir de laquelle on déduit les non réponses.
44
Figure 3.3 – Valeurs manquantes.
45
La figures ci-dessus (3.4) montre que les pourcentages élevés (≈ 65%) des valeurs
manquantes existent au niveau des variables non renseignées pour les nouveaux clients,
seuls les anciens clients y répondent. Ceci dit qu’on est amené à subdiviser notre base
originale en deux bases ; une concerne les nouveaux clients et l’autre concerne les anciens,
et de procéder à leur traitement séparément.
Traitement de la base des anciens clients :
Dans cette base, on a 11087 observations et 42 variables. les variables supprimées
ont juste servit au calcul de la variable (SOLDE_BANCAIRE_MOYEN), donc on les a
supprimées.
Au niveau de cette base de donnes on n’a que 7 variables qui contiennent des données
manquantes. Pour plus de précision on va les traiter individuellement.
ces variables sont :
Figure 3.5 – Pourcentages des valeurs manquantes de la base des anciens clients
D’après (figure 3.5) on remarque que certaines variables présentent un faible pourcentage
de données manquantes, ceci dit qu’on se contentera de supprimer les affaires correspon-
dantes. Néanmoins, en ce qui concerne les variables présentant un pourcentage quand
46
bien même significatifs, on va les traiter indépendamment. Il est à savoir que les règles
qu’on a utilisées pour imputer les données manquantes, sont propres à l’organisme en
question et prennent en compte la classe socio-professionnelle des clients.
M EN SU ALIT E
T X_EN DET = (3.1)
(CREDIT _M 1 + CREDIT _M 2 + CREDIT _M 3)/3
47
pas les considérer dans l’étape de la modélisation.
Les autres variables restantes seront traitées identiquement à la méthodologie explicites
auparavant.
3.4 Échantillonnage :
Après traitement de la base de données et codification des variables, on a procédé
à la construction de l’échantillon d’apprentissage et de l’échantillon test. La construction
des échantillons a été effectuée par subdivision de la base mère en deux sous bases de
données. L’échantillon d’apprentissage constitue 80% de la base mère, c’est l’échantillon
sur lequel on va construire nos modèles.
L’échantillon test représente 20% de la base mère et a pour fin de fournir une évaluation
impartiale d’un ajustement final des modèles sur le jeu de données d’apprentissage et de
tester sa stabilité et sa robustesse.
Avant d’entamer la construction du modèle sur l’échantillon d’apprentissage, nous
avons jugé bon de connaître le taux de défaillance de celui-ci.
48
On dispose ci-dessous (Table 3.2 )des proportions de la variable défaut au sein de notre
base de données :
Modalités Pourcentages
Non-Défaut 94,9%
Défaut 5,1%
Quand les déséquilibres de classes s’invitent parfois dans l’échantillon, les modèles
ne fonctionnent pas correctement. Du point de vue technique, la notion de “déséquilibre
de classe” est très importante en apprentissage automatique , et en particulier pour les
modèles de type “supervisés” qui impliquent deux classes.
Il existe plusieurs méthodes pour pallier à un déséquilibre des classes dans un jeu de
données :
Sous-échantillonnage (Downsampling) : Downsampling lorsque l’on dispose d’un
très grand nombre d’observations (à minima > 10K). Il s’agit ici simplement de reti-
rer aléatoirement des instances de la classe majoritaire afin de ré-équilibrer les propor-
tions.Toutefois cette technique peut accroître la variance du classifieur et peut éven-
tuellement éliminer de l’échantillon des observations utiles ou importantes, On perd par
conséquent de l’information,il y’a donc risque d’underfitting.
Sur-échantillonnage (Upsampling) : Upsampling il s’agit ici de dupliquer aléatoire-
ment certaines instances des classes minoritaires, rendant ainsi leur signal plus puissant.
Il y a toutefois ici un risque d’overffiting.
49
ainsi que celle des nouveaux , ensuite on va devoir, pour la suite de la modélisation,
repartir nos bases de données, en bases d’apprentissage et de test.
Il est à noter qu’avant d’entamer la régression logistique, il est primordial d’étudier
la corrélation entre nos prédicteurs. On remarque que la majorité des variables ne sont
pas corrélées entre elles. Cela ne veut pas dire qu’on va exclure les variables corrélées , à
l’inverse on va les introduire et voir à leur tour, leurs contributions dans le modèle.
50
Figure 3.8 – Sortie de la sélection stepwise du modèle avec les variables carré .
51
Figure 3.10 – Tests de significativité -Anciens clients-
Les deux test sont siginificatives au seuil de 5%. On rejette donc l’hypothèse nulle et on
conclut que les variables sont globalement siginificatives.
Interprétations des coefficients du modèle :
Le modèle peut donc s’écrire de la sorte :
Dans Les résultats (figure 3.8), la variable montant demandé a un coefficient posi-
tive,c’est à dire que cette variable évolue dans le même sens que la probabilité de l’évè-
nement ; cela veut dire que plus le montant demandé augmente, plus la probabilité de
faire défaut augmente. En effet lorsque les montants sont grands, il ne peut s’ensuivre
que des risques de faillite importants puisque le client devient plus susceptible de ne pas
être capable de rembourser son crédit.
De même pour la classe socio-professionnelle des clients c’est bien naturellement de
trouver que chez les professionnels, le risque de défaut est plus présent, tout simplement
car ils mènent des activités non sûre où le risque de tout perdre est ubiquiste.
D’autre part les variables contribuant de manière à ce que la probabilité de défaut di-
minue sont le REVENU_CLEINT , TAUX_ENDETTEMENT, ANCIENNETE_ACTIVITE.
Pour la variable revenu_client, plus le client détient un revenu important plus il
n’est pas exposé au risque de défaut et il sera en mesure d’honorer ses engagements envers
la SOFAC.
De la même logique on interprète le coefficient de la variable ANCIENNETE_ACTIVITE.
Plus un client est ancien auprès de son travail, plus il aura tendance à toucher un salaire
bien plus important et donc il réglera ses traites.
Par rapport à la variable taux d’endettement, plus elle augmente plus les charges
du client excède son revenu qui est censé couvrir à la fois ses charges personnelle en plus
des charge relatives à l’entreprise préteur.
52
Validation du modèle :
Courbe de ROC :
Nous avons 80,18% de chances de placer un positif devant un négatif en "scorant" avec
notre modèle à comparer avec les 50% de la situation de référence. Ce résultat est plu-
tôt encourageant. On pouvait facilement le deviner d’ailleurs en observant le graphique
(Figure 3.11). La courbe s’écarte sensiblement de la première bissectrice.
Matrice de confusion :
La matrice de confusion montre qu’on à un taux de bon classement de 72.6%. En
effet on a 3170 observations qui sont prédites correctement, soit un taux d’erreur de 27%.
53
Test de Hosmer-lemeshow :
La p-value du test est supérieur à 0.05, on accepte donc l’hypothèse nulle qui précise
qu’on a un ajustement bon.
Figure 3.13 – Test de Hossmer lemeshow sur la base des anciens clients.
Figure 3.14 – Sortie de la sélection stepwise sur la base des nouveaux clients .
Significativité du modèle :
R2 de Mc fadden :
Dans notre cas, avec RM
2
F = 0.2309, il semble que notre modèle est bon et se dé-
54
marque du modèle trivial. On ne saurait pas dire en revanche si l’apport est significatif
ou non, nous en saurons d’avantage lorsque nous aborderons l’évaluation statistique avec
le test wald et de rapport de vraisemblance.
Par rapport aux interprétations des variables on ne trouve aucune anomalie com-
parée aux conclusions qu’on a dégagé au niveau des sorties relatives à la base des anciens
clients. Si fait qu’on veut d’amples interprétions on peut citer par exemple la variable
ancienneté bancaire qui présente un coefficient négatif, autrement dit plus le client est
55
ancien auprès de sa banque plus sa probabilité à faire défaut diminue et il réglera ses
engagement avec assiduité.
En outre pour la variable VIN_MAX_NBR_RET on remarque que les coefficients
suivent une tendance croissante c’est à dire que plus le client enregistre un nombre im-
portant de mois de retard plus il est exposé à faire défaut, et ne pourra pas s’acquitter
de ses responsabilités.
Validation du modèle :
Courbe de roc :
L’aire sous la courbe ROC est de 0.76, ce qui veut dire qu’une AUC de 77% .C’est un
pourcentage satisfaisant et affirment la validité de notre modèle.
Matrice de confusion :
la matrice de confusion montre qu’on à un taux de bon classement de 70,4% . En effet
sur un total de 7641 on a 5378 observations qui sont correctement prédites.
56
Figure 3.18 – Matrice de confusion pour le modèle des nouveaux clients .
Test de hosmer-lemeshow :
On a une p-value supérieur à 0.05, donc on accepte notre hypothèse nulle qui porte sur
le fait que les probabilités prévues ne diffèrent pas trop des probabilités observées. Donc
notre modèle s’ajuste bien aux données.
Figure 3.19 – Test de Hossmer lemeshow sur la base des nouveaux clients.
57
la performance de notre modèle,nous avons calculé le taux de bonne classification.Les
résultats sont présentés dans la figure (3.23).
Figure 3.20 – Accuracy du modèle SVM sur le modèle des anciens clients.
Figure 3.21 – Matrice de confusion du modèle SVM sur la base des anciens clients.
Optimisation du modèle :
En règle générale, les meilleures performances prédictives possibles sont obtenues garce
à des noyaux non linéaire (ou au moins aussi bonnes que le noyau linéaire). Il a été dé-
montré que le noyau linéaire est une version dégénérée de RBF, par conséquent, le noyau
linéaire n’est jamais plus précis qu’un noyau RBF correctement réglé. en premier lieu on
a tester le noyau linéaire il est beaucoup plus rapide de l’entraîner et on a obtenu un
taux de bon classement satisfaisant or, on a voulu optimiser notre modèle en utilisant
GridSearchCV.
58
C’est un méta-estimateur. Il prend un estimateur (svc par exemple ) en tant que pa-
ramètre et crée un nouvel, qui se comporte exactement de la même manière que celui
d’avant. Dans notre cas on parle de classifieur.
Puisque on va choisir kernel=’rbf’ on est amené à indiquer les parametres C et gamma.
On a considéré 5 valeurs pour chacuns des deux paramètres.
Figure 3.22 – Matrice de confusion du modèle SVM sur la base des anciens clients .
59
Figure 3.23 – Matrice de confusion du modèle SVM sur la base des anciens clients avec
les hyper-paramètres.
A partir de cette matrice , le modèle nous a permis de faire 5076 prédictions cor-
rectes, et le taux de bon classement de ce modèle est de 68% , un pourcentage qui n’est
pas assez satisfaisant . Optimisation du modèle :
Le taux de bon classement obtenu signifie que notre modèle doit avoir des paramètres
réglés. C’est ici que l’utilité de GridSearch entre en scène. Nous allons rechercher des
paramètres en utilisant GridSearch. Puisque on va choisir kernel=’rbf’ on est ammené à
indiquer les paramètres C et gamma encore une fois pour la base des nouveaux clients .
’C’ : [0.1, 1, 10, 100, 1000], ’gamma’ : [1, 0.1, 0.01, 0.001, 0.0001].
Ayant appliquer cet optimisateur à notre base d’entraînement, les meilleurs hyper para-
metres choisis sont : C=1000 et gamma=1.
Précision du modèles avec les hyper paramètres :
Ayant utiliser les paramètres cité ci-dessus on a obtenue un modèle avec une précision de
79% .
60
Figure 3.24 – Matrice de confusion sur la base des NVc lientsavecleshyper−paramtres.
61
Figure 3.25 – Réseau de neurones -Anciens clients-.
Figure 3.26 – Matrice de confusion ‘du RN pour le modèle des anciens clients .
62
Figure 3.27 – Matrice de confusion du RN pour les nouveaux clients.
63
Conclusion
64
Chapitre 4
Diagnostic et méthodologie IFRS 9
L’objectif de cette partie est justement de mettre en exergue les impacts potentiels de
l’adoption de cette norme. bien qu’en terme de pouvoir prédicatif, le modèle de régression
logistique est celui offrons plus de robustesse, nous prenons donc comme terrain d’étude
les probabilité de défaut estimées par ce modèle.
Ainsi pour se prémunir contre les pertes, nous estimons sur les encours de la SOFAC et
on comptabilisera une provisions en conséquence qu’on va comparer a celle calculée par
l’entreprise.
65
4.1 Diagnostic et méthodologie IFRS 9 :
Dans le cadre du retraitement de la norme IFRS 9 pour SOFAC, il a été retenu ce
qui suit :
— Pour les prêts personnels, il existe 4 CHR : Retraités, Militaires , Salariés, profes-
sionnels ;
— Pour les crédits automobiles, il existe 5 CHR : crédits automobiles classiques per-
sonnes physiques, crédits LOA personnes physiques, crédits automobiles classiques
personnes morales loueurs, crédits automobiles classiques personnes morales hors
loueurs, crédits LOA personnes morales.
En cas de règlement des impayés partiels (par exemple : 1 impayé est réglé alors que 3
sont dus), la règle FIFO (premier arrivé – premier servi) est appliquée. La date du premier
impayé se déplace donc en cas d’un règlement partiel (Sauf les impayés techniques).
• Critère de défaut : Le critère des 3 impayés reste cohérent avec le critère de défaut
qui est au-delà de 90 jours. Les critères de classification retenus par SOFAC sont les
suivants :
66
La méthodologie la plus appropriée de calcul des ECL est le cas général. SOFAC
dispose de toutes les données historiques sur son portefeuille permettant de calibrer les
paramètres du risque (EAD, PD et LGD) et ainsi de calculer les pertes de crédit attendues.
• La Probabilité de Défaut (PD) : représente le taux de passage en défaut. Elle est
issue des matrices de transitions calculées sur l’historique des impayés (mois par mois).
• La LGD (Loss Given Default) : représente le montant de la perte en cas de défaut.
La LGD est calculée à partir des courbes de récupération des créances contentieuses et
calibrée pour les créances non contentieuses par un historique de passage en contentieux
tenant compte du taux de retour en sain.
• L’EAD (Exposure At Default) : représente l’exposition en cas de défaut en pre-
nant en considération les remboursements par anticipation. Les remboursements anticipés
concernent tout le portefeuille. Ils sont observés et un historique de tous les rembourse-
ments anticipés est disponible pour le calcul du taux de remboursement annuel empirique.
• L’ECL (Expected Credit Loss) : représente la perte de crédit attendue à maturité.
1 X N
P D(12mois) = × (4.1)
nbr de mois d’observation nbr de contrat (Bucket 1)
Avec N est le nombre de contrats passés en défaut du Bucket 1 sous un horizon ≤ 12
mois.
• Calcul de la PD à terme : selon le principe de la méthode markovienne, La pro-
babilité de défaut à t années est égales à la probabilité de défaut à 12 mois à puissance
t.
P D(t en mois) = P D(12 mois)t (4.2)
67
PD à 12 Mois Horizon 12 Mois
Retraités en prêt personnel 3%
Militaires en prêt personnel 10%
Salariés en prêt personnel 21%
Professionnels en prêt personnel 29%
Table 4.1 – Probabilités de défaut fixé pour chaque CSP par SOFAC
1
Récup(t,contrat) = F lux_récup(t,contrat) × (4.3)
(1 + T IE)t
Où : TIE du contrat et Flux_récup (t, contrat) sont les flux de récupération marginaux
du contrat de l’annéet.
Les taux de récupérations sont construits sur les données de recouvrement des dos-
siers en contentieux. Les dossiers frauduleux sont écartés de la construction des courbes.
Les statistiques de récupération présentent une profondeur moyenne de 79 mois à fin
décembre 2018 (première période d’observation mars 2010).
Les taux de récupérations ne prennent pas en compte les frais de recouvrement.
La créance retenue pour la détermination du taux de récupération est équivalente aux
impayés (échéances hors frais) + le CRD à la fin du mois de passage en contentieux.
68
Le taux de récupération marginale du vintage se calcule comme suit :
Récup(t, contrat)
T aux_récup(t, vintage) = (4.4)
Encours_initial(contrat)
Les récupérations après la 5éme année sont non significatives, par conséquent la
courbe de récupération est calculée sur les 5 premières années à partir du passage en
contentieux. La formule retenue pour le calcul de la LGD d’un contrat à l’année j est
définie comme suit :
5
X
LGD(j) = 1 − T auxdeRécupCHR (i) (4.5)
i=1
69
4.2.3 Calibrage LGD :
Selon la norme IFRS 9, la LGD peut être calibrée pour les créances non-contentieuses
en éliminant les retours en sain.
Étant donné que le statut des créances non contentieuses en Bucket 3 est intermédiaire,
le taux de retour en sain est calculé par la différence avec le taux de passage en CTX
comme suit :
1-Taux de passage en contentieux cumulé :
Le taux de passage en contentieux est calculé sur une base unitaire jusqu’au terme
du contrat à partir d’un historique depuis 2012. Ci-dessous les taux de passage par année :
70
Ainsi, le taux de retour en sain est calculé comme suit :
n
X
T auxRS = 1 − T aux P assage du déf aut en contentieux(t) (4.6)
t=1
Global
Retraités en prêt personnel 48%
Militaires en prêt personnel 39%
Salariés en prêt personnel 47%
Professionnels en prêt personnel 28%
71
4.2.5 Calcul de l’ECL :
• Bucket 1 :
Pertes de crédit attendues à 1 an :
Où :
EAD1 =CRD1 ×(1-TauxRA ) + IM P0 ;
P D1 = Taux de passage en dfaut à 1 an ;
LGD = 1 - 5i=1 T aux de RécupCHR (i) ;
P
• Bucket 2 :
Pertes de crédit attendues à maturité :
5
X
ECLámaturité = [ [(CRDt ×(1−T auxRA )t +IM P0 )×(1−T auxRs)×P Dt ]×LGD1 ×(1+r)−t ]
i=1
(4.9)
Où :
EADt =CRDt ×(1-TauxRA )t + IM P0 ;
P Dt = Taux de passage en dfaut à l’horizon t ;
LGD1 = 1 - 5i=1 T aux de RécupCHR (i) ;
P
• Bucket 3 :
Pertes de crédit attendues à maturité des créances non contentieuses
Où :
EAD =CRD1 ×(1-TauxRA ) + IM P0 ;
LGD = 1 - 5i=1 T aux de RécupCHR (i) ;
P
72
Pertes de crédit attendues à maturité des créances contentieuses
Où EAD =CRD1 + IM P0 ;
LGDt = 1 - 5i=1 T aux de RécupCHR (i) ;
P
Dans notre cas les deux grandeurs LGDt ainsi que EADt sont calculées et fixées
par l’établissement. A cet effet on aura recours qu’aux probabilités prédites qui d’ailleurs
ne peuvent prendre que deux valeurs ; 100% en cas de défaut et 0% sinon. En effet les
probabilités predites issu de notre modele sont destinées a servir au calcul des pertes
de crédit attendues pour qu’au final les comparer avec celle calculee par l’entreprise.
L’application de cette méthodologie décrite a permis d’obtenir les résultats ci-après :
73
Figure 4.2 – Probabilités de défaut calculées par le modèle VS SOFAC,
En vertu des probabilités obtenue par notre modèle , nous avons estimé les pertes
futures attendus sur les encours de prêts de l’établissement en question pour compenser
le risque de crédit auquel il est exposé. On retrouve ainsi les résultats ci-dessous.
74
Figure 4.4 – Synthése ECL décembre-20, calculée par le modèle
Notre modèle reconnaît par anticipation une perte de 714 381 KDH sur les prêts oc-
troyés. On a donc réduit les provisions de 37 306 KDH.
75
Conclusion :
Au terme de ce travail, nous avons abouti à des modèles de crédit « scoring » adapté
au prêt personnel, et qui permet de prédire les personnes qui feront défaut ou non à travers
leurs caractéristiques liés au profil ainsi qu’au crédit . Sur la base de données disponibles,
nous avons appliqué la méthode statistique de la régression logistique. C’est une méthode
paramétrique qui consiste à calculer la probabilité de défaut de chaque client. Aussi, les
paramètres estimés par cette méthode, nous ont permis d’établir le niveau d’influence de
des variables retenues par le modèle.
Nous avons aussi pensé à utiliser d’autres méthodes statistiques comme la méthode
des réseaux de neurone et les SVM afin de tirer le modèle le plus performant. Quant à la
méthode des réseaux de neurones, qui est une méthode non paramétrique, elle présente
un taux de bon classement supérieur à celui obtenu par les deux autres modèles , ce qui
justifie le choix de ce dernier pour la suite du travail.
Enfin on a essayé d’optimiser les provisions de la SOFAC en vertu de la norme IFRS
9. Nous espérons que ce travail s’ajoutera à une série d’autres travaux en vue d’établir une
base de données plus complète qui améliorera ce modèle. Finalement, en plus de l’aspect
technique, ce projet de fin d’étude nous à permis de découvrir le fonctionnement interne
d’un établissement de crédit, d’apprendre la rigueur dans le travail, et de connaître l’esprit
d’équipe.
76
Annexes
Organisme d’acceuil
77
Rapport de chance des anciens clients
78
Mesures des associations dans la base des anciens clients
79
Bibliographie
[1] Athey, S., (2019), The impact of machine learning on economics, in The economics of artificial intel-
ligence : an agenda, Ajay Agrawal, Joshua Gans, et Avi Goldfarb, ed., 507-547.
[2] UC Irvine Machine Learning Repository Australian Credit Data. http ://archive.ics.uci.edu
/ml/datasets/Statlog+%28Australian+ Credit+Approval%29.
[3] Suman Kumar Mohapatra Trilok Nath Pandey, Alok Kumar Jagadev and Satchidananda Dehuri.
Credit Risk Analysis using Machine Learning Classifiers. IEEE, 2017.
[5] Hosmer D.W. and S. Lemeshow (1980) “A goodness-of-fit test for the multiple logistic regression
model.” Communications in Statistics A10 :1043-1069.
[6] Gunawidjaja, S., Hermanto, B., 2010, «Default Prediction Model for SME’s : Evidence from Indone-
sian Market Using Financial Ratios», p. 1-20.
[7] Dionne, G., Artis, M., Guillen, M., 1996, «Count Data Models for a Credit Scoring System», Journal
of Empirical Finance, Vol. 3, p. 303-325.
80