Vous êtes sur la page 1sur 81

Modélisation du risque de défaut avec

les algorithmes de machine learning


Résumé :

La dernière crise financière a mis en exergue la nécessité pour les sociétés de crédit de se
doter de modèles dynamiques et précis d’évaluation du risque de défaut de leurs clients. A
cet effet la quantification de la probabilité de défaut et sa prédiction constitue , un jalon
incontournable des activités de gestion du risque. Dans ce cadre, le présent projet propose
des modèles statistiques qui ont pour but la prédiction du défaut et la détermination des
variables qui contribuent à la survenance évènement . Ceci, tout en mettant en relief la
pertinence de ces modèles à travers leur propension à prédire et à capter la dynamique du
défaut et en apportant des évidences empiriques et des analyses concernant les pratiques
de la société en étude.
En vertu des prédictions et de la norme de l’IFRS 9, on a réduit la provision de l’orga-
nisme avec un pourcentage d’environs 5%.

Mots clés : Risque de défaut,Régression logistique, Support à vaste marge ,Réseaux de


neuronnes, IFRS 9.

1
Abstract :

The last financial crisis has highlighted the need for credit companies to have dynamic
and accurate models to assess the risk of default of their customers. To this end, the
quantification of the probability of default and its prediction is an essential step in risk
management activities. In this context, the present project proposes statistical models
that aim at predicting default and determining the variables that contribute to the occur-
rence of the event. This, while highlighting the relevance of these models through their
propensity to predict and capture the dynamics of default and providing empirical evi-
dence and analysis on the practices of the company under study. Based on the predictions
and the IFRS9 standard, the organization’s provision was reduced by approximately 5%.

Keywords : Default risk ,Logistic regression, Support vector machine ,Neural network,
IFRS 9 .

2
Dedicace :

À mon cher papa


Tout l’encre du monde ne pourrait suffire pour exprimer ma gratitude envers vous, ce
travail est le résultat de vos sacrifices pendants de longues années. Vos prières innom-
brables et votre dévouement firent pour moi un encouragement. J’implore Dieu, de vous
accorder une bonne santé, une longue vie et beaucoup de bonheur. Que vous trouveriez
ce jour là, le fruits de votre semence et le témoignage de ma grande fierté de vous avoir
comme père.

À ma chère maman
Aucune dédicace ne pourrait exprimer la profondeur de mes sentiments. Sans vos prières,votre
bénédiction et patience, je ne saurai guerre arriver là où je suis. Puisse Dieu, tout puissant
vous combler de santé, de bonheur et vous procurer une longue vie. Ce travail est le fruit
de tous les sacrifices que vous avez déployés pour mon éducation et ma formation. Je
t’aime maman.

À mon cher frère


Mon seul et mon premier vrai ami dans cette vie, je te dédie ce travail en témoignage de
mon profond amour . Que dieu t’accorde santé et succès dans ta carrière.

À ma chère binôme et amie Salma

3
Dedicace :

À mon cher papa


À l’homme, mon précieux offre du dieu, qui doit ma vie, ma réussite et tout mon respect.
Autant de phrases et d’expressions aussi éloquentes soit-elles ne sauraient exprimer ma
gratitude et ma reconnaissance. Je te dois ce que je suis aujourd’hui et ce que je serai
demain et je ferai toujours de mon mieux pour rester ta fierté et ne jamais te décevoir.
Que Dieu le tout puissant te préserve, t’accorde santé et quiétude de l’esprit.

À ma chère maman
Autant de phrases aussi expressives soient-elles ne sauraient montrer le degré d’amour
que j’éprouve pour toi.Tu as toujours été présente à mes cotés pour me consoler quand il
fallait. En ce jour mémorable, pour moi ainsi que pour toi, reçoit ce travail en signe de
ma vive reconnaissance et mon profond estime. Puisse le tout puissant te donner santé,
bonheur et longue vie afin que je puisse te combler à mon tour.

À mes chers frères et soeurs


Vous avez toujours été d’une aide précieuse, et aucun mot ne pourrait exprimer l’amour
que j’éprouve pour vous. J’espère avoir atteint le seuil de vos espérances.

À ma chère binôme et amie Khadija

4
Remerciements :

Tout d’abord nous tenons à exprimer nos remerciements à notre encadrant interne M.
OUAZZA AHMED, pour nous avoir guidé par ses conseils et ses consignes et pour avoir
été présent durant cette période de stage.

Nous tenons à remercier vivement notre encadrant externe M. AZHOUM CHAKIR pour
nous avoir épaulé et guidé durant toute la période passée à SOFAC.

Nos remerciements s’adressent aussi à M. EL HAJ TIRARI MOHAMMED Pour le grand


honneur qu’il nous fera en acceptant de juger notre travail.

Nous remercions également le corps professoral de l’INSEA, pour leurs efforts et leur
contribution dans l’épanouissement de l’institut.

Enfin, nous tenons à remercier toute personne ayant contribué de près ou de loin au bon
déroulement de notre Projet de fin d’étude.

5
Table des matières

1 contexte général 14
1.1 Définitions et Généralités : . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.1 Introduction : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.2 Définition du risque de crédit : . . . . . . . . . . . . . . . . . . . . 15
1.2 Les dépréciations des risques de crédit sous la norme IFRS 9 : . . . . . . 17

2 Modélisation du risque de défaut - Cadre théorique 18


2.1 Régression Logistique Binaire - Principe et estimation : . . . . . . . . . 19
2.1.1 Hypothèse fondamentale de la r´régression logistique . . . . . . . 20
2.1.2 La sélection des variables . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Tests de significativité globale et des coefficients : . . . . . . . . . 23
2.1.4 Évaluation de la régression logistique : . . . . . . . . . . . . . . . 24
2.2 Séparateurs à Vaste Marge (SVM) : . . . . . . . . . . . . . . . . . . . . . 28
2.2.1 Principe de la technique SVM : . . . . . . . . . . . . . . . . . . . 28
2.2.2 Classifieur linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.2.3 Marge maximale de l’hyperplan . . . . . . . . . . . . . . . . . . . 29
2.2.4 SVM non-linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2.5 Avantages et inconvénients : . . . . . . . . . . . . . . . . . . . . . 31
2.3 Les réseaux de neurones : . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 Propagation en avant : . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.2 Apprentissage du réseau : rétro-propagation . . . . . . . . . . . . 33
2.3.3 Avantages et inconvénients : . . . . . . . . . . . . . . . . . . . . . 34

6
3 Modélisation du risque de défaut - Cadre pratique 37
3.1 Présentation du cadre du travail : . . . . . . . . . . . . . . . . . . . . . . 38
3.1.1 Analyse de la base de données : . . . . . . . . . . . . . . . . . . 38
3.1.2 Résumé de statistique descriptive : . . . . . . . . . . . . . . . . . 40
3.2 Traitement des valeurs aberrantes : . . . . . . . . . . . . . . . . . . . . . 43
3.3 Traitement des valeurs manquantes : . . . . . . . . . . . . . . . . . . . . 44
3.4 Échantillonnage : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.5 Régression logistique : . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.5.1 Construction du modèle : . . . . . . . . . . . . . . . . . . . . . . 49
3.6 Support à vaste marge : . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.6.1 Élaboration du modèle des anciens clients : . . . . . . . . . . . . . 57
3.6.2 Élaboration du modèle des nouveaux clients : . . . . . . . . . . . 59
3.7 Réseaux de neurones artificielles : . . . . . . . . . . . . . . . . . . . . . . 61
3.7.1 Élaboration du modèle des anciens clients : . . . . . . . . . . . . . 61
3.7.2 Élaboration du modèle des nouveaux clients : . . . . . . . . . . . 62
3.8 Choix du meilleur modèle : . . . . . . . . . . . . . . . . . . . . . . . . . . 63

4 Diagnostic et méthodologie IFRS 9 65


4.1 Diagnostic et méthodologie IFRS 9 : . . . . . . . . . . . . . . . . . . . . 66
4.2 IFRS 9 : Calcul des paramètres : . . . . . . . . . . . . . . . . . . . . . . 67
4.2.1 Calcul des PD : . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.2 Calcul LGD : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2.3 Calibrage LGD : . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.2.4 Calcul EAD : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
4.2.5 Calcul de l’ECL : . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.2.6 Synthèse provision IFRS 9 : Résultats et discussions : . . . . . . . 73

7
Liste des abréviations :

ANN :Artificial neural network ;


AUC :Area under the curve ;
BIS :Bank for International Settlements ;
ECL :Expected Credit Loss ;
LGD :Loss Given Default ;
PD :Probabilité de défaut ;
ROC :Receiver Operating Characteristic ;
SVM :Support vector machine ;

8
Liste des tableaux

2.1 Interprétations des valeurs de la surface AUC . . . . . . . . . . . . . . . 27

3.1 Explication des variables utilisées. . . . . . . . . . . . . . . . . . . . . . 39


3.2 Distribution des modalités de la variable cible. . . . . . . . . . . . . . . 49
3.3 Taux de bon classement des modèles obtenues. . . . . . . . . . . . . . . 63

4.1 Probabilités de défaut fixé pour chaque CSP par SOFAC . . . . . . . . . 68


4.2 Probabilité de défaut à terme . . . . . . . . . . . . . . . . . . . . . . . . 68
4.3 Taux de récupérations annuel . . . . . . . . . . . . . . . . . . . . . . . . 69
4.4 LGD à terme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.5 Les taux annuels de passage en contentieux. . . . . . . . . . . . . . . . . 70
4.6 Taux de retour sain du défaut au contentieux . . . . . . . . . . . . . . . 71
4.7 Les taux de rembourssement par anticipations. . . . . . . . . . . . . . . . 71

9
Table des figures

2.1 Fonction logistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20


2.2 Courbe ROC - Deux situations extrêmes. . . . . . . . . . . . . . . . . . . 27
2.3 hyperplan séparateur ⟨w, x⟩ + b = 0. . . . . . . . . . . . . . . . . . . . . 29
2.4 Schéma de la structure d’un réseau artificiel de type "feed-forward" . . . 32

3.1 Description des variables qualitatives . . . . . . . . . . . . . . . . . . . . 42


3.2 Description des variables quantitatives. . . . . . . . . . . . . . . . . . . . 43
3.3 Valeurs manquantes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.4 Affichage des valeurs manquantes . . . . . . . . . . . . . . . . . . . . . . 45
3.5 Pourcentages des valeurs manquantes de la base des anciens clients . . . 46
3.6 Pourcentages des valeurs manquantes de la base nouveau clients . . . . . 48
3.7 Sortie de la sélection stepwise. . . . . . . . . . . . . . . . . . . . . . . . . 50
3.8 Sortie de la sélection stepwise du modèle avec les variables carré . . . . . 51
3.9 R2 MC Fadden -Anciens clients- . . . . . . . . . . . . . . . . . . . . . . . 51
3.10 Tests de significativité -Anciens clients- . . . . . . . . . . . . . . . . . . . 52
3.11 Courbe de ROC pour le modèle des anciens clients. . . . . . . . . . . . . 53
3.12 Matrice de confusion pour le modèle des anciens clients . . . . . . . . . . 53
3.13 Test de Hossmer lemeshow sur la base des anciens clients. . . . . . . . . 54
3.14 Sortie de la sélection stepwise sur la base des nouveaux clients . . . . . . 54
3.15 R2 MC Fadden -Nouveaux clients- . . . . . . . . . . . . . . . . . . . . . . 55
3.16 Tests de significativité -Nouveaux clients- . . . . . . . . . . . . . . . . . . 55
3.17 Courbe de ROC pour le modèle des nouveaux clients. . . . . . . . . . . . 56
3.18 Matrice de confusion pour le modèle des nouveaux clients. . . . . . . . . 57
3.19 Test de Hossmer lemeshow sur la base des nouveaux clients. . . . . . . . 57

10
3.20 Accuracy du modèle SVM sur la base des anciens clients. . . . . . . . . . 58
3.21 Matrice de confusion du modèle SVM sur la base des anciens clients. . . 58
3.22 Matrice de confusion du modèle SVM sur la base des anciens clients . . . 59
3.23 Matrice de confusion du modèle SVM sur la base des anciens clients avec
les hyper-paramètres. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.24 Matrice de confusion sur la base des NV_clients avec les hyper-paramètres. 61
3.25 Réseau de neurones -Anciens clients-. . . . . . . . . . . . . . . . . . . . . 62
3.26 Matrice de confusion ‘du RN pour le modèle des anciens clients . . . . . . 62
3.27 Matrice de confusion du RN pour les nouveaux clients. . . . . . . . . . . 63

4.1 Illustration de décalage en temps. . . . . . . . . . . . . . . . . . . . . . . 70


4.2 Probabilités de défaut calculées par le modèle VS SOFAC. . . . . . . . . 74
4.3 Synthése ECL décembre-20, calculée par la SOFAC. . . . . . . . . . . . . 74
4.4 Synthése ECL décembre-20, calculée par le modèle. . . . . . . . . . . . . 75

11
Introduction :

Les institutions de crédits sont des acteurs essentiels au bon fonctionnement de


notre économie. Ces dernières assurent à la fois la stabilité et la croissance économique
en soutenant les particuliers et les entreprises. Il est peu commun qu’un acteur écono-
mique arrive à s’autofinancer en totalité. Ces établissements interviennent pour soulager
le budget des entreprises et des particuliers, en les aidant à financer tout ou une partie
de leurs investissements.
Il est communément admis qu’il est impossible d’envisager une stabilité du système
financier mondial sans un fonctionnement régulé des institutions de crédits, puisque ces
dernières jouent un rôle clé d’inter-médiation dans le financement de l’économie. Les diffé-
rentes activités conduites par un établissement du genre l’amènent à encourir une grande
variété de risques. Or, une appréhension erronée des risques encourus peut mener à des
pertes financières considérables, qui peuvent elles-mêmes engendrer la faillite et ainsi en-
traver la stabilité de l’économie mondiale. Dans ce sens l’un des risques majeurs auquel
est exposé une société de crédit est le risque de contrepartie, le risque qu’un emprunteur
n’honore pas ses engagements conformément aux conditions convenues. La gestion du
risque de crédit consiste à atténuer les pertes en comprenant à tout moment le caractère
adéquat des réserves en capital et des provisions pour pertes sur prêts. Un processus qui
pose depuis longtemps des difficultés pour les institutions financières.
De par les composantes qui le caractérise , la modélisation du risque de crédit
constitue un véritable défi. En effet, une des difficultés majeures des direction de risque
de crédit, réside dans l’évaluation de la probabilité de défaut individuelle de leurs clients.
L’hypothèse d’asymétrie d’information est centrale dans les modèles, car on suppose que
l’emprunteur détient plus d’information sur sa probabilité de défaut. A cet effet, les ins-
titutions de crédit utilisent différentes méthodes pour se prémunir de cette asymétrie

12
informationnelle . On peut citer : l’auto-sélection des risques, les collatéraux ou les ga-
ranties de prêts et le scoring bancaire. Diverses variables tant d’ordre qualitatifs que
quantitatifs, sont utilisées pour spécifier les probabilités de défaut des emprunteurs.
Parallèlement, l’évolution de la conjoncture économique met en exergue réguliè-
rement les failles du système existant et nous exhorte à une correction des politiques
adaptées, on définit ainsi des pratiques et des modèles internes d’évaluation du risque au
vu de la nature particulière des clients. De cette manière, la diversité des pratiques su-
jettes aux aléas du cycle économique impose une certaine révision continuelle des modèles
existants. Cet exercice, qui d’une part améliore les pratiques de la société en question en
matière de gestion de risque, favorise d’autre part un certain appariement entre le risque
quantifié et le risque réel que représente le client. Par ailleurs, il permet de dégager les
paramètres qui identifient le risque qu’encourt l’entreprise et une modélisation efficiente
des composantes du risque de défaut.
L’objectif principal de ce stage consiste donc à tester les pratiques de la SOFAC
en termes d’analyse des différents risques des prêts octroyés, en estimant des modèles
statistiques en vue de prédire la défaillance de ses clients. Pour ce faire, certaines don-
nées rendues disponibles par cet organisme seront utilisées afin de déterminer quelles sont
les variables significatives dans la prédiction du défaut. De plus, on s’appuiera sur des
méthodes de classification dont le but est principalement d’identifier la classe au quelle
appartient un client potentiel.
Pour une analyse fine et subtile on va établir en premier lieu un cadre conceptuel,
au niveau duquel on va détailler les concepts qu’on va utiliser le long de notre rapport.
En second lieu on va élaborer un cadre théorique qui fait appel aux modèles déployés. En
troisième lieu on va entamer la préparation des données qui constitue l’étape crucial de
notre étude, ainsi que la pratique des modèles détaillés auparavant. Finalement le dernier
chapitre aura pour objectif de réduire les provisions de la SOFAC tout en respectant la
norme IFRS 9.

13
Chapitre 1
contexte général

14
1.1 Définitions et Généralités :

1.1.1 Introduction :
Toute institution financière, dans l’exercice de ses fonctions est sujette à des risques
financiers qui nécessitent un mécanisme de gestion interne.
On distingue cinq principaux types :

— Le risque de liquidité : découle d’une difficulté à mobiliser des fonds à un coût


raisonnable ou de la difficulté de vendre des actifs financiers à des prix proches de
ceux du marché.

— Le risque de marché : concerne les activités bancaires et les activités commerciales


des banques, c’est un risque de perte en cas de mouvements défavorables des taux
d’intérêts, des prix des matières premières et des cours des devises. Les risques de
marché peuvent être classés en risques liés aux prix des actions, risque de change,
risque lié au taux d’intérêt...

— Le risque de taux : concerne la variation de la valeur des fonds propres ou de la


rentabilité suite à une variation du taux d’intérêt.

— Le risque de crédit : est le plus important et celui auquel sont confrontés tous
les établissements de crédit de nos jours, il peut être géré s’il est bien mesuré d’où
l’intérêt de développer un mécanisme de gestion interne de ce type de risque. Dans
ce qui suit, on va nous intéresser uniquement au risque de crédit.

1.1.2 Définition du risque de crédit :


Pour bien comprendre le risque de crédit, il est nécessaire de revenir dans un premier
temps sur une distinction conceptuelle ainsi qu’à la source de ce risque. Le défaut survient
lorsque le client ne peut plus faire face à ses engagements vis à vis de ses créanciers.
Lorsqu’un un tel évènement survient deux éventualités sont envisageables ; soit le client
a la possibilité de renégocier avec ses créanciers les termes de ses engagements, soit il ne
le peut pas et sera déclaré défaillant, le juridique prends relais.
En terme probabiliste le risque de crédit représente la probabilité de défaut de paiement
d’un client, il ne se limite pas uniquement à ce risque de défaillance, mais aussi à d’autres
risques qui peuvent compromettre la rentabilité de l’établissement financier. Les plus

15
importants sont le risque de liquidité, le risque de transaction et le risque de marché.
Nous allons ici, mettre en avant le risque de crédit au détriment des autres, car c’est celui
que nous visons à réduire à travers notre modèle.

1.1.2.1 Risque de crédit :


Le risque de crédit est devenu une préoccupation importante des banques à la fin des
années 1980, et n’a cessé d’être évalué et modélisé depuis. Il présente trois composantes : la
probabilité de défaut (ou la probabilité que l’emprunteur ne respecte pas ses conditions),
le taux de recouvrement au moment du défaut (loss given default) et l’exposition au
risque de crédit au moment du défaut.
Le risque de non-remboursement est essentiellement dû à une gestion et un contrôle
inefficace de l’activité d’octroi de crédit. Afin d’éviter ce risque, les institutions de crédit
cherchent des outils qui lui permettent de l’appréhender en trouvant des moyens qui
assurent sa couverture. Pour cela la banque fait appel aux méthodes quantitatives qui
permettent de prédire la probabilité de défaut.

1.1.2.2 Probabilité de défaut :


Les établissements de crédit se sont adaptés aux évolutions rapides de leurs environ-
nements, ils ont instauré des techniques permettant de visualiser rapidement et efficace-
ment les potentiels dangers sur chaque portefeuille. Avant toute chose les établissements
de crédits doivent identifier et évaluer les risques avant de pouvoir les traiter. Le risque
de défaut est par définition la probabilité qu’un client se trouve en position de défaut
dans un certain horizon temporel.
La probabilité de défaut d’un client est le risque que sa note baisse pendant la période à
venir. Plus sa note initiale est bonne, moins cette probabilité est importante. La PD est
calculée à la base des données historiques accumulées (au moins 2 ans ). Elle mesure la
probabilité d’occurrence d’un défaut sur une contrepartie donnée dans un horizon donné.
C’est un élément qui permet de mesurer le risque lié à l’emprunteur.

1.1.2.3 Évènement de défaut :


La définition de l’événement de défaut est directement liée à l’estimation de la pro-
babilité de défaut. Le défaut est défini au niveau d’un client et non d’un crédit. Lorsqu’un

16
client rentre en défaut à cause d’un crédit, il contamine tous les autres crédits qu’il pos-
sède. Selon la BIS, si le contrat (un ou plusieurs) d’un client atteint plus de 90 jours
d’impayés et que le montant dû (sur l’ensemble des contrats ayant atteint 90 jours d’im-
payés) est au-delà d’un certain seuil de matérialité, alors le client est considéré en défaut.
La contagion est appliquée au niveau du client (tous ses crédits entrent en défaut).

1.2 Les dépréciations des risques de crédit sous la norme


IFRS 9 :
La crise financière de 2008 a mis en vedette les déficiences du mode de provision-
nement prôné par la norme IAS 39, ayant été caractérisé de tardif et de pro-cyclique.
L’entrée en vigueur imminente de la norme IFRS 9 va exiger aux banques de constituer
des provisions pour pertes, même pour les crédits sains. Elle introduit aussi une nouvelle
logique de classification et d’évaluation des actifs financiers, ce qui ne serait pas sans
impact sur l’activité bancaire. La perte de crédit attendue doit être couverte par des
provisions, et la perte inattendue doit être couverte par du capital. En conséquence, les
provisions pour pertes augmenteront considérablement en vertu de l’IFRS 9, réduisant
ainsi les capitaux propres et les bénéfices non répartis disponibles pour le capital de base,
ce qui pourrait à son tour réduire le ratio de capital de base.le traitement des provi-
sions pour dépréciation, diffère en fonction de l’approche de mesure du crédit utilisée par
l’institution.

17
Chapitre 2
Modélisation du risque de défaut - Cadre
théorique

Cette section retrace les modèles mis à contribution dans le présent travail, les hypothèses
posées pour faire l’inférence statistique et les différentes procédures et mesures utilisées
pour valider la spécification finale des modèles et tester leurs performances.
En ce qui a trait à la modélisation de la probabilité de défaut , plusieurs techniques ont
fait d’importants avancements. Pour ce faire les méthodes utilisées pour la classification
sont nombreuses, citons : La régression logistique, la méthode des Séparateurs à Vastes
Marges (SVM) et les Réseaux de Neurones.
Nous présentons dans la suite de ce chapitre une étude détaillée des trois techniques citées
au dessus.

18
2.1 Régression Logistique Binaire - Principe et esti-
mation :
En apprentissage supervisé, l’objectif est de prédire et/ou expliquer une variable catégo-
rielle Y à partir d’une collection de descripteurs X = (X1 , X2 , ..., XJ ).
Il s’agit en quelque sorte de mettre en évidence l’existence d’une liaison fonctionnelle
sous-jacente entre ces descripeteurs de la forme :

Y = f (X, α) (2.1)

Puisque nous sommes dans le cadre de la régression logistique binaire, Y représente la


valeur de la variable dépendante dichotomique prenant soit la valeur zéro pour présenter
l’absence, l’échec ou le « non », soit la valeur un pour présenter contrairement la présence,
le succès ou bien le « oui », tandis que X représente les valeurs des différents attributs
prédictifs relatifs à chaque échantillon ou participant pouvant avoir des valeurs discrètes
ou continues.
Soit θ(x) la probabilité conditionnelle d’avoir Y=1 sachant que X=x, notée :

θ(x) = P (Y = 1|X = x) (2.2)

Vu la nature sinusoïdale de la fonction logistique, l’analyse de régression logistique doit


forcément transposer l’équation qui lie entre les variables en expression logarithmique.
En effet la relation est décrite par la transformation logit de θ :

exp(β0 + β1 X1 + ... + βJ XJ )
θ= (2.3)
(1 + exp β0 + β1 X1 + ... + βJ XJ )

tel que β0 est la constante du modèle , les βj sont les coefficients des variables indépen-
dantes, et j le nombre des variables indépendantes.

Une forme alternative de l’équation de régression logistique est la suivante :

θ(x)
Logit(θ(x)) = log( ) = β0 + β1 X1 + ... + βJ XJ (2.4)
1 − θ(x)

19
A propos de la fonction de transformation :

- Le LOGIT est théoriquement défini entre −∞ et +∞.

- En revanche, 0 ≤ θ ≤ 1 issue de la transformation de Y représente une probabilité.

Figure 2.1 – Fonction logistique.

A propos de la règle d’affectation :

- La règle d’affectation peut être basée sur Θ de différentes manières :


-Si θ
1−θ
> 1 Alors Y = + ;
-Si θ > 0.5 Alors Y = + ;

- Elle peut être aussi basée simplement sur Y(X) avec :


-Si Y(X) > 0 Alors Y = +

2.1.1 Hypothèse fondamentale de la r´régression logistique


Pour rendre calculable la quantité P (Y = yk \X), il nous faudra donc introduire
une ou plusieurs hypothèses sur les distributions. Elles semblent plus contraignantes par
rapport aux méthodes dites non-paramétriques qui, elles, procèdent à l’estimation des

20
probabilités sans jamais introduire des hypothèses sur les distributions. En effet, lors du
traitement d’un problème réel, il faudrait en toute rigueur s’assurer de la crédibilité des
hypothèses avant de pouvoir mettre en œuvre la technique. On se rend compte que les
méthodes paramétriques sont souvent robustes.
Elles restent opérationnelles même lorsque l’on s’écarte assez fortement des hypothèses
qui les sous-tendent. L’idée la plus importante à retenir finalement est que les hypothèses
pèsent sur la forme de la frontière induite pour distinguer les classes dans l’espace de
représentation.
La régression logistique par conséquent produit un séparateur linéaire.
Le véritable enjeu réside donc dans l’estimation du rapport de probabilité θ(x)
1−θ(x)
. La ré-
gression logistique introduit une et une seule hypothèse fondamentale schématisée dans
l’équation (2.4).
Cette hypothèse couvre une large palette de lois de distribution des données :
-La loi normale (comme pour l’analyse discriminante) ;
-Les lois exponentielles ;
-Les lois discrètes ;
-Les lois Beta, les lois Gamma et les lois de Poisson ;
Contrairement à l’Analyse Discriminante Linéaire, que l’on qualifie de méthode para-
métrique car on émet une hypothèse sur les distributions respectives de θ et 1 − θ, la
régression logistique est une méthode semi-paramétrique car l’hypothèse porte unique-
ment sur le rapport de ces probabilités. Elle est moins restrictive et son champs d’action
est donc théoriquement plus large.

2.1.2 La sélection des variables


La sélection des variables est une étape clé de la modélisation par régression logis-
tique. Dans les études réelles, nous sommes confrontés à des bases de données avec un
nombre considérable de descripteurs. Ce sont autant de variables explicatives potentielles.
La méthode statistique doit nous donner des indications sur le sous-ensemble des bonnes
variables à inclure dans le modèle. Dans l’idéal, elles devraient être orthogonales entre
elles et toutes fortement liées avec la variable dépendante. Certains auteurs encensent
la sélection automatique de variables parce qu’elle constitue un outil fort utile pour une
première approche sur des données que l’on ne connaît pas très bien. Plusieurs raisons
nous poussent à réduire le nombre de variables explicatives :

21
-Moins il y aura de variables, plus facile sera l’interprétation : En évacuant les
descripteurs qui ne sont pas nécessaires à l’explication de la variable dépendante, nous
pouvons plus facilement cerner le rôle de celles qui sont retenues.
-Le déploiement sera facilité. Lorsque le modèle sera mis en production, on a toujours
intérêt à poser peu de questions pour identifier la classe d’appartenance d’un individu.
-Un modèle avec peu de variables a de meilleures chances d’être plus ro-
buste en généralisation. En effet, lorsque le nombre de paramètres du modèle est trop
élevé, le sur-apprentissage nous guette. Le classiffieur "colle" trop aux données et, au
lieu d’intégrer les informations essentielles qui se rapportent à la population, il ingère les
particularités de l’échantillon d’apprentissage.On pense généralement qu’il faut respecter
un certain ratio entre le nombre de paramètres à estimer et la taille de l’échantillon.À
titre indicatif, nous citerons la règle empirique suivante :

min(n+ , n− )
J +1≤ (2.5)
10

les méthodes de sélection se rejoignent sur le mode d’exploration de l’espace des solutions.
ce sont des procédures pas-à-pas qui évaluent une succession de modèles emboîtés :
La selection FORWARD :
Part du modèle trivial, puis rajoute une à une les variables explicatives jusqu’à ce
que l’on déclenche la règle d’arrêt.Le processus s’arrête soit quand il n’y a plus de variable
à ajouter, soit quand un certain critère est n’est plus satisfait.
La selection BACKWARD :
Part du modèle complet, incluant la totalité des descripteurs, puis enlève une à
une les variables non significatives.Une fois la variable supprimée, il est impossible de la
réintégrer.
La selection STEPWISE :
Elle alterne forward et backward, elle consiste à vérifier si chaque ajout de variable
ne provoque pas le retrait d’une variable explicative qui aurait été intégrée précédem-
ment.Ces méthodes permettent de pallier au problème de l’irrévocabilité de la suppression
ou de l’ajout d’une variable, problème présent dans les deux autres méthodes.

22
2.1.3 Tests de significativité globale et des coefficients :
La validation d’un modèle est indissociable de tout processus d’estimation. C’est une
étape cruciale dans l’élaboration de tout modèle de prédiction. À cet effet, diverses pro-
cédures et métriques qui permettent de valider un modèle sont utilisées dans la littérature.

Le test de rapport de vraisemblance :


Consiste à comparer deux déviances. Pour l’évaluation globale il s’agit de confronter
celles du modèle étudié et du modèle trivial. La statistique du test s’écrit :

LR = DO − DM (2.6)

Elle suit une loi du χ2 , reste à déterminer les degrés de liberté. Les degrés de liberté des
modèles à opposer s’écrivent :

ddlM = n − [(K − 1) × (J − 1)] (2.7)

ddl0 = n − (K − 1) (2.8)

Nous obtenons ceux du rapport de vraisemblance par différenciation, ils correspondent à


l’écart entre le nombre de paramètres estimés dans les deux modèles.

ddl = ddl0 − ddlM = (K − 1) × J (2.9)

La région critique du test au risque α correspond aux grandes valeurs de la statistique


de test c.-à-d.
LR < χ21−α (ddl) (2.10)

Nous pouvons aussi décider via la p-value. Si elle est plus petite que α , le modèle est
globalement significatif.

Le test de Wald :
L’objectif de ce test de significativité est d’éprouver le rôle d’une, de plusieurs, de
l’ensemble, des variables explicatives. Formellement, les hypothèses nulles peuvent se dé-
cliner comme suit :
H0 :β1 = β2 = ... = βJ = 0

23
Il s’agit d’une évaluation globale de la régression. En effet, si l’hypothèse nulle est compa-
tible avec les données, cela signifie qu’aucun des descripteurs ne contribue à l’explication
de la variable dépendante. Le modèle peut être jeté aux orties. Dans tous les cas, l’hypo-
thèse alternative correspond à : "un des coefficients au moins est non-nul".

R2 de McFadden :
Notons LLM la vraisemblance du modèle étudié, le R2 de McFadden est défini de
la même manière que pour la régression binaire, à savoir

LLm
2
RM F = 1− (2.11)
LL0
On suggère que le RM
2
F est le plus adapté à la régression logistique : il est le plus proche

conceptuellement du coefficient de détermination de la régression linéaire multiple ; il


n’est pas sensible à des modifications de la proportion de positifs dans le fichier d’appren-
tissage.Le R2 de McFadden varie entre 0 (modèle pas meilleur que le trivial) et 1 (modèle
parfait).L’analogie avec le R2 de la régression linéaire multiple est totale.

2.1.4 Évaluation de la régression logistique :


Après avoir construit un modèle de prédiction, il faut évaluer son efficacité. Dans
cette partie, nous nous consacrons à ce qu’on appelle les méthodes d’évaluation externes
basées sur les prédictions Ỹ (ω) et/ou les probabilités à posteriori θ˜(ω) fournies par le
classifieur.

La matrice de confusion :
La matrice de confusion confronte toujours les valeurs observées de la variable dé-
pendante avec celles qui sont prédites, puis comptabilise les bonnes et les mauvaises
prédictions. Son intérêt est qu’elle permet à la fois d’appréhender la quantité de l’erreur
(le taux d’erreur) et de rendre compte de la structure de l’erreur (la manière de se tromper
du modèle).

Y×Ỹ +̃ −̃ Total
+ a b a+b
- c d c+d
Total a+c b+d n=a+b+c+d

24
-a sont les vrais positifs c.-à-d. les observations qui ont été classées positives et qui le sont
réellement.

-c sont les faux positifs c.-à-d. les individus classés positifs et qui sont réalité des négatifs.

-b sont les faux négatifs et d sont les vrais négatifs.

-Le taux d’erreur est égal au nombre de mauvais classement rapporté à l’effectif total
c.-à-d.

b+c a+d
ϵ= =1− (2.12)
n n
Il estime la probabilité de mauvais classement du modèle.

-Le taux de succès correspond à la probabilité de bon classement du modèle, c’est le


complémentaire à 1 du taux d’erreur.

a+d
θ= =1−ϵ (2.13)
n

-La sensibilité indique la capacité du modèle à retrouver les positifs.

a
Se = Sensibilité = T V P = (2.14)
a+b

-La précision indique la proportion des vrais positifs parmi les individus qui ont été classés
positifs
a
P récision = (2.15)
a+c
Elle estime la probabilité d’un individu d’être réellement positif lorsque le modèle le classe
comme tel. Dans certains domaines, on parle de valeur prédictive positive (VPP).

-La spécificité, à l’inverse de la sensibilité, indique la proportion de négatifs détectés.

d
Sp = Spécif icité = (2.16)
d+c

Test de Hosmer-Lemeshow
Il est basé sur un regroupement des probabilités prédites par le modèle. On calcule,
pour chacun des groupes, le nombre observé de réponses positives y=1 et de réponses
négatives y = 0, que l’on compare au nombre espéré prédit par le modèle. Une distance

25
entre les fréquences observées et prédites au moyen d’une statistique de χ2 est alors
calculée.Concrètement, nous procédons de la manière suivante :

1. Appliquer le classifieur sur les données pour obtenir les estimations θ̃(ω) ;

2. Subdivisez les données en G groupes et dans chaque groupe g, d’effectif mg , nous


devons calculer plusieurs quantités :

— mg1 , le nombre de positifs observés ;

— mg0 , le nombre de négatifs observés ;

— m θ(ω),la somme des scores des observations situées dans le groupe g.


Pb
b g1 =
On la désigne comme la fréquence théorique des positifs dans le groupe ;
m̃g1
— π̄g1 = mg
,la moyenne des scores observés dans le groupe g ;

3. Nous calculons alors la statistique de Hosmer et Lemeshow en utilisant :

X (mg1 − m̂g1 )2
C
b= (2.17)
m̂g1 (1 − π̄g1 )
L’approximation de la loi de distribution de la statistique du test sous H0 est de meilleure
qualité. Ceci dit que lorsque la probabilité critique du test (p-value) est plus grande que
le risque choisi, le modèle issu de la régression logistique est accepté.

La courbe ROC et le critère AUC :


La courbe ROC est un outil très riche. Son champ d’application dépasse largement
le cadre de l’apprentissage supervisé.Elle propose un outil graphique qui permet d’évaluer
et de comparer globalement le comportement des classifieurs.
La courbe ROC met en relation le taux de vrais positifs TVP (la sensibilité, le rappel) et
le taux de faux positifs TFP (TFP = 1 - Spécificité) dans un graphique nuage de points.
Habituellement, nous comparons θ̂(ω) à un seuil s = 0.5 pour effectuer une prédiction
y(ω).

26
Figure 2.2 – Courbe ROC - Deux situations extrêmes.

Il est possible de caractériser numériquement la courbe ROC en calculant la sur-


face située sous la courbe. C’est le critère AUC. Elle exprime la probabilité de placer un
individu positif devant un négatif. Ainsi, dans le cas d’une discrimination parfaite, les
positifs sont sûrs d’être placés devant les négatifs, nous avons AUC = 1. A contrario, si
le classifieur attribue des scores au hasard, il y a autant de chances de placer un positif
devant un négatif que l’inverse, la courbe ROC se confond avec la première bissectrice,
nous avons AUC = 0.5. C’est la situation de référence, notre classifieur doit faire mieux.
On propose généralement différents paliers pour donner un ordre d’idées sur la qualité de
la discrimination.

Valeurs de l’AUC Commentaire


AUC=0,5 Pas de discrimination
0, 7 < AU C < 0, 8 Discrimination acceptable
0, 8 < AU C < 0, 9 Discrimination excellente
AU C >= 0, 9 Discrimination exceptionnelle

Table 2.1 – Interprétations des valeurs de la surface AUC

27
Au final, il apparaît que le critère AUC est un résumé très commode. Il permet,
entre autres, les comparaisons rapides entre les classifieurs, Mais il est évident que si l’on
souhaite analyser finement leur comportement, rien ne vaut la courbe ROC.

2.2 Séparateurs à Vaste Marge (SVM) :


Les machines à vecteurs de support (Support Vector Machine, SVM) appelés aussi
séparateurs à vaste marge sont des techniques d’apprentissage supervisées destinées à
résoudre des problèmes de classification.La justification intuitive de cette méthode d’ap-
prentissage est la suivante : si l’échantillon d’apprentissage est linéairement séparable, il
semble naturel de séparer parfaitement les éléments des deux classes de telle sorte qu’ils
soient le plus loin possibles de la frontière choisie.

2.2.1 Principe de la technique SVM :


Cette technique est une méthode de classification à deux classes qui tente de sépa-
rer les exemples positifs des exemples négatifs dans l’ensemble des exemples. La méthode
cherche alors l’hyperplan qui sépare les exemples positifs des exemples négatifs, en ga-
rantissant que la marge entre le plus proche des positifs et des négatifs soit maximale.
L’intérêt de cette méthode est la sélection de vecteurs supports qui représentent les vec-
teurs discriminant grâce auxquels est déterminé l’hyperplan. Les exemples utilisés lors de
la recherche de l’hyperplan ne sont alors plus utiles et seuls ces vecteurs supports sont
utilisés pour classer un nouveau cas, ce qui peut être considéré comme un avantage pour
cette méthode.

2.2.2 Classifieur linéaire


Un classifieur est dit linéaire lorsqu’il est possible d’exprimer sa fonction de décision
par une fonction linéaire. On peut exprimer une telle fonction par :

n
X
h(x) = ⟨w, x⟩ + b = w i xi + b (2.18)
i=1

où : w (∈ Rn ) est le vecteur de poids et b(∈ R0 ) le biais, alors que x est la variable


du problème. X est l’espace d’entrée et qui correspond à Rn , où n est le nombre de

28
composantes des vecteurs contenant les données. Notons que l’opérateur ⟨ ⟩ désigne le
produit scalaire usuel dans Rn . w et b sont les paramètres à estimer de la fonction de
décision h(x).
Pour décider à quelle catégorie un exemple estimé x ′ appartient, il suffit de prendre le
signe de la fonction de décision : y = sign(h(x ′ )). la fonction sign() est appelée classifieur.
Géométriquement (figure 2.3), cela revient à considérer un hyperplan qui est le lieu des
points x satisfaisant ⟨w, x⟩ + b = 0.
En orientant l’hyperplan, la règle de décision correspond à observer de quel coté de
l’hyperplan se trouve l’exemple x ′ .
On voit que le vecteur w définit la pente de l’hyperplan (w est perpenduclaire à
l’hyperplan). Le terme b quant à lui permet de translater l’hyperplan parallèlement à
lui-même.
L’objectif de la discrimination linéaire est de trouver la bonne fonction de décision h(x).La
classe de tous les hyperplans qui en découle sera notée H.

Figure 2.3 – hyperplan séparateur

2.2.3 Marge maximale de l’hyperplan


La marge est la distance entre la frontière de séparation et les échantillons les plus
proches. Dans les SVM, la frontière de séparation est choisie comme celle qui maximise

29
la marge. La marge géométrique représente la distance euclidienne prise perpendiculaire-
ment entre l’hyperplan et l’exemple xi . En prenant un point quelconque xp se trouvant
sur l’hyperplan, la marge géométrique peut s’exprimer par :

w
∗ (xi − xp ) (2.19)
||w||

2.2.4 SVM non-linéaires


Le paragraphe précédent décrit le principe des SVM dans le cas ou les données sont
linéairement séparables. Cependant, dans la plupart des problèmes réels, ce n’est pas
toujours le cas et il est donc nécessaire de contourner ce problème (difficile de séparer
n’importe quel jeu de données par un simple hyperplan). Si par exemple les données des
deux classes se chevauchent sévèrement, aucun hyperplan séparateur ne sera satisfaisant.
Dans ce but, l’idée est de projeter les points d’apprentissage xi dans un espace T de
dimension q, plus élevée que n grâce à une fonction non-linéaire ϕ qu’on appelle fonction
noyau, choisie à priori et d’appliquer la même méthode d’optimisation de la marge dans
l’espace T . L’espace T ainsi obtenu est appelé l’espace des caractéristiques ou aussi espace
transformé.
Tout ce qu’il nous reste à faire c’est de résoudre le problème dans l’espace T , en remplaçant
⟨xi , xj ⟩ par ⟨ϕ(xi ), ϕ(xj )⟩.
Dans la pratique on choisit une famille de ces fonctions noyaux qui sont très appropriées
aux besoins des SVM peut être définie, en voici les plus utilisés :
Noyau polynomial d’ordre p :

K(xi , xj ) = (⟨xi , xj ⟩ + 1)d (2.20)

Avec d la dimension de l’espace transformé induit par un noyau polynomial.


Noyau linéaire :
K(xi , xj ) = (xi , xj ) (2.21)

Noyau gaussien de largeur de bande :

||xi − xj ||2
K(xi , xj ) = exp(− ) (2.22)

30
Le paramètre σ permet de régler la largeur de la gaussienne. En prenant un σ grand, la
similarité d’un exemple par rapport à ceux qui l’entourent sera assez élevée, alors qu’on
prenant un σ tendant vers 0, l’exemple ne sera similaire à aucun autre.

2.2.5 Avantages et inconvénients :


Avantages :

— Les SVM possèdent des fondements mathématiques solides.

— Les exemples de test sont comparés juste avec les supports vecteur et non pas avec
tout les exemples d’apprentissage.

— Décision rapide. La classification d’un nouvel exemple consiste à voir le signe de la


fonction de décision f(x).

Inconvénients :

— Classification binaire d’où la nécessité d’utiliser l’approche un-contre-un.

— Temps de calcul élevé lors d’une régularisation des paramètres de la fonction noyau.

— Grande quantité d’exemples en entrées implique un calcul matriciel important.

2.3 Les réseaux de neurones :


Un réseau de neurones artificiel est un modèle de calcul dont la conception est très
schématiquement inspirée du fonctionnement de vrais neurones.
Les réseaux de neurones sont des algorithmes, qui permettent à partir d’une entrée x ,
de calculer une sortie y à travers plusieurs couches cachées (Figure 3.2). Cette sortie est
le plus souvent un ensemble de probabilités . Le programme informatique qui permet de
calculer cette fonction est très simple : il est composé d’un enchaînement de plusieurs
étapes, et chaque étape effectue des calculs élémentaires (des additions, des multiplica-
tions, et un maximum). En comparaison, les programmes informatiques que l’on trouve
dans le système d’exploitation d’un ordinateur sont beaucoup plus complexes. Mais ce
qui fait l’énorme différence entre un algorithme « classique » et un réseau de neurones,
c’est que ce dernier dépend de paramètres, qui sont les poids des neurones.

31
Figure 2.4 – Schéma de la structure d’un réseau artificiel de type "feed-forward"

2.3.1 Propagation en avant :


Le réseau neuronal artificiel modélisé dans notre travail est à propagation avant.
ce qui signifie qu’il va traverser le réseau d’entrée à la sortie sans retour en arrière de
l’information. Le réseau est ainsi construit comme un modèle de classification en deux
étapes en transformant d’abord linéairement l’entrée x via un vecteur de poids w :

hj = ϕ(wj0 + wjT x), hspace ∗ 2cmi = 1....J (2.23)

avec wj = [wj1 , wj2 , ..., wjp ] et ϕ(.) est la fonction d’activation.


La combinaison linéaire transformée des variables d’entrée est appelée la couche cachée du
réseau et le premier étage du modèle. La deuxième étape consiste à distribuer les entrées
transformées linéairement définies dans l’équation 2 à la couche de sortie en introduisant
un nouveau vecteur de poids, défini comme suit :

T
zm = α0m + αm h, m = 1....M (2.24)

32
Avec : h = [hj1 , hj2 , ..., hJ ] et αm = [αm1 , αm2 , ..., αmJ ] est le vecteur de poids pour la
couche de sortie. La sortie est ensuite à nouveau transformée par une fonction d’activation.
La fonction d’activation (ou fonction de seuillage, ou encore fonction de transfert) sert à
introduire une non-linéarité dans le fonctionnement du neurone. Les fonctions de transfert
sont nombreuses, on cite :

1. La fonction sigmoïde La fonction Sigmoïde donne une une probabilité entre 0 et


1, . Elle est donc très utilisée pour les classification binaire, lorsqu’un modèle doit
déterminer seulement deux labels ;

2. La fonction Softmax elle permet de transformer un vecteur réel en vecteur de


probabilité.Elle s’utilise souvent dans la couche finale d’un modèle de classification,
notamment pour les problèmes multiclasses ;

3. La fonction tanh est simplement la fonction de la tangente hyperbolique.Il s’agit


en fait d’une version mathématiquement décalée de la fonction sigmoïde :
— sigmoïde donne un résultat entre 0 et 1

— tanh donne un résultat entre -1 et 1


L’avantage de tanh est que les entrées négatives seront bien répertoriées comme
négatives là où, avec sigmoïde, les entrées négatives peuvent être confondus avec les
valeurs proches des nulles.

4. La fonction Relu La fonction Rectified Linear Unit (RELU) est la fonction d’ac-
tivation la plus simple et la plus utilisée.Elle donne x si x est supérieur à 0, 0 sinon.
Autrement dit, c’est le maximum entre x et 0.

Puisque ce modèle effectue une classification binaire, le choix de la fonction de transfor-


mation est la fonction sigmoïde.

1
fm (x) = ρm (h) = , m = 1...M (2.25)
1 + exp(hm )

ou ρ(.) est la fonction sigmoïde. Il est à noter aussi que cette méthode suppose la norma-
lisation des variables.

2.3.2 Apprentissage du réseau : rétro-propagation


L’apprentissage est l’estimation des paramètres wj0 , wj , j = 1...J et α0m , αm , m =
1...M par minimisation de la fonction perte quadratique ou de celle d’une fonction d’en-

33
tropie en classification :

n
X n X
X M
Q(w, α) = Qi = − yi logfm (xi ) (2.26)
i=1 i=1 m=1

Différents algorithmes d’optimisation sont proposés, ils sont généralement basés sur une
évaluation du gradient par rétro-propagation. La minimisation de Q(w, α) se fait par op-
timisation numérique à l’aide de l’algorithme de rétro-propagation qui dévalue la dérivée
de cette fonction coût en une observation et par rapport aux différents paramètres.

∂Qi −yim ′
= ρ (wT hi )hji (2.27)
∂wmj ρm (xi ) m m

M
∂Qi X yim ′
=− T
ρm (wm hi )wmj ϕ′ (αjT xi )xil (2.28)
∂αjl m=1
ρ m (hi )

Compte tenu de ces dérivées, uneise à jour par descente de gradient à la la (n+1)ème
itération a la forme suivante :

n
(n+1)
X ∂Qi
wjm = wjm − η (n)
(2.29)
i=1 ∂wmj

(n+1) ∂Qi
αjl = αjl − η (n)
(2.30)
∂αjl
où η est le taux d’apprentissage qui joue un rôle important pour l’algorithme de descente
de gradient. Un petit taux d’apprentissage ralentit la convergence et un grand taux d’ap-
prentissage pourrait ne pas converger complètement.
Au début, l’algorithme utilise un taux d’apprentissage élevé pour accélérer la convergence
mais dès que l’algorithme se rapproche d’une valeur optimale pour les vecteurs de poids,
le taux d’apprentissage diminue.
L’algorithme ADAM incorpore ces taux d’apprentissage adaptatifs et garde la trace à la
fois des gradients passés et des gradients quadratiques passés. learning_rate : Ce para-
mètre devrait être une politique de mise à jour, ou un optimiseur.

2.3.3 Avantages et inconvénients :


Avantages :

— Classifieur très précis (si bien paramétré).

34
— Apprentissage automatique des poids.

— Possibilité de faire le parallélisme (les éléments de chaque couche peuvent fonctionner


en parallèle).

— Résistance aux pannes (si un neurone ne fonctionne plus, le réseau ne se perturbe


pas).

Inconvénients :

— Détermination de l’architecture du réseau est complexe.

— Paramètres difficiles à interpréter (boite noire).

— Difficulté de paramétrage surtout pour le nombre de neurone dans la couche cachée.

35
Conclusion

Dans cette partie, nous avons mis le point sur le cadre théorique et les paramètres utilisés
dans nos modèles statistique, afin de savoir le fond théorique de ce qu’on fait .

36
Chapitre 3
Modélisation du risque de défaut - Cadre
pratique

Dans cette partie nous allons procéder à la préparation des données ainsi que la modéli-
sation du risque de défaut. En effet le pré-traitement des données est une étape cruciale
dans toute analyse en vue de vérifier avec soin toutes les variables et de déceler d’éven-
tuelles erreurs. L’objectif est d’éliminer les données de mauvaise qualité (redondantes,
incomplètes ou incorrectes) et de commencer à créer les données qui peuvent garantir un
environnement sain pour mener une modélisation tangible.
Nous formerons ensuite aux méthodes d’apprentissage automatique dans le contexte spé-
cifique de la modélisation du risque de crédit. Nous mettrons en exergue les commandes
de mise en oeuvre des méthodes évoquées précédemment puis nous étudierons leurs per-
formances.

37
3.1 Présentation du cadre du travail :
Dans le présent travail, les modèles en étude sont des modèles à variables dépen-
dantes dichotomiques. L’entreprise pour laquelle nous devons construire un modèle en
mesure de prédire la probabilité de défaut de ses clients, est une entreprise marocaine
spécialisée dans les solutions de crédits, qui a pour vocation de donner des produits de cré-
dits classiques.On est alors amené à réaliser des modèles statistiques qui vont permettre
la prévention du risque crédit inhérent à son activité.

3.1.1 Analyse de la base de données :


Autant que faire se peut, nous utiliserons un jeu de données qui correspond à un
échantillon représentatif des clients auprès de la SOFAC sur une période de quatre ans,
allant de 2018 jusqu’à 2021. La base brut contient 102594 observations. Toutefois, de
par la problématique traitée on ne gardera que les dossiers qui sont valides, c’est à dire
qu’après avoir négocié les conditions du prêt avec la société en question, celle-ci a édité
une acceptation de crédit, soit 55860 observations au final.

3.1.1.1 Scope de l’analyse :


De nombreux analyses aboutissent à des échecs. Quand on en analyse les causes on
s’aperçoit souvent que le périmètre de l’étude est mal défini. Définir clairement la portée
de l’étude permet de guider le travail d’analyse et réduit ainsi les possibilités que les
résultats soient facilement remis en question. Pour ce faire, il est souhaitable de définir
et de formuler les besoins de l’analyse et d’inclure, dans la définition du cadre de travail
l’horizon sur lequel nous travaillerons. Le risque lorsque le périmètre de l’analyse
est mal défini, c’est qu’il faille prendre en compte des affaires qui ne sont pas concernées.
Il est donc particulièrement important d’analyser en amont l’ensemble des besoins et des
intérêts de l’analyse exprimés de façon à identifier le plus clairement possible les différentes
fonctionnalités qui devront être prises en compte. Dans notre cas on ne va garder que les
affaires qui ont cumulé 24 mois d’échéances prélevées, soit 32381 observations.

38
3.1.1.2 Compréhension des variables :
La base de données sujette de notre étude contient des informations sur 32381 clients
relatives à 46 variables. Il est important de comprendre la signification de chacune de ces
variables. En revanche par faute d’espace on n’explicitera que certaines, les informations
en plus constitueront nos annexes.

Nom des variables Signification Type


VOUT_SEXE Le sex du client. Qualitative.
MONTANT_DEMANDE Le montant du prêt. Quantitative.
DUREE_DEMANDE La durée en mois du crédit. Quantitative.
MENSUALITE_DEMANDE Les traites versées mensuellement. Quantitative.
ANCIENNETE_ACTIVITE Représente la durée de l’emploi. Quantitative.
REVENU_CLIENT Le revenu du client. Quantitative.
CHARGES Les charges
P déclarées hors SOFAC. Quantitative.
MINIMUM_VITAL Revenu- charges + traites Quantitative.
SOLDE_IMPAYE Le solde impayé au moment de Quantitative.
l’octroi.
VOUT_TEMPORISATION La durée entre deux dossiers de Quantitative.
crédit.
VIN_CREDIT_LOGEMENT Si le client a un crédit de logement Quantitative.
ou non.
TAUX_ENDETTEMENT La somme des charges par rapport Quantitative
au revenu.
MAX_NBR_MOIS_RETARD C’est une échelle dévaluation du Qualitative.
retard que commet le client.
NBR_ANCIENNE_AFFAIRE Combien de fois le client a pris un Quantitative
crédit
FLAG_DEFAUT F lag_def aut = O, Si un client a Quantitative
cumulé au moins trois impayé

Table 3.1 – Explication des variables utilisées.

3.1.1.3 Variable à expliquée :


Le comité de Bâle II définit le défaut de la façon suivante : « Un défaut de la part
d’un débiteur intervient lorsque l’un des événements ci-dessous se produit :
• La banque estime improbable que le débiteur rembourse en totalité son crédit au
groupe bancaire sans qu’elle n’ait besoin de prendre des mesures appropriées telles
que la réalisation d’une garantie (si elle existe).

39
• L’arriéré du débiteur sur un crédit important dû au groupe bancaire dépasse 90
jours. »

Ainsi dans notre étude, on définit le critère de défaut conformément aux normes de Bâle
II :

• Critère de défaut : Cumul de 3 impayés (90 Jrs de non remboursement).

• Variable Flag_défaut : variable définissant le critère de défaut.

Ainsi, des 55860 observations retenues (pour lesquelles suffisamment de données étaient
disponibles), 2849 sont reconnues comme étant en défaut, représentant ainsi 5,1% des
affaires de l’échantillon.

3.1.2 Résumé de statistique descriptive :

3.1.2.1 Série statistique qualitative :


Une façon très usitée d’apprécier la répartition de ces variables est de construire un
diagramme en secteurs de répartition des effectifs et des fréquences entre les différentes
modalités possibles de la variable. Ainsi on peut résumer toutes les variables qualitatives
dans les graphes suivant :

40
41
Figure 3.1 – Description des variables qualitatives .

3.1.2.2 Série statistique quantitative :


Également pour le cas des variables quantitatives, la description des variables se base
sur les statistiques suivantes : la moyenne, la médiane, la variance, l’écart-type, les quan-
tiles,etc...

42
Figure 3.2 – Description des variables quantitatives.

3.2 Traitement des valeurs aberrantes :


Par rapport au traitement des valeurs aberrantes, certaines variables sont jugées par
expertise qu’elle contiennent des valeurs aberrantes. De par le fait qu’on va s’appuyer sur
la moyenne dans l’imputation de certaines données manquantes.On parle de la variable :
MINIMUM_VITAL :Pour un minimum vital inférieur à 1500 Dh, les affaires corres-
pondantes devront être éliminer car ils s’agissent tout simplement d’une faute de saisie.
TAUX_ENDETTEMENT : On a supprimé les observations qui enregistrent un taux
d’endettement supérieur à 80%, évidement on ne peut pas accorder un crédit à un client
dont les charges dépassent de beaucoup ses revenus.
REVENU_CLIENT :On a gardé que les clients dont le revenu est compris entre 2000
Dh et 45000 DH.
Après ce processus de traitement, les données exploitables sont donc 31248 affaires.

43
3.3 Traitement des valeurs manquantes :
En statistique on parle de valeurs manquantes lorsqu’on n’a pas d’observations pour
une variables donnée pour un individu donnée.
Les données manquantes ne peuvent pas être ignorée lors d’une analyse statistique,
mais selon leur proportion et leur type, des solutions différentes peuvent être mise en
oeuvre.
C’est tentant de se débarrasser tout simplement des individus ayant des valeurs man-
quantes mais au même temps on supprime une quantité très importante d’information,
donc pour y remédier, le traitement des valeurs manquantes se fait par le biais des mé-
thodes d’imputation qui consiste à remplacer cette valeur manquante au lieu de la sup-
primer.
Il existe diverses méthodes d’imputation :

• Imputation par moyenne :


Consiste à remplacer la valeur manquante ou incohérente par la valeur moyenne
calculée à partir des unités répondantes ayant le même ensemble de caractéristiques
prédéterminées.

• Imputation par analyse factorielle :


L’analyse en composante factorielle permet de reconstruire des données par projec-
tion dans un espace de dimension réduite. Cette caractéristique peut être exploiter
pour remplacer des données manquantes.

• Imputation par le plus proche voisin : Dans ce cas, il faut élaborer une sorte
de critère pour déterminer l’unité répondante qui ressemble le plus à l’unité ayant
la valeur manquante, conformément aux caractéristiques prédéterminées. L’unité la
plus proche de la valeur manquante est alors utilisée comme donneur. Il s’agit en
fait d’établir une fonction distance à partir de laquelle on déduit les non réponses.

Avant d’entamer le traitement des valeurs manquantes, on a essayé de comprendre


la survenance de ces derniers. la figure ci-dessous (figure 3.3) montre que plusieurs clients
n’ont pas renseigné les mêmes variables, ceci nous laisse présumer que ces clients ont
en particulier une caractéristique en commun qui fait qu’ils n’aillent pas répondu à ces
variables.

44
Figure 3.3 – Valeurs manquantes.

Figure 3.4 – Pourcentages des valeurs manquantes

45
La figures ci-dessus (3.4) montre que les pourcentages élevés (≈ 65%) des valeurs
manquantes existent au niveau des variables non renseignées pour les nouveaux clients,
seuls les anciens clients y répondent. Ceci dit qu’on est amené à subdiviser notre base
originale en deux bases ; une concerne les nouveaux clients et l’autre concerne les anciens,
et de procéder à leur traitement séparément.
Traitement de la base des anciens clients :
Dans cette base, on a 11087 observations et 42 variables. les variables supprimées
ont juste servit au calcul de la variable (SOLDE_BANCAIRE_MOYEN), donc on les a
supprimées.
Au niveau de cette base de donnes on n’a que 7 variables qui contiennent des données
manquantes. Pour plus de précision on va les traiter individuellement.
ces variables sont :

Figure 3.5 – Pourcentages des valeurs manquantes de la base des anciens clients

D’après (figure 3.5) on remarque que certaines variables présentent un faible pourcentage
de données manquantes, ceci dit qu’on se contentera de supprimer les affaires correspon-
dantes. Néanmoins, en ce qui concerne les variables présentant un pourcentage quand

46
bien même significatifs, on va les traiter indépendamment. Il est à savoir que les règles
qu’on a utilisées pour imputer les données manquantes, sont propres à l’organisme en
question et prennent en compte la classe socio-professionnelle des clients.

Pour la variable ANCIENNETE_ACTIVITE_PART : On a affecté aux don-


nées manquantes une valeur qui se calcule selon la variable CSP de chaque client :
Cas des retraitées :
Retraité [ANCIENNETE_ACTIVITE_PART’] = ((Retraité[’VOUT_AGE’]-25)*12)
Cas des militaires :
On va considérer le minimum entre deux grandeurs : la moyenne de la durée de l’emploi
des clients répondants et l’ancienneté (S) calculée d’après la règle propre à la SOFAC.
S = (Militaire[’VOUT_AGE’]-18)*12
Pour les deux autres classes, les salariées et les professionnels elles ne contenaient
pas de valeurs manquantes.

Pour la variable TAUX_ENDETTEMENT :Quelque que soit la classe du client


on a imputé les valeurs manquantes par le ratio montant demandé et la moyenne des
crédits.

M EN SU ALIT E
T X_EN DET = (3.1)
(CREDIT _M 1 + CREDIT _M 2 + CREDIT _M 3)/3

Pour la variable MINIMUM_VITAL : Toutes les valeurs manquantes existantes


correspondent à la classes des professionnels, chose qui semble très normal car les pro-
fessionnels n’ont pas cette notion de revenu. Pour les traitées on va leurs attribuer une
valeurs qui est calculée sur la base du solde moyen des crédits et les mensualités.

(CREDIT _M 1 + CREDIT _M 2 + CREDIT _M 3)


M IN _V IT = − M EN SU AL
3
(3.2)

Traitement de la base des nouveaux clients :


La base de données en question contient 20161 observations. Après avoir considérer
que les nouveaux clients on retrouve des variables qui contiennent à 100% des valeurs
manquantes il est donc impossible de restituer ces dernières et donc on va tout simplement

47
pas les considérer dans l’étape de la modélisation.
Les autres variables restantes seront traitées identiquement à la méthodologie explicites
auparavant.

Figure 3.6 – Pourcentages des valeurs manquantes de la base nouveau clients

3.4 Échantillonnage :
Après traitement de la base de données et codification des variables, on a procédé
à la construction de l’échantillon d’apprentissage et de l’échantillon test. La construction
des échantillons a été effectuée par subdivision de la base mère en deux sous bases de
données. L’échantillon d’apprentissage constitue 80% de la base mère, c’est l’échantillon
sur lequel on va construire nos modèles.
L’échantillon test représente 20% de la base mère et a pour fin de fournir une évaluation
impartiale d’un ajustement final des modèles sur le jeu de données d’apprentissage et de
tester sa stabilité et sa robustesse.
Avant d’entamer la construction du modèle sur l’échantillon d’apprentissage, nous
avons jugé bon de connaître le taux de défaillance de celui-ci.

48
On dispose ci-dessous (Table 3.2 )des proportions de la variable défaut au sein de notre
base de données :

Modalités Pourcentages
Non-Défaut 94,9%
Défaut 5,1%

Table 3.2 – Distribution des modalités de la variable cible.

Quand les déséquilibres de classes s’invitent parfois dans l’échantillon, les modèles
ne fonctionnent pas correctement. Du point de vue technique, la notion de “déséquilibre
de classe” est très importante en apprentissage automatique , et en particulier pour les
modèles de type “supervisés” qui impliquent deux classes.
Il existe plusieurs méthodes pour pallier à un déséquilibre des classes dans un jeu de
données :
Sous-échantillonnage (Downsampling) : Downsampling lorsque l’on dispose d’un
très grand nombre d’observations (à minima > 10K). Il s’agit ici simplement de reti-
rer aléatoirement des instances de la classe majoritaire afin de ré-équilibrer les propor-
tions.Toutefois cette technique peut accroître la variance du classifieur et peut éven-
tuellement éliminer de l’échantillon des observations utiles ou importantes, On perd par
conséquent de l’information,il y’a donc risque d’underfitting.
Sur-échantillonnage (Upsampling) : Upsampling il s’agit ici de dupliquer aléatoire-
ment certaines instances des classes minoritaires, rendant ainsi leur signal plus puissant.
Il y a toutefois ici un risque d’overffiting.

3.5 Régression logistique :

3.5.1 Construction du modèle :


Pour choisir la méthode la plus adéquate, on va soumettre notre base de données
aux deux algorithmes et voir celui qui propose le meilleur ajustement, pour ce faire on
va se baser sur l’aire au dessous de la courbe de ROC.
D’après les sorties SAS , la méthode offrant plus de robustesse est celle du upsampling. En
effet la surface de roc correspondante est bien importante, donc pour parer à ce problème
de déséquilibre des classes on va opter pour le sur-échantillonage de la base des anciens

49
ainsi que celle des nouveaux , ensuite on va devoir, pour la suite de la modélisation,
repartir nos bases de données, en bases d’apprentissage et de test.
Il est à noter qu’avant d’entamer la régression logistique, il est primordial d’étudier
la corrélation entre nos prédicteurs. On remarque que la majorité des variables ne sont
pas corrélées entre elles. Cela ne veut pas dire qu’on va exclure les variables corrélées , à
l’inverse on va les introduire et voir à leur tour, leurs contributions dans le modèle.

3.5.1.1 Élaboration du modèle des anciens clients :


Pour une première entrée on a construit un modèle avec toutes les variables. D’après
la sortie SAS (figure 3.7) il s’avère que les variables relatives au profil du client présentant
une certaine anomalie. Certes en terme statistique, ils sont hautement significatives mais
d’un point de vue économique n’admettent pas d’interprétation. A titre d’exemple la
variable VOUT_AGE ; empiriquement plus l’âge augmente, plus la probabilité que le
client fasse défaut diminue. Cependant, dans la réalité des choses en atteignant un certain
âge, la probabilité va devoir rester la même et tendra vers 0.

Figure 3.7 – Sortie de la sélection stepwise.

Afin de remédier au problème évoqué , on a décidé d’ajouter le carré des variables


qui sont susceptibles a introduire ce type de problème et qui sont : Le revenu du client,
l’âge du client , son ancienneté bancaire ainsi que l’ancienneté de son activité.
On obtient par conséquent la sortie ci-dessous (figure 3.8). le modèle a retenu 19 variables
qui sont toutes significatives au seuil de 5%.

50
Figure 3.8 – Sortie de la sélection stepwise du modèle avec les variables carré .

Significativité des coefficients du modèle :


R2 de Mc fadden :
Ce R2 est différent de celui obtenue par une régression linéaire. Il mesure la dif-
férence entre la réponse moyenne prédite pour les cas où la réponse observée est O et
la réponse moyenne prédite pour les cas où la réponse observée est N.Pour notre cas il
est égale à 0.2503 ce qui signifie que le modèle à un bon pouvoir a séparer les deux groupes.

Figure 3.9 – R2 MC Fadden -Anciens clients-

Le test de rapport de vraisemblance et de Wald :


Les tests sur les coefficients consistent avant tout à éprouver leur significativité.Nous
disposons de deux outils pour réaliser les tests. La statistique du rapport de vraisemblance
et la statistique de Wald qui se rejoignent lorsque le nombre d’observations devient élevé.

51
Figure 3.10 – Tests de significativité -Anciens clients-

Les deux test sont siginificatives au seuil de 5%. On rejette donc l’hypothèse nulle et on
conclut que les variables sont globalement siginificatives.
Interprétations des coefficients du modèle :
Le modèle peut donc s’écrire de la sorte :

DEFAUT = 2.9801 +0.0391 VIN_MONTANT_DEMANDE +....+ 0.0641 ANC_ACTI_2

Dans Les résultats (figure 3.8), la variable montant demandé a un coefficient posi-
tive,c’est à dire que cette variable évolue dans le même sens que la probabilité de l’évè-
nement ; cela veut dire que plus le montant demandé augmente, plus la probabilité de
faire défaut augmente. En effet lorsque les montants sont grands, il ne peut s’ensuivre
que des risques de faillite importants puisque le client devient plus susceptible de ne pas
être capable de rembourser son crédit.
De même pour la classe socio-professionnelle des clients c’est bien naturellement de
trouver que chez les professionnels, le risque de défaut est plus présent, tout simplement
car ils mènent des activités non sûre où le risque de tout perdre est ubiquiste.
D’autre part les variables contribuant de manière à ce que la probabilité de défaut di-
minue sont le REVENU_CLEINT , TAUX_ENDETTEMENT, ANCIENNETE_ACTIVITE.
Pour la variable revenu_client, plus le client détient un revenu important plus il
n’est pas exposé au risque de défaut et il sera en mesure d’honorer ses engagements envers
la SOFAC.
De la même logique on interprète le coefficient de la variable ANCIENNETE_ACTIVITE.
Plus un client est ancien auprès de son travail, plus il aura tendance à toucher un salaire
bien plus important et donc il réglera ses traites.
Par rapport à la variable taux d’endettement, plus elle augmente plus les charges
du client excède son revenu qui est censé couvrir à la fois ses charges personnelle en plus
des charge relatives à l’entreprise préteur.

52
Validation du modèle :
Courbe de ROC :
Nous avons 80,18% de chances de placer un positif devant un négatif en "scorant" avec
notre modèle à comparer avec les 50% de la situation de référence. Ce résultat est plu-
tôt encourageant. On pouvait facilement le deviner d’ailleurs en observant le graphique
(Figure 3.11). La courbe s’écarte sensiblement de la première bissectrice.

Figure 3.11 – Courbe de ROC pour le modèle des anciens clients.

Matrice de confusion :
La matrice de confusion montre qu’on à un taux de bon classement de 72.6%. En
effet on a 3170 observations qui sont prédites correctement, soit un taux d’erreur de 27%.

Figure 3.12 – Matrice de confusion pour le modèle des anciens clients .

53
Test de Hosmer-lemeshow :
La p-value du test est supérieur à 0.05, on accepte donc l’hypothèse nulle qui précise
qu’on a un ajustement bon.

Figure 3.13 – Test de Hossmer lemeshow sur la base des anciens clients.

3.5.1.2 Élaboration du modèle des nouveaux clients :


Pour ne pas tomber dans les mêmes problèmes d’interprétations évoqués ci-dessus.On a
ajouté également pour cette base, le carré des variables concernant le profil des clients.
Tout comme la démarche explicitée au paravent, on a inclus toutes les variables sauf celles
qui avait 100% des valeurs manquantes, on ne peut malheureusement pas faire de miracle
pour les établir.La sélection du modèle à été effectué en 19 étapes. 16 variables on été
retenue (Figure 3.14) .

Figure 3.14 – Sortie de la sélection stepwise sur la base des nouveaux clients .

Significativité du modèle :
R2 de Mc fadden :
Dans notre cas, avec RM
2
F = 0.2309, il semble que notre modèle est bon et se dé-

54
marque du modèle trivial. On ne saurait pas dire en revanche si l’apport est significatif
ou non, nous en saurons d’avantage lorsque nous aborderons l’évaluation statistique avec
le test wald et de rapport de vraisemblance.

Figure 3.15 – R2 MC Fadden -Nouveaux clients-

Le test de rapport de vraisemblance et de Wald :


Pour tester la nulleté simultanée des coefficients rattachés aux variables retenues,
on va utiliser la statistique de wald qui suit une X2 à 27 degrés de liberté.Manifestement,
au risque 5%, l’hypothèse nulle est rejetée. Le modèle est globalement significatif. Ce
résultat ne contredit pas celui du rapport de vraisemblance ni de score qui formulent
d’ailleurs les mêmes hypothèses.

Figure 3.16 – Tests de significativité -Nouveaux clients-

Interprétations des coefficients du modèle :


Le modèle peut donc s’écrire de la sorte :
DEFAUT = 2.5962 +0.0672VIN_MONTANT_DEMANDE +....+0.0075 ANCIENNETE_ACTIVITECARRE

Par rapport aux interprétations des variables on ne trouve aucune anomalie com-
parée aux conclusions qu’on a dégagé au niveau des sorties relatives à la base des anciens
clients. Si fait qu’on veut d’amples interprétions on peut citer par exemple la variable
ancienneté bancaire qui présente un coefficient négatif, autrement dit plus le client est

55
ancien auprès de sa banque plus sa probabilité à faire défaut diminue et il réglera ses
engagement avec assiduité.
En outre pour la variable VIN_MAX_NBR_RET on remarque que les coefficients
suivent une tendance croissante c’est à dire que plus le client enregistre un nombre im-
portant de mois de retard plus il est exposé à faire défaut, et ne pourra pas s’acquitter
de ses responsabilités.

Validation du modèle :
Courbe de roc :
L’aire sous la courbe ROC est de 0.76, ce qui veut dire qu’une AUC de 77% .C’est un
pourcentage satisfaisant et affirment la validité de notre modèle.

Figure 3.17 – Courbe de ROC pour le modèle des nouveaux clients.

Matrice de confusion :
la matrice de confusion montre qu’on à un taux de bon classement de 70,4% . En effet
sur un total de 7641 on a 5378 observations qui sont correctement prédites.

56
Figure 3.18 – Matrice de confusion pour le modèle des nouveaux clients .

Test de hosmer-lemeshow :
On a une p-value supérieur à 0.05, donc on accepte notre hypothèse nulle qui porte sur
le fait que les probabilités prévues ne diffèrent pas trop des probabilités observées. Donc
notre modèle s’ajuste bien aux données.

Figure 3.19 – Test de Hossmer lemeshow sur la base des nouveaux clients.

3.6 Support à vaste marge :

3.6.1 Élaboration du modèle des anciens clients :


Après échantillonage, nous pouvons dès à présent créer notre SVM dans sklearn
cela consiste à créer un objet SVC (support vector classificator). L’un des paramètres
importants est le noyau ‘kernel’, comme présenté plus haut, c’est une fonction qui sert à
transformer les données dans une représentation spécifique ou encore séparer des données
qui sont linéairement séparables. Il est principalement utilisé lorsqu’il existe un grand
nombre d’entités dans un ensemble de données cela fait exactement notre cas d’étude.
La valeur du paramètre C est un hyper-paramètre qui régit la performance du SVM. Ce
paramètre sert à fixer le compromis entre la minimisation de l’erreur d’apprentissage et
la maximisation de la marge, il doit être strictement positive. Dans un premier temps
on a utilisé une valeur par défaut de ce paramètre qui est égale a 1.0 . Pour évaluer

57
la performance de notre modèle,nous avons calculé le taux de bonne classification.Les
résultats sont présentés dans la figure (3.23).

Figure 3.20 – Accuracy du modèle SVM sur le modèle des anciens clients.

Figure 3.21 – Matrice de confusion du modèle SVM sur la base des anciens clients.

Optimisation du modèle :
En règle générale, les meilleures performances prédictives possibles sont obtenues garce
à des noyaux non linéaire (ou au moins aussi bonnes que le noyau linéaire). Il a été dé-
montré que le noyau linéaire est une version dégénérée de RBF, par conséquent, le noyau
linéaire n’est jamais plus précis qu’un noyau RBF correctement réglé. en premier lieu on
a tester le noyau linéaire il est beaucoup plus rapide de l’entraîner et on a obtenu un
taux de bon classement satisfaisant or, on a voulu optimiser notre modèle en utilisant
GridSearchCV.

58
C’est un méta-estimateur. Il prend un estimateur (svc par exemple ) en tant que pa-
ramètre et crée un nouvel, qui se comporte exactement de la même manière que celui
d’avant. Dans notre cas on parle de classifieur.
Puisque on va choisir kernel=’rbf’ on est amené à indiquer les parametres C et gamma.
On a considéré 5 valeurs pour chacuns des deux paramètres.

’C’ : [0.1, 1, 10, 100, 1000],


’gamma’ : [1, 0.1, 0.01, 0.001, 0.0001].
Gamma décide sur la courbure voulue dans une limite de décision, ceci dit que si Gamma
est élevé on plus de courbure et vice versa .
Après 125 simulations , les hyperparamètres fixés sont donc : C=10 et gamma=1.
Précision du modèles avec les hyper paramètres :
Ayant utiliser les paramètres cité ci-dessus on a obtenue un modèle avec une préci-
sion de 82% .

Figure 3.22 – Matrice de confusion du modèle SVM sur la base des anciens clients .

3.6.2 Élaboration du modèle des nouveaux clients :


Maintenant pour la base des nouveaux clients on va procéder par les mêmes étapes.
Nous avons donc entraîner notre modèle en appelant la fonction standard SVC () sans
faire les réglage d’hyperparamètre a part l’imposition d’un kernel linéaire .On obtient
alors sa matrice de confusion.

59
Figure 3.23 – Matrice de confusion du modèle SVM sur la base des anciens clients avec
les hyper-paramètres.

A partir de cette matrice , le modèle nous a permis de faire 5076 prédictions cor-
rectes, et le taux de bon classement de ce modèle est de 68% , un pourcentage qui n’est
pas assez satisfaisant . Optimisation du modèle :
Le taux de bon classement obtenu signifie que notre modèle doit avoir des paramètres
réglés. C’est ici que l’utilité de GridSearch entre en scène. Nous allons rechercher des
paramètres en utilisant GridSearch. Puisque on va choisir kernel=’rbf’ on est ammené à
indiquer les paramètres C et gamma encore une fois pour la base des nouveaux clients .
’C’ : [0.1, 1, 10, 100, 1000], ’gamma’ : [1, 0.1, 0.01, 0.001, 0.0001].
Ayant appliquer cet optimisateur à notre base d’entraînement, les meilleurs hyper para-
metres choisis sont : C=1000 et gamma=1.
Précision du modèles avec les hyper paramètres :
Ayant utiliser les paramètres cité ci-dessus on a obtenue un modèle avec une précision de
79% .

60
Figure 3.24 – Matrice de confusion sur la base des NVc lientsavecleshyper−paramtres.

3.7 Réseaux de neurones artificielles :

3.7.1 Élaboration du modèle des anciens clients :


Les réseaux de neurones apprennent mieux si les données sont préalablement nor-
malisées, c’est à-dire qu’on doit veiller à ce que la variance des valeurs soit la même pour
tous les descripteurs que ce soit pour la base train ou bien la base test. Nous avons utilisé
ici un apprentissage par réseaux de neurones. Nous illustrons cette modélisations avec un
réseau de neurones à trois couches cachées, chacune comportant 10 neurones.
Par rapport au solveur, on a utilise celui d’Adam qui vient substituer la procédure clas-
sique de descente de gradient stochastique pour mettre à jour les poids du réseau de
manière itérative en fonction des données d’apprentissage, c’est un algorithme qui fonc-
tionne assez bien sur des ensembles de données relativement volumineux.
Le solveur itère jusqu’à la convergence , jusqu’à ce que le nombre maximal d’itérations soit
atteint.Autrement lorsque la perte ne s’améliore pas d’au moins "tol"=Tolérance pour
l’optimisation, pendant un nombre n d’itérations, la convergence est considérée comme
atteinte et l’apprentissage s’arrête.

61
Figure 3.25 – Réseau de neurones -Anciens clients-.

On obtient la matrice de confusion du modèle qui stipule un taux de bon classement


d’environs ≈ 85% .Notre modèle est bien puissant.

Figure 3.26 – Matrice de confusion ‘du RN pour le modèle des anciens clients .

3.7.2 Élaboration du modèle des nouveaux clients :


L’approche ainsi que les paramètres sont les mêmes, la prévision de l’échantillon
test par un réseau de neurones conduit à la matrice de confusion ci-dessous et donc un
taux de bon classement de ≈ 81%..

62
Figure 3.27 – Matrice de confusion du RN pour les nouveaux clients.

3.8 Choix du meilleur modèle :


Aprés avoir obtenu les taux de bon classement pour tout les modèles réalisés, on
est amené à faire une comparaison entre ces derniers, afin de sélectionner celui qui a le
meilleur pouvoir prédictif .

Modèles Taux de bon classement


Anciens clients Nouveaux clientx
Régression logistique 72% 70%
SVM 82% 79%
réseau de neurones 85% 81,1%

Table 3.3 – Taux de bon classement des modèles obtenues.

63
Conclusion

Dans ce chapitre on a essayé de modélisé le risque de crédit, en utilisant trois modèles ;


à savoir la régression logistique, SVM et réseaux de neurones.
Après avoir tester la performance de chacun de ces modèles, on a conclut que le modèle
des réseaux de neurones est celui qui offre le meilleur pouvoir prédictif .

64
Chapitre 4
Diagnostic et méthodologie IFRS 9

L’objectif de cette partie est justement de mettre en exergue les impacts potentiels de
l’adoption de cette norme. bien qu’en terme de pouvoir prédicatif, le modèle de régression
logistique est celui offrons plus de robustesse, nous prenons donc comme terrain d’étude
les probabilité de défaut estimées par ce modèle.
Ainsi pour se prémunir contre les pertes, nous estimons sur les encours de la SOFAC et
on comptabilisera une provisions en conséquence qu’on va comparer a celle calculée par
l’entreprise.

65
4.1 Diagnostic et méthodologie IFRS 9 :
Dans le cadre du retraitement de la norme IFRS 9 pour SOFAC, il a été retenu ce
qui suit :

• Critère de dégradation du risque : Le suivi de la dégradation significative du


risque de crédit est défini uniquement à travers les impayés.
SOFAC ne dispose que d’un système de notation à l’octroi. En l’absence de notation de
comportement, le système de notation ne peut être utilisé pour apprécier la dégradation
du risque de crédit ou déterminer la probabilité de défaut. Les informations sont enre-
gistrées mensuellement au niveau du contrat. La base de données dispose des champs «
Date de premier impayé » et « Nombre d’impayés ».
Le portefeuille est réparti en classes de risque homogènes (CSP) :

— Pour les prêts personnels, il existe 4 CHR : Retraités, Militaires , Salariés, profes-
sionnels ;

— Pour les crédits automobiles, il existe 5 CHR : crédits automobiles classiques per-
sonnes physiques, crédits LOA personnes physiques, crédits automobiles classiques
personnes morales loueurs, crédits automobiles classiques personnes morales hors
loueurs, crédits LOA personnes morales.

En cas de règlement des impayés partiels (par exemple : 1 impayé est réglé alors que 3
sont dus), la règle FIFO (premier arrivé – premier servi) est appliquée. La date du premier
impayé se déplace donc en cas d’un règlement partiel (Sauf les impayés techniques).
• Critère de défaut : Le critère des 3 impayés reste cohérent avec le critère de défaut
qui est au-delà de 90 jours. Les critères de classification retenus par SOFAC sont les
suivants :

— Bucket 1 : Aucun impayé ;

— Bucket 2 : 1 et 2 impayés ou Dossier ayant atteint le défaut historiquement et


régularisé par la suite ;

— Bucket 3 (défaut) : Les dossiers présentant 3 impayés et plus.

66
La méthodologie la plus appropriée de calcul des ECL est le cas général. SOFAC
dispose de toutes les données historiques sur son portefeuille permettant de calibrer les
paramètres du risque (EAD, PD et LGD) et ainsi de calculer les pertes de crédit attendues.
• La Probabilité de Défaut (PD) : représente le taux de passage en défaut. Elle est
issue des matrices de transitions calculées sur l’historique des impayés (mois par mois).
• La LGD (Loss Given Default) : représente le montant de la perte en cas de défaut.
La LGD est calculée à partir des courbes de récupération des créances contentieuses et
calibrée pour les créances non contentieuses par un historique de passage en contentieux
tenant compte du taux de retour en sain.
• L’EAD (Exposure At Default) : représente l’exposition en cas de défaut en pre-
nant en considération les remboursements par anticipation. Les remboursements anticipés
concernent tout le portefeuille. Ils sont observés et un historique de tous les rembourse-
ments anticipés est disponible pour le calcul du taux de remboursement annuel empirique.
• L’ECL (Expected Credit Loss) : représente la perte de crédit attendue à maturité.

4.2 IFRS 9 : Calcul des paramètres :

4.2.1 Calcul des PD :


Dans ce cas, on calcule les probabilités de défaut associées aux classes d’impayés
définies à aide de la méthode markovienne.
La méthode adoptée est définie comme suit :
• Projection de PD à 1an : On calcule sur l’historique de passage des créances saines
(Bucket1) vers le défaut de manière unitaire sur un horizon d’une année et on calcule la
moyenne de ces probabilités unitaires à fin d’obtenir la PD à 12 mois :

1 X N
P D(12mois) = × (4.1)
nbr de mois d’observation nbr de contrat (Bucket 1)
Avec N est le nombre de contrats passés en défaut du Bucket 1 sous un horizon ≤ 12
mois.
• Calcul de la PD à terme : selon le principe de la méthode markovienne, La pro-
babilité de défaut à t années est égales à la probabilité de défaut à 12 mois à puissance
t.
P D(t en mois) = P D(12 mois)t (4.2)

67
PD à 12 Mois Horizon 12 Mois
Retraités en prêt personnel 3%
Militaires en prêt personnel 10%
Salariés en prêt personnel 21%
Professionnels en prêt personnel 29%

Table 4.1 – Probabilités de défaut fixé pour chaque CSP par SOFAC

PD à terme 1ère an- 2ème 3ème 4ème 5ème


née année année année année
Retraités en prêt personnel 3% 3% 3% 2% 2%
Militaires en prêt personnel 10% 7% 5% 4% 3%
Salariés en prêt personnel 21% 13% 9% 7% 5%
Professionnels en prêt personnel 29% 17% 11% 8% 6%

Table 4.2 – Probabilité de défaut à terme

4.2.2 Calcul LGD :


La LGD est calculée sur la base des dossiers entrés en contentieux. Dans ce cas,
il n’y a pas de possibilité de retour vers le sain en plus la créance client est arrêté au
moment de la rentrée en CTX. D’où le choix du calcul des récupérations sur la base des
dossiers entrés en contentieux et non à partir du défaut.
Les récupérations marginales cumulées de l’année t à partir du passage d’un contrat
en CTX sont calculées en vintage selon la fonction suivante :

1
Récup(t,contrat) = F lux_récup(t,contrat) × (4.3)
(1 + T IE)t

Où : TIE du contrat et Flux_récup (t, contrat) sont les flux de récupération marginaux
du contrat de l’annéet.
Les taux de récupérations sont construits sur les données de recouvrement des dos-
siers en contentieux. Les dossiers frauduleux sont écartés de la construction des courbes.
Les statistiques de récupération présentent une profondeur moyenne de 79 mois à fin
décembre 2018 (première période d’observation mars 2010).
Les taux de récupérations ne prennent pas en compte les frais de recouvrement.
La créance retenue pour la détermination du taux de récupération est équivalente aux
impayés (échéances hors frais) + le CRD à la fin du mois de passage en contentieux.

68
Le taux de récupération marginale du vintage se calcule comme suit :

Récup(t, contrat)
T aux_récup(t, vintage) = (4.4)
Encours_initial(contrat)

Où Encours_Initial(contrat) correspond au CRD du contrat lors du passage en conten-


tieux + impayés.
Les taux de récupération annuels sont segmentés en CHR et sont définis à partir des
moyennes simples annuelles des TauxRécup(t,vintage) sur les mêmes horizon T aux_RcupCHR .

1ère an- 2ème 3ème 4ème 5ème


née année année année année
Retraités en prêt personnel 20,5% 6,6% 4,0% 2,0% 0,6%
Militaires en prêt personnel 18, 2% 9,6% 3,1% 2,2% 0,7%
Salariés en prêt personnel 20,1% 11,1% 5,0% 2,7% 1,1%
Professionnels en prêt personnel 11,6% 5,0% 2,2% 0,8% 0,4%

Table 4.3 – Taux de récupérations annuel

Les récupérations après la 5éme année sont non significatives, par conséquent la
courbe de récupération est calculée sur les 5 premières années à partir du passage en
contentieux. La formule retenue pour le calcul de la LGD d’un contrat à l’année j est
définie comme suit :

5
X
LGD(j) = 1 − T auxdeRécupCHR (i) (4.5)
i=1

LGD 1ère an- 2ème 3ème 4ème 5ème


née année année année année
Retraités en prêt personnel 66% 87% 93% 97% 99%
Militaires en prêt personnel 66% 84% 94% 97% 99%
Salariés en prêt personnel 60% 80% 91% 96% 99%
Professionnels en prêt personnel 80% 92% 97% 99% 100%

Table 4.4 – LGD à terme

69
4.2.3 Calibrage LGD :
Selon la norme IFRS 9, la LGD peut être calibrée pour les créances non-contentieuses
en éliminant les retours en sain.

Figure 4.1 – Illustration de décalage en temps.

Étant donné que le statut des créances non contentieuses en Bucket 3 est intermédiaire,
le taux de retour en sain est calculé par la différence avec le taux de passage en CTX
comme suit :
1-Taux de passage en contentieux cumulé :
Le taux de passage en contentieux est calculé sur une base unitaire jusqu’au terme
du contrat à partir d’un historique depuis 2012. Ci-dessous les taux de passage par année :

Horizon Horizon Horizon Horizon Horizon


12 mois 24 mois 36 mois 48 mois 6
Retraités en prêt personnel 48% 2% 1% 0% 0%
Militaires en prêt personnel 55% 4% 1% 1% 0%
Salariés en prêt personnel 40% 8% 4% 2% 0%
Professionnels en prêt personnel 53% 13% 5% 1% 0%

Table 4.5 – Les taux annuels de passage en contentieux.

70
Ainsi, le taux de retour en sain est calculé comme suit :

n
X
T auxRS = 1 − T aux P assage du déf aut en contentieux(t) (4.6)
t=1

2-Taux de retour en sain du défaut au contentieux :

Global
Retraités en prêt personnel 48%
Militaires en prêt personnel 39%
Salariés en prêt personnel 47%
Professionnels en prêt personnel 28%

Table 4.6 – Taux de retour sain du défaut au contentieux

4.2.4 Calcul EAD :


Dans ce cas, l’exposition du contrat EADt à l’horizon t sera modélisée comme :

EADt = (CRDt ) × (1 − T auxRA(t) )t + IM P0 (4.7)

SOFAC dispose d’un profil d’amortissement mensuel de l’encours.


T auxRA : Correspond au taux de remboursement anticipé annuel empirique calculé sur
l’historique des remboursements anticipés depuis 2012.

Taux de remboursements par anticipation :

Horizon Horizon Horizon Horizon Horizon


12 mois 24 mois 36 mois 48 mois 60 mois
Retraités en prêt personnel 1% 1% 0% 0% 0%
Militaires en prêt personnel 2% 4% 2% 1% 0%
Salariés en prêt personnel 5% 5% 2% 1% 0%
Professionnels en prêt personnel 1% 1% 1% 0% 0%

Table 4.7 – Les taux de rembourssement par anticipations.

71
4.2.5 Calcul de l’ECL :
• Bucket 1 :
Pertes de crédit attendues à 1 an :

ECL á 1 an = EAD1 × P D1 × (1 − T auxRS) × LGD × (1 + r)−t (4.8)

Où :
EAD1 =CRD1 ×(1-TauxRA ) + IM P0 ;
P D1 = Taux de passage en dfaut à 1 an ;
LGD = 1 - 5i=1 T aux de RécupCHR (i) ;
P

r = Taux d’intrt du contrat ;

• Bucket 2 :
Pertes de crédit attendues à maturité :

5
X
ECLámaturité = [ [(CRDt ×(1−T auxRA )t +IM P0 )×(1−T auxRs)×P Dt ]×LGD1 ×(1+r)−t ]
i=1
(4.9)
Où :
EADt =CRDt ×(1-TauxRA )t + IM P0 ;
P Dt = Taux de passage en dfaut à l’horizon t ;
LGD1 = 1 - 5i=1 T aux de RécupCHR (i) ;
P

r = Taux d’intérêt du contrat ;

• Bucket 3 :
Pertes de crédit attendues à maturité des créances non contentieuses

ECL á maturité = EAD × (1 − T auxRS) × LGD × (1 + r)−1 (4.10)

Où :
EAD =CRD1 ×(1-TauxRA ) + IM P0 ;
LGD = 1 - 5i=1 T aux de RécupCHR (i) ;
P

r = T aux d′ intérêt du contrat ;

72
Pertes de crédit attendues à maturité des créances contentieuses

ECL á maturité = EAD × LGDt (4.11)

Où EAD =CRD1 + IM P0 ;
LGDt = 1 - 5i=1 T aux de RécupCHR (i) ;
P

t = Année de calcul de la provision - année de rentrée en CTX ;

4.2.6 Synthèse provision IFRS 9 : Résultats et discussions :


Compte tenu des modèles mobilisés pour la prédiction du défaut ou non défaut
des clients, il s’est avéré que le modèle offrant le meilleur pouvoir prédictif est celui des
réseaux de neurones. Sur ce on utilisera les probabilités de défaut obtenue grâce à cette
méthode.
De manière générale la perte de crédit attendue peut s’écrire de la forme :

ECL = P Di × EADi × LGDt (4.12)

Dans notre cas les deux grandeurs LGDt ainsi que EADt sont calculées et fixées
par l’établissement. A cet effet on aura recours qu’aux probabilités prédites qui d’ailleurs
ne peuvent prendre que deux valeurs ; 100% en cas de défaut et 0% sinon. En effet les
probabilités predites issu de notre modele sont destinées a servir au calcul des pertes
de crédit attendues pour qu’au final les comparer avec celle calculee par l’entreprise.
L’application de cette méthodologie décrite a permis d’obtenir les résultats ci-après :

73
Figure 4.2 – Probabilités de défaut calculées par le modèle VS SOFAC,

En se basant sur les probabilité de défaut déterminées par l’établissement prêteur,


les ECL calculées par la SOFAC stipule des pertes qui totalisent 751 687 KDh au cas
ou les emprunteurs n’honorent pas leurs engagements à un moment donné de la vie du
crédit.

Figure 4.3 – Synthése ECL décembre-20, calculée par la SOFAC

En vertu des probabilités obtenue par notre modèle , nous avons estimé les pertes
futures attendus sur les encours de prêts de l’établissement en question pour compenser
le risque de crédit auquel il est exposé. On retrouve ainsi les résultats ci-dessous.

74
Figure 4.4 – Synthése ECL décembre-20, calculée par le modèle

Notre modèle reconnaît par anticipation une perte de 714 381 KDH sur les prêts oc-
troyés. On a donc réduit les provisions de 37 306 KDH.

75
Conclusion :

Au terme de ce travail, nous avons abouti à des modèles de crédit « scoring » adapté
au prêt personnel, et qui permet de prédire les personnes qui feront défaut ou non à travers
leurs caractéristiques liés au profil ainsi qu’au crédit . Sur la base de données disponibles,
nous avons appliqué la méthode statistique de la régression logistique. C’est une méthode
paramétrique qui consiste à calculer la probabilité de défaut de chaque client. Aussi, les
paramètres estimés par cette méthode, nous ont permis d’établir le niveau d’influence de
des variables retenues par le modèle.
Nous avons aussi pensé à utiliser d’autres méthodes statistiques comme la méthode
des réseaux de neurone et les SVM afin de tirer le modèle le plus performant. Quant à la
méthode des réseaux de neurones, qui est une méthode non paramétrique, elle présente
un taux de bon classement supérieur à celui obtenu par les deux autres modèles , ce qui
justifie le choix de ce dernier pour la suite du travail.
Enfin on a essayé d’optimiser les provisions de la SOFAC en vertu de la norme IFRS
9. Nous espérons que ce travail s’ajoutera à une série d’autres travaux en vue d’établir une
base de données plus complète qui améliorera ce modèle. Finalement, en plus de l’aspect
technique, ce projet de fin d’étude nous à permis de découvrir le fonctionnement interne
d’un établissement de crédit, d’apprendre la rigueur dans le travail, et de connaître l’esprit
d’équipe.

76
Annexes

Organisme d’acceuil

77
Rapport de chance des anciens clients

Rapport de chance des nouveaux clients

78
Mesures des associations dans la base des anciens clients

Mesures des associations dans la base des nouveaux clients

79
Bibliographie

[1] Athey, S., (2019), The impact of machine learning on economics, in The economics of artificial intel-
ligence : an agenda, Ajay Agrawal, Joshua Gans, et Avi Goldfarb, ed., 507-547.

[2] UC Irvine Machine Learning Repository Australian Credit Data. http ://archive.ics.uci.edu
/ml/datasets/Statlog+%28Australian+ Credit+Approval%29.

[3] Suman Kumar Mohapatra Trilok Nath Pandey, Alok Kumar Jagadev and Satchidananda Dehuri.
Credit Risk Analysis using Machine Learning Classifiers. IEEE, 2017.

[4] Cours d’Analyse d’économétrie avancée, Abdelkhalek Touhami 2012/2013.

[5] Hosmer D.W. and S. Lemeshow (1980) “A goodness-of-fit test for the multiple logistic regression
model.” Communications in Statistics A10 :1043-1069.

[6] Gunawidjaja, S., Hermanto, B., 2010, «Default Prediction Model for SME’s : Evidence from Indone-
sian Market Using Financial Ratios», p. 1-20.

[7] Dionne, G., Artis, M., Guillen, M., 1996, «Count Data Models for a Credit Scoring System», Journal
of Empirical Finance, Vol. 3, p. 303-325.

80

Vous aimerez peut-être aussi