Projet Scoring

Le Crédit Scoring
RÉALISÉ PAR:
 KADDOURI SALAHEDDINE
 TOUILE SALAHEDDINE
 WAQFI ABDELILAH
Plan
1. Introduction
2. Les principes du scoring
3. Les notation de scoring
4. La réalisation d’un modèle linéaire généralisé sur
l’application R
5. Conclusion
Introduction:
 Le scoring des clients est un processus utilisé par les entreprises pour
évaluer la solvabilité et le risque de non-remboursement d'un client
potentiel ou existant. Le score de crédit est calculé en utilisant des
informations sur le comportement financier passé et présent du client,
telles que l'historique des paiements, le montant des dettes, la durée du
crédit, le type de crédit et le nombre de demandes de crédit récentes.
Les principes du scoring:
 Il existe plusieurs principes de scoring qui guident la mise en place de cette méthode. Voici
quelques-uns de ces principes :
 Utilisation de données pertinentes : Les modèles de scoring doivent utiliser des données
pertinentes et fiables pour évaluer le risque de crédit ou le potentiel de profit associé à un client.
 Analyse statistique : Le scoring doit être basé sur une analyse statistique rigoureuse pour assurer
une évaluation précise du risque de crédit ou du potentiel de profit.
 Transparence : Les entreprises doivent être transparentes quant aux méthodes utilisées pour
calculer les scores de crédit ou de profit.
 Équité : Les modèles de scoring doivent être équitables et non discriminatoires. Les entreprises ne
doivent pas utiliser des critères de discrimination illégale, tels que la race, le sexe ou la religion,
pour évaluer le risque de crédit ou le potentiel de profit d'un client.
Les principes du scoring:
En résumé, les principes de scoring comprennent l'utilisation de données

pertinentes, l'analyse statistique, la transparence, l'équité .
L'application de ces principes peut aider les entreprises à prendre des décisions
éclairées sur l'octroi de crédit ou l'attribution de ressources tout en minimisant les
risques et en maximisant le potentiel de profit.
La notation de scoring:
 La notation de scoring est une méthode utilisée par les prêteurs et les
institutions financières pour évaluer la solvabilité d'un client. Il existe
deux types de notations de scoring :
 Notation interne
Notation externe
La notation interne:
 La notation interne de scoring est une méthode de notation développée et utilisée

par l'entreprise elle-même pour évaluer la solvabilité de ses clients. Cette
méthode utilise des données spécifiques de l'entreprise, telles que l'historique des
paiements, la durée de vie de la relation avec le client, le type de produit financier
utilisé, etc.
La notation externe:
 La notation externe de scoring est une méthode de notation développée par des
agences de notation indépendantes, telles que Fitch, Moody's ou Standard &
Poor's, qui évaluent la solvabilité d'un client en utilisant des données publiques
telles que l'historique des paiements, le revenu, le type d'emploi, etc. La
notation externe de scoring est souvent utilisée par les entreprises qui ne
disposent pas de suffisamment de données internes pour évaluer la solvabilité
de leurs clients ou qui souhaitent avoir une évaluation impartiale de la
solvabilité d'un client.
Exemple des notations externes
Moody’s Standard and Fitch ratings Signification
Poor’s
Aaa AAA AAA Le risque est quasi nul, la qualité de la signature est
la meilleure possible. La sécurité est optimale.
Aa1, Aa2, AA+, AA, AA- AA+, AA, AA- Quasiment similaire à la meilleure noté, l’émetteur
Aa3 noté AA est très fiable.
A1, A2, A3 A+, A, A- A+, A, A- Bonne qualité mais le risque peut être présent dans
certaines circonstances économiques.
Baa1, Baa2, BBB+, BBB, BBB+, BBB, Solvabilité moyenne et la qualité est inférieure.
Baa3 BBB- BBB-
Ba1, Ba2,
A partir de cette note, l’affaire commence à être
Ba3 BB+, BB, BB- BB+, BB, BB- spéculative. Le risque de non remboursement est plus important sur le long
terme.
La probabilité de remboursement est incertaine. Il subsiste un risque assez fort.

B1, B2, B3 B+, B, B- B+, B, B- Cela reflète une
situation hautement spéculative.
Caa CCC CCC Risque très important de non remboursement sur le

long terme.
Ca CC CC Très proche de la faillite, emprunt très spéculatif.

C C C Situation de faillite de l’emprunteur.
D DDD Défaut
DD Défaut
D Défaut
TP: Réalisation d’un modèle linéaire généralisé sur l’application R
 L’évaluation des risques crédit est devenue un des soucis majeurs des
institutions financières, ainsi il est nécessaire d’élaborer un système
statistique pour maintenir les niveaux des risques associés au crédits.
Autrement dit la connaissance des déterminants de la solvabilité des clients,
peut aider la banque à les accorder des crédits.
I. Description des données:
 Plan de sondage :
Notre base de données représente les caractéristiques des clients d’une banque particulière, ces
données concernent, l’âge, le revenu, le montant et la solvabilité des crédits accordés. Il s’agit
d’une base de données artificielle, extrait du site : www.kaggle.com
Les données sont réparties selon 1000 observations, ainsi tout le travail est réaliser sous R.
• I-1 Importation des données:
# A tibble: 6 × 4
revenu age montant default
<dbl> <dbl> <dbl> <dbl>
1 50502. 28 3977. 0
2 24061. 35 3981. 1
3 56086. 35 3991. 0
4 33198. 59 3993. 0
5 30948. 43 3996. 0
6 35109. 41 4003. 0
Notre base de données est constitué de 4 variables et1000 observations est nommée « crédit », ainsi
au-dessus les six premières observations du liste, avec les variables, le revenu annuel de l’individu,
son âge, le montant annuel du crédit, et sa solvabilité.
I-2Les indicateurs de dispersion:
Revenu Age Montant Default

Min. :20943 Min. :18.00 Min. : 3977 Min. :0.000
1st Qu. :40906 1st Qu. :29.00 1st Qu. : 5154 1st Qu. :0.000
Median :51504 Median :42.00 Median : 6435 Median :0.000
Mean :50149 Mean :41.16 Mean : 6933 Mean :0.252
3rd Qu. :60635 3rd Qu. :53.00 3rd Qu. : 8257 3rd Qu. :1.000
Max. :69959 Max. :64.00 Max. :13766 Max. :1.000
On remarque que le revenu annuel de ces clients est distribué entre 20943et 69996, avec une moyenne
arithmétique de 50149 .Les clients sont des adultes d’âge entre 18 ans et 64 ans, avec un âge moyen de 41.16
ans. le montant de crédit demandé annuellement par les clients est distribué entre 3977 et 13766, et un
montant moyen de 6933.La variable défaut est variable binomiale, représente la solvabilité du client, elle
prend 1 si l’individu est capable de rendre sa dette, et 0 sinon, la proportion des clients capables de payer la
dette est 25,20 %.
I-3.Visualisation des données :
 La variable âge :
Boites à moustaches
On remarque que les jeunes entre 18 ans et 30 ans sont plus capable de rendre la dette, que les clients
d’âge 40 ans et plus
 La variable revenu :
Il est remarquable le revenu annuel des clients n’a pas d’influence sur la solvabilité des clients.
I.3.Analyse des données :
Corrélation entre les variables :
revenu Age montant default

revenu 1.00000000 -0.03868721 0.52735627 -0.0988908
Age -0.03868721 1.00000000 -0.02543778 -0.6453102
montant 0.52735627 -0.02543778 1.00000000 0.2166299
default -0.09889080 -0.64531020 0.21662995 1.0000000
La création des strates :
Dimension d’échantillon d’apprentissage :
 [1] 800 4
L’échantillon d’apprentissage contient 800 observations et 4 variables.

0 1
0.765 0.235
Dimensions d’échantillon du test :
 [1] 200 4
L’échantillon du test est de taille 200 observations, et 4 variables
0 1
0.86 0.14
II. La régression logistique :
La régression logistique est une méthode très populaire dans l’apprentissage

statistique, qui permet de prédire une variable qualitative en fonction des
variables explicatives : quantitatives et/ ou qualitatives.
III.2. Modèle de régression logistique :
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.154e+01 1.583e+00 7.288 3.14e-13 ***

revenu -2.650e-04 4.122e-05 -6.430 1.27e-10 ***
âge -3.554e-01 4.577e-02 -7.764 8.23e-15 ***
montant 1.941e-03 2.677e-04 7.249 4.19e-13
1 2 3 4 5 6
2.819596e-05 1.028627e -02 9.780625e-01 6.944349e-08 1.235873e-01 5.527419e-06
Cette étape donne les probabilités de solvabilité de chaque client de notre base de données, et pour
identifier les mauvais et les bons emprunteurs.
II.3. Métriques d’évaluation de performance du Modèle :
Mesure de qualité de prédiction :

La courbe de ROC :
C’est une méthode graphique représente les proportions des vrais positifs et faux positifs pour un modèle.
La courbe ROC commence dans l’angle inférieure gauche, avec la sensibilité 0, et une spécificité égale 1, correspondant au
classement de tous les clients, comme étant des cas de solvabilité des clients.
La zone optimale de la courbe ROC est celle qui est proche du coin supérieur gauche, ainsi cette zone correspond à des
sensibilités plus élevées associées.
AUC comprise entre … Interprétation
0.5-0.6 Aucune relation
0.6-0.7 Liaison faible
0.7-0.8 Liaison significative
0.8-0.9 Liaison forte
0.9-1 Corrélation
Area Under the Curve( AUC) : 0.9818

Ici AUC = 0,9818 donc le modèle a une probabilité de 98,18% de distinguer une classe négative d’une
classe positive
La sensibilité est le taux d’individus positifs correctement prédits par le modèle dans notre cas c’est le
taux clients solvable sont vraiment capable de payer leur dettes
La spécificité est le taux d’individus négatifs correctement prédits , notre cas c’est le taux des clients
insolvables
Plus cet indice est élevé, plus le modèle est bon, la valeur de cet indice est comprise entre 0 et 1.
Prédiction :
Les lignes de la matrice de confusion représentent les prédictions alors que les colonnes représentent les
classes réelles.
Le calcul des vrais positifs (VP), des vrais négatifs (VN), des faux positifs (FP) et des faux négatifs
(FN), le pourcentage de sensibilité (Se), la spécificité (Sp) et le taux de classification (Tc) permet de faire
cette évaluation
Matrice de confusion
1 0
1 47 0
0 12 141
Sensibilité ( équivalent du taux de vrais positifs )

Sensibilité = VP/(VP+FN) = 47 / 47 +12 = 79,66 %
cela signifie que 79% des individus positifs ont été prédits comme étant positifs.
Spécificité (également appelée taux de vrais négatifs )
Spécificité = VN/ VN+ FP => 141/141+0 = 100%
cela signifie que 100% des individus négatifs ont été prédits comme négatifs
Le taux de classification : La valeur de justesse
TC = VP+VN/VP+VN+FP+FN = 141 + 47 / 141 + 47 + 12 + 0 = 188 / 200 = 94%
Les résultats des calculs effectués montrent qu’’il s’agit d’un modèle avec un très fort pouvoir prédictif (94%)
Les variables du SCORE(Grille du Score)
Conclusion
Pour conclure le crédit scoring, ou encore scoring d'octroi, est un des outils mis en œuvre lors de
l'analyse risque d'une demande de crédit par les prêteurs. une méthode statistique adaptée à une
pratique massive du crédit,
Il est à noter qu’au cours de notre travail, nous avons eu à faire face à quelques Contraintes, notamment
la non disponibilité de données financières c’est pour ça nous avons utilisé une base de
donnes artificielle
Merci pour votre attention

Projet Scoring

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Projet Scoring

Transféré par

Droits d'auteur :

Formats disponibles

Le Crédit Scoring

En résumé, les principes de scoring comprennent l'utilisation de données

 La notation interne de scoring est une méthode de notation développée et utilisée

La probabilité de remboursement est incertaine. Il subsiste un risque assez fort.

Caa CCC CCC Risque très important de non remboursement sur le

Ca CC CC Très proche de la faillite, emprunt très spéculatif.

Revenu Age Montant Default

Corrélation entre les variables :

revenu Age montant default

L’échantillon d’apprentissage contient 800 observations et 4 variables.

L’échantillon du test est de taille 200 observations, et 4 variables

La régression logistique est une méthode très populaire dans l’apprentissage

Estimate Std. Error z value Pr(>|z|)

(Intercept) 1.154e+01 1.583e+00 7.288 3.14e-13 ***

Mesure de qualité de prédiction :

Area Under the Curve( AUC) : 0.9818

Sensibilité ( équivalent du taux de vrais positifs )

Vous aimerez peut-être aussi