Vous êtes sur la page 1sur 9

Chap3

Analyse descriptive :

Figure 1 :

La distribution de la variable de risque de crédit payé ou impayé dans cette agence de crédit
montre que la majorité des clients (94.3%) ont remboursé leurs crédits, tandis qu'un petit
nombre de clients (5.7%) n'ont pas respecté leurs engagements.
D'un point de vue statistique, cette distribution est très déséquilibrée, avec une forte majorité
de clients payant leur crédit. Cela peut rendre difficile la mise en place d'analyses statistiques
plus avancées, comme la modélisation du risque de crédit, qui reposent sur l'hypothèse d'une
distribution normale.
D'un point de vue économique, cette distribution peut indiquer que l'agence de crédit a
effectué une analyse de crédit efficace et a sélectionné des emprunteurs fiables pour la plupart
des crédits accordés. Cependant, elle peut également indiquer que les clients ayant des
difficultés de remboursement ont été moins bien sélectionnés ou que les conditions
économiques ont changé depuis l'octroi des crédits.
D'un point de vue social, cette distribution peut avoir des implications importantes pour les
clients ayant des difficultés de remboursement, qui peuvent être confrontés à des
conséquences financières graves, comme des pénalités, des poursuites judiciaires ou une
détérioration de leur score de crédit.
Pour l'agence de crédit elle-même, cette distribution peut avoir un impact significatif sur sa
rentabilité et sa solvabilité. Les crédits impayés représentent un risque financier important
pour l'agence de crédit, qui peut devoir faire face à des pertes importantes si le nombre de
clients défaillants augmente. Elle peut également avoir un impact sur la réputation de
l'agence, qui peut être considérée comme moins fiable si le nombre de crédits impayés
augmente.

Figure 2 :

Figure3 :
Les figures 2 et 3 montrent les corrélations entre les différentes variables dans l'ensemble de
données. Les corrélations indiquent l'existence d'une relation entre les variables, mais ne
permettent pas de conclure à une relation de causalité entre ces variables.
Il y a une corrélation positive de 0,63 entre l'activité de production non-agricole et le crédit de
type B (Crédits Agricoles), ce qui suggère qu'il existe une relation directe entre ces deux
variables. Cela pourrait signifier que les clients qui exercent une activité de production non-
agricole sont plus enclins à solliciter des crédits agricoles pour financer leurs activités.
Il y a une corrélation positive plus forte de 0,72 entre le montant et le crédit de type C (Crédit
Imtiez pour l'investissement), ce qui suggère qu'il existe une forte relation directe entre ces
deux variables. Cela pourrait signifier que les clients qui souhaitent investir dans des projets
coûteux sont plus enclins à solliciter des crédits de type C.
Il y a une corrélation faible de 0,06 entre le crédit de type A (Tatouir et Mostakbali) et la
durée de remboursement par mois, ce qui suggère qu'il n'y a pas de relation claire entre ces
deux variables.
Il y a une corrélation négative faible de -0,036 entre l'âge et le crédit de type C (Crédit Imtiez
pour l'investissement), ce qui suggère qu'il n'y a pas de relation claire entre ces deux variables.
Il y a une corrélation positive de 0,47 entre l'activité agricole et le montant, ce qui suggère
qu'il existe une relation directe entre ces deux variables. Cela pourrait signifier que les clients
qui exercent une activité agricole ont besoin de fonds plus importants pour financer leurs
activités.
Il y a une corrélation négative de -0,57 entre le crédit de type A (Tatouir et Mostakbali) et le
montant, ce qui suggère qu'il existe une relation inverse entre ces deux variables. Cela
pourrait signifier que les clients qui ont besoin d'un montant plus important sont moins
susceptibles de solliciter un crédit de type A.
Il y a une corrélation négative de -0,6 entre le crédit de type A et le crédit de type B, ce qui
suggère qu'il existe une relation inverse entre ces deux variables. Cela pourrait signifier que
les clients qui sollicitent des crédits de type A sont moins susceptibles de solliciter des crédits
de type B.
D'un point de vue statistique, ces résultats indiquent la présence de corrélations entre certaines
variables, mais ne permettent pas de conclure à une relation de causalité entre ces variables.
En effet, une corrélation positive ou négative entre deux variables ne signifie pas
nécessairement qu'il existe une relation de cause à effet entre ces variables. Il peut y avoir
d'autres facteurs qui influencent à la fois les variables, ou une relation inverse entre les
variables.
D'un point de vue économique, ces résultats peuvent aider l'agence de crédit à mieux
comprendre les facteurs qui influencent la probabilité de remboursement des prêts. Par
exemple, la forte corrélation entre l'activité agricole et le montant du crédit accordé suggère
que les emprunteurs dans ce secteur peuvent avoir des besoins de financement plus importants
que dans d'autres secteurs. Cependant, la corrélation négative entre le crédit de type A et le
montant suggère que les emprunteurs de ce type de crédit ont tendance à emprunter des
montants plus faibles.
Sur le plan social, il est important de noter que certaines variables, telles que l'âge, ne sont pas
corrélées avec le risque de crédit impayé. Cela suggère que l'agence de crédit ne devrait pas
utiliser l'âge comme critère de sélection des emprunteurs, car cela pourrait conduire à des
pratiques discriminatoires. En outre, l'effet de la corrélation négative entre les crédits de type
A et B suggère que l'agence de crédit pourrait envisager d'offrir des produits de crédit
différents pour répondre aux besoins spécifiques des emprunteurs de différents types de
crédit.
Enfin, il est important de noter que l'impact de ces résultats sur l'agence de crédit dépendra de
la manière dont elle utilise ces informations. Si l'agence de crédit utilise ces résultats pour
mieux comprendre les facteurs de risque de crédit et adapter ses politiques de souscription en
conséquence, cela pourrait contribuer à réduire le risque de défaut de paiement et améliorer la
performance de son portefeuille de crédit. Toutefois, si l'agence de crédit utilise ces résultats
de manière inappropriée, par exemple en appliquant des critères de sélection discriminatoires
ou en offrant des produits de crédit inadaptés aux besoins des emprunteurs, cela pourrait avoir
des conséquences négatives sur les emprunteurs et l'ensemble de l'économie.
Figure4 :

Figure 5 :

Les figures 4 et 5 montrent des variables durées de remboursement par mois, le montant et la
variable âge.

D'un point de vue économique, la distribution de la durée de remboursement par mois indique
que la plupart des clients choisissent des échéances mensuelles comprises entre 20 et 25 mois,
ce qui peut indiquer une préférence pour des remboursements à moyen terme. Cela peut
également indiquer une capacité financière limitée pour des remboursements à plus long
terme.

La distribution du montant de crédit indique que la plupart des clients demandent des crédits
compris entre 10000 et 20000 dinars, avec un montant minimum de 1500 dinars et un
maximum de 40000 dinars. Cela peut indiquer une demande de crédit pour des besoins tels
que l'achat d'un équipement ou la rénovation de leur entreprise.

En ce qui concerne l'âge, la distribution indique que la plupart des clients sont âgés entre 35 et
55 ans, ce qui peut indiquer que les entreprises sont principalement dirigées par des personnes
de cette tranche d'âge. Cela peut également indiquer une expérience et une maturité dans la
gestion des affaires.

D'un point de vue statistique, ces distributions donnent une idée de la dispersion et de la
concentration des données. Cependant, cela ne permet pas de tirer des conclusions sur les
causes ou les facteurs qui ont conduit à cette distribution.

Pour l'agence de crédit, ces distributions peuvent aider à comprendre la demande et les
caractéristiques des clients, ce qui peut aider à adapter les offres de crédit pour répondre aux
besoins des clients et améliorer les chances de remboursement en temps voulu. Cela peut
également aider à identifier les risques potentiels associés à des montants ou des durées de
remboursement particuliers et prendre des mesures préventives pour limiter les pertes
potentielles.

Les résultats des modèles de prédiction :

RMSE (Root Mean Squared Error) est une mesure de la précision d'un modèle de régression
qui calcule l'écart quadratique moyen entre les valeurs prédites et les valeurs réelles. Cela
donne une indication de la distance entre les points de données et la ligne de régression
ajustée.

La formule mathématique pour RMSE est :

RMSE = √(Σ(yi - ŷi)² / n)

où yi est la valeur réelle, ŷi est la valeur prédite, n est le nombre total de points de données et
∑ représente la somme de tous les points de données.

R2 (Coefficient de détermination) est une mesure statistique qui donne une indication de la
qualité de l'ajustement d'un modèle de régression aux données observées. Il représente la
proportion de la variance totale expliquée par le modèle.
La formule mathématique pour R2 est :

R2 = 1 - (Σ(yi - ŷi)² / Σ(yi - ȳ)²)

où yi est la valeur réelle, ŷi est la valeur prédite, ȳ est la moyenne des valeurs réelles et ∑
représente la somme de tous les points de données.

MAE (Mean Absolute Error) est une mesure de la précision d'un modèle de régression qui
calcule l'écart absolu moyen entre les valeurs prédites et les valeurs réelles.

La formule mathématique pour MAE est :

MAE = Σ|yi - ŷi| / n

où yi est la valeur réelle, ŷi est la valeur prédite, n est le nombre total de points de données et
∑ représente la somme de tous les points de données.

MSE (Mean Squared Error) est une mesure de la précision d'un modèle de régression qui
calcule l'écart quadratique moyen entre les valeurs prédites et les valeurs réelles.

La formule mathématique pour MSE est :

MSE = Σ(yi - ŷi)² / n

où yi est la valeur réelle, ŷi est la valeur prédite, n est le nombre total de points de données et
∑ représente la somme de tous les points de données.

Table 2

Models RMSE R2 MAE MSE

XGBoost 0.22 0.71 0.10 0.05

Logistic Regression 0.38 0.17 0.30 0.14

KNN 0.36 0.26 0.25 0.13

Decision Tree 0.24 0.65 .011 0.06


Figure 6 :

Nous avons utilisé des modèles de machine learning pour prédire le risque de crédit, c'est-à-
dire la probabilité de crédit payé ou impayé. Les résultats de notre étude sont présentés dans le
tableau 2 et la figure 6. Nous avons évalué les performances de quatre modèles différents :
XGBoost, la régression logistique, KNN et l'arbre de décision. Nous avons utilisé quatre
mesures pour évaluer la performance de chaque modèle : RMSE, R2, MAE et MSE.

En termes économiques, ces résultats ont des implications importantes pour les institutions
financières. Les modèles de machine learning peuvent être utilisés pour évaluer le risque de
crédit et ainsi aider les banques à prendre des décisions éclairées en matière de prêt. Les
résultats montrent que le modèle XGBoost a la performance la plus élevée avec un RMSE de
0.22, un R2 de 0.71, un MAE de 0.10 et un MSE de 0.05. Cela indique que le modèle
XGBoost est le plus précis dans la prédiction des risques de crédit.

D'un point de vue statistique, les résultats montrent que le modèle XGBoost a une précision
considérablement plus élevée que les autres modèles testés, avec un R2 de 0,71. Cela signifie
que le modèle XGBoost explique 71% de la variance des données. En comparaison, la
régression logistique et KNN ont des R2 de 0,17 et 0,26 respectivement, ce qui indique une
précision inférieure dans la prédiction des risques de crédit. L'arbre de décision a une
performance similaire à XGBoost avec un R2 de 0,65. Cependant, le modèle XGBoost reste le
plus précis en termes de RMSE, MAE et MSE.
En conclusion, nos résultats suggèrent que le modèle XGBoost est le plus efficace pour
prédire le risque de crédit. Les résultats économiques et statistiques soulignent l'importance
des modèles de machine learning pour évaluer le risque de crédit et aider les institutions
financières à prendre des décisions plus éclairées en matière de prêt.

Vous aimerez peut-être aussi