Credit Risk Prediction

Etude, Conception de Prédiction du risque de
crédit en utilisant
Modèles d'apprentissage automatique
Soutenu le 4 avril 2023 par :
Mr. Amine TAOUFIK
Encadré par :
Mme ELFAH Sofia
Plan de presentation
introduction
problematique
objectifs
Scenario background
Contexte Technique
Méthode et mise en œuvre
défis et actions de nettoyage des données
plan de projet pilote de modification partie 1
plan de projet pilote de modification partie 2

Introduction
Problematique
Objectifs
Étudier les techniques de ML et trouver celles qui conviennent le mieux à la

modélisation du risque de crédit ;
Développer les algorithmes pour les techniques sélectionnées, qui devraient

être en mesure d'atteindre un score ROC-AUC supérieur à 65 % ;
Trouver la meilleure utilisation de l'ensemble de données disponible.

scenario background
La société est une société de services financiers accordant des crédits aux
clients
La crise financière de 2008 a créé le besoin d'une prévision révisée des risques
Prédire si un demandeur de prêt fera défaut sur le prêt s'il est approuvé
Responsables de lignes de produits crédit

à la consommation
Développeurs et intégrateurs
Parties informatiques
prenantes du
projet Équipe de conformité légale et
réglementaire
Équipe de science des données

Contexte technique
Le risque de crédit et sa modélisation
Méthode et mise en œuvre
défis et actions de nettoyage des données
Variables problématiques présentes dans les données

:
Variables problématiques (MALE_DIV,
MALE_SINGLE,MALE_MAR_or_WID, AGE, FOREIGN ) supprimé
Naive Bayes nécessite des probabilités

conditionnellement indépendantes :
Tau de Goodman-Kruskal utilisé pour nettoyer les données en
supprimant les variables avec des valeurs d'intercorrélation élevées
avec d'autres variables dépendantes
Données catégorielles entraînant des résultats

erronés :
Données encodées à l'aide d'un encodage à chaud défis et actions de
nettoyage des données
plan de projet pilote de modification
Le group Iteration 1 Iteration 2 Iteration 3 Iteration 4
Group data science Affiner la source de Développer un modèle examiner les résultats présenter le modèle
données pour respecter révisé et affiner le modèle au affiner et ROI
les directives éthiques besoin expectations
Group infrastructure Développer un assurer la qualité et la sécurité des données mettre en œuvre le
environnement de dans et hors de la base de données modèle de production
découverte pour le approuver les
développement de exigences de mise en
modèles œuvre
Gamme de produits Évaluer le modèle approbation de la
pilote pour la réalisation des
faisabilité de l'analyse objectifs commerciaux
de rentabilisation
plan de projet pilote de modification
Concerne Solution propose Responsable
Data security Séparez les informations personnelles des informations financières équipe d'infrastructure
dans la base de données ; Anonymiser les données ; Utilisez le informatique
cryptage AES 256 bits et SSL pour tous les mouvements de
données
Data integrity Valider les ensembles de test et de formation correspondant aux équipe de science des
profils d'utilisateurs réels ; Réduisez/éliminez les erreurs de données
réplication de données et effectuez une validation croisée par
rapport à de bonnes sources connues
utilisation éthique des Veiller à ce que les variables des sources de données ne équipe de science des
données puissent pas être utilisées pour perpétuer des pratiques de données , équipe de
prêt discriminatoires ; assurer le respect de la loi Dodd- régularité
Frank
Performance de model Maintenir ou améliorer la précision du modèle ; améliorer équipe de science des
le temps de formation; améliorer le retour sur données
investissement
Méthodologie pilote
Le pilote produit un produit minimum viable
Utiliser toutes les données disponibles et tenter de

répondre à l'objectif principal (classification des
risques)
Modèle de régression logistique développé

en utilisant toutes les données disponibles
Les données ont été converties à l'aide d’un

codage à chaud
résultats du modèle pilote
Comparé au random forest et Naive Bayes pour la précision et la vitesse
d'entraînement
Random Forest était plus précis, Naive Bayes était plus
rapide
Conclusions du pilote
La régression logistique répond aux exigences de précision, prouvant le
concept
Ensemble de données d'entraînement toujours problématique

Le retour sur investissement attendu pour la mise en œuvre du pilote est très
positif, avec un rendement positif au mois 1 (en supposant un taux d'exécution
de 100 prêts/mois) et une rentabilité continue par la suite
Précision de la prédiction
Modèle precedent vrai 70%
faux 30%
Nouveau modèle vrai 80%
faux 20%
modification de la recherche pilote
solution d'analyse de données pour la mise en œuvre
Révision du modèle pilote
La réduction des caractéristiques des données nécessite une nouvelle approche
de modélisation
Les avantages de naïve bayes
Les données doivent également être révisées pour se conformer aux objectifs
éthiques Résistant au surajustement
Naive Bayes calcule les probabilités conditionnelles en utilisant Théorème de Calcul extrêmement rapide
Bayes et choisit le maximum a posteriori pour classer une observation Résultats faciles à interpréter
Peut travailler sur de très petits ensembles
de données
Révision du modèle pilote
Meilleur ajustement que la régression
logistique, compte tenu de la structure
des données et des objectifs du projet
Les avantages nécessitent une

indépendance conditionnelle entre les
variables
résultat de l'analyse de rentabilisation
La précision supérieure du modèle révisé a généré une augmentation
de 69 % du Rol (rendement sur investissement)
Les rendements du mois 1 devraient être le double du coût de mise en

œuvre du projet
Le temps de formation du modèle est nettement plus rapide que les

autres alternatives après le nettoyage des données
Le modèle révisé répond à tous les objectifs de précision des

parties prenantes, Comparaison du temps de calcul par
efficacité opérationnelle et utilisation éthique des données
Conclusions et Recommendations
Conséquences
Choisir le bon modèle peut fournir un meilleur résultat sur les plans financier, opérationnel et éthique
Un nettoyage des données et une transformation statistique appropriés sont essentiels pour une performance supérieure du
modèle
De petites augmentations d'efficacité peuvent fournir un retour sur investissement considérablement amélioré
Utilisations alternatives
Peut être utilisé sur n'importe quel ensemble de données où l'espace variable a été réduit en raison de contraintes éthiques
Les industries potentielles incluent l'assurance, la santé, la finance ou toute industrie qui a historiquement fait face à des
pratiques discriminatoires

Credit Risk Prediction

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Credit Risk Prediction

Transféré par

Droits d'auteur :

Formats disponibles

Etude, Conception de Prédiction du risque de

Méthode et mise en œuvre

défis et actions de nettoyage des données

plan de projet pilote de modification partie 1

plan de projet pilote de modification partie 2

Étudier les techniques de ML et trouver celles qui conviennent le mieux à la

Développer les algorithmes pour les techniques sélectionnées, qui devraient

Trouver la meilleure utilisation de l'ensemble de données disponible.

Responsables de lignes de produits crédit

Équipe de science des données

Variables problématiques présentes dans les données

Naive Bayes nécessite des probabilités

Données catégorielles entraînant des résultats

Utiliser toutes les données disponibles et tenter de

Modèle de régression logistique développé

Les données ont été converties à l'aide d’un

Ensemble de données d'entraînement toujours problématique

Modèle precedent vrai 70%

Nouveau modèle vrai 80%

Les avantages nécessitent une

Les rendements du mois 1 devraient être le double du coût de mise en

Le temps de formation du modèle est nettement plus rapide que les

Le modèle révisé répond à tous les objectifs de précision des

Vous aimerez peut-être aussi