Vous êtes sur la page 1sur 19

Etude, Conception de Prédiction du risque de

crédit en utilisant
Modèles d'apprentissage automatique
Soutenu le 4 avril 2023 par :
Mr. Amine TAOUFIK

Encadré par :
Mme ELFAH Sofia
Plan de presentation
introduction

problematique

objectifs

Scenario background

Contexte Technique

Méthode et mise en œuvre

défis et actions de nettoyage des données

plan de projet pilote de modification partie 1

plan de projet pilote de modification partie 2


Introduction
Problematique
Objectifs

Étudier les techniques de ML et trouver celles qui conviennent le mieux à la


modélisation du risque de crédit ;

Développer les algorithmes pour les techniques sélectionnées, qui devraient


être en mesure d'atteindre un score ROC-AUC supérieur à 65 % ;

Trouver la meilleure utilisation de l'ensemble de données disponible.


scenario background
La société est une société de services financiers accordant des crédits aux
clients

La crise financière de 2008 a créé le besoin d'une prévision révisée des risques

Prédire si un demandeur de prêt fera défaut sur le prêt s'il est approuvé

Responsables de lignes de produits crédit


à la consommation

Développeurs et intégrateurs
Parties informatiques
prenantes du
projet Équipe de conformité légale et
réglementaire

Équipe de science des données


Contexte technique
Le risque de crédit et sa modélisation
Méthode et mise en œuvre
défis et actions de nettoyage des données

Variables problématiques présentes dans les données


:
Variables problématiques (MALE_DIV,
MALE_SINGLE,MALE_MAR_or_WID, AGE, FOREIGN ) supprimé

Naive Bayes nécessite des probabilités


conditionnellement indépendantes :
Tau de Goodman-Kruskal utilisé pour nettoyer les données en
supprimant les variables avec des valeurs d'intercorrélation élevées
avec d'autres variables dépendantes

Données catégorielles entraînant des résultats


erronés :
Données encodées à l'aide d'un encodage à chaud défis et actions de
nettoyage des données
plan de projet pilote de modification
Le group Iteration 1 Iteration 2 Iteration 3 Iteration 4

Group data science Affiner la source de Développer un modèle examiner les résultats présenter le modèle
données pour respecter révisé et affiner le modèle au affiner et ROI
les directives éthiques besoin expectations

Group infrastructure Développer un assurer la qualité et la sécurité des données mettre en œuvre le
environnement de dans et hors de la base de données modèle de production
découverte pour le approuver les
développement de exigences de mise en
modèles œuvre
Gamme de produits Évaluer le modèle approbation de la
pilote pour la réalisation des
faisabilité de l'analyse objectifs commerciaux
de rentabilisation
plan de projet pilote de modification
Concerne Solution propose Responsable

Data security Séparez les informations personnelles des informations financières équipe d'infrastructure
dans la base de données ; Anonymiser les données ; Utilisez le informatique
cryptage AES 256 bits et SSL pour tous les mouvements de
données
Data integrity Valider les ensembles de test et de formation correspondant aux équipe de science des
profils d'utilisateurs réels ; Réduisez/éliminez les erreurs de données
réplication de données et effectuez une validation croisée par
rapport à de bonnes sources connues

utilisation éthique des Veiller à ce que les variables des sources de données ne équipe de science des
données puissent pas être utilisées pour perpétuer des pratiques de données , équipe de
prêt discriminatoires ; assurer le respect de la loi Dodd- régularité
Frank
Performance de model Maintenir ou améliorer la précision du modèle ; améliorer équipe de science des
le temps de formation; améliorer le retour sur données
investissement
Méthodologie pilote
Le pilote produit un produit minimum viable

Utiliser toutes les données disponibles et tenter de


répondre à l'objectif principal (classification des
risques)

Modèle de régression logistique développé


en utilisant toutes les données disponibles

Les données ont été converties à l'aide d’un


codage à chaud
résultats du modèle pilote
Comparé au random forest et Naive Bayes pour la précision et la vitesse
d'entraînement
Random Forest était plus précis, Naive Bayes était plus
rapide
Conclusions du pilote
La régression logistique répond aux exigences de précision, prouvant le
concept

Ensemble de données d'entraînement toujours problématique


Le retour sur investissement attendu pour la mise en œuvre du pilote est très
positif, avec un rendement positif au mois 1 (en supposant un taux d'exécution
de 100 prêts/mois) et une rentabilité continue par la suite

Précision de la prédiction

Modèle precedent vrai 70%

faux 30%

Nouveau modèle vrai 80%

faux 20%
modification de la recherche pilote
solution d'analyse de données pour la mise en œuvre
Révision du modèle pilote
La réduction des caractéristiques des données nécessite une nouvelle approche
de modélisation
Les avantages de naïve bayes
Les données doivent également être révisées pour se conformer aux objectifs
éthiques Résistant au surajustement

Naive Bayes calcule les probabilités conditionnelles en utilisant Théorème de Calcul extrêmement rapide
Bayes et choisit le maximum a posteriori pour classer une observation Résultats faciles à interpréter
Peut travailler sur de très petits ensembles
de données
Révision du modèle pilote
Meilleur ajustement que la régression
logistique, compte tenu de la structure
des données et des objectifs du projet

Les avantages nécessitent une


indépendance conditionnelle entre les
variables
résultat de l'analyse de rentabilisation
La précision supérieure du modèle révisé a généré une augmentation
de 69 % du Rol (rendement sur investissement)

Les rendements du mois 1 devraient être le double du coût de mise en


œuvre du projet

Le temps de formation du modèle est nettement plus rapide que les


autres alternatives après le nettoyage des données

Le modèle révisé répond à tous les objectifs de précision des


parties prenantes, Comparaison du temps de calcul par
efficacité opérationnelle et utilisation éthique des données
Conclusions et Recommendations
Conséquences

Choisir le bon modèle peut fournir un meilleur résultat sur les plans financier, opérationnel et éthique

Un nettoyage des données et une transformation statistique appropriés sont essentiels pour une performance supérieure du
modèle

De petites augmentations d'efficacité peuvent fournir un retour sur investissement considérablement amélioré

Utilisations alternatives

Peut être utilisé sur n'importe quel ensemble de données où l'espace variable a été réduit en raison de contraintes éthiques

Les industries potentielles incluent l'assurance, la santé, la finance ou toute industrie qui a historiquement fait face à des
pratiques discriminatoires

Vous aimerez peut-être aussi