• Etude de cas : Le risque de crédit « Le scoring »
Les méthodes d’évaluation du risque de crédit pour les PME
et les ménages. Les étapes de la mise en place d’un outil d’aide à la décision . Les méthodes d’analyse discriminantes . Objectifs des méthodes d’analyse discriminante . Rappel sur la régression linéaire . Introduction à la Régression logistique Les méthodes d’évaluation du risque de crédit pour les PME et les ménages Caractéristiques • Comme les montants des crédits et des pertes possibles sont relativement peu importantes, les banques ne peuvent passer beaucoup de temps sur l’analyse du crédit.
Les données des petites et moyennes entreprises et des ménages
sont standard et permettent un traitement de masse informatisé.
Les modèles peuvent être utilisés à plusieurs fins :
• Evaluer les risques : calculer la probabilité d’être un bon client • Décider : accorder ou ne pas accorder le crédit • Proposer : marketing • Formalisation du problème
Discriminer au mieux les différents groupes
d’une population dont les individus sont décrits par des variables afin de prendre une décision. Exemple: le risque de crédit pour les clients particuliers d’un réseau bancaire Le problème: discriminer les clients en fonction de leur degré de risque (les bons et les mauvais clients) Information disponible: caractéristiques des clients (âge, situation familiale, salaire, ancienneté dans l’entreprise, etc.)
Objectif : accorder un crédit au client et éventuellement de
déterminer le montant, la durée et le taux du crédit. Les étapes de la mise en place d’un outil d’aide à la décision • Construire une base de données historique : • Définir la base de données • Définir précisément l’événement étudié : qu’est ce qu’un mauvais payeur ? • Définir les caractéristiques à retenir : âge, salaire, ancienneté dans l’entreprise, etc. • Collecter les informations • Retraiter la base de données Valeurs manquantes, valeurs aberrantes • Redresser éventuellement la base de données Comment traiter les dossiers refusés ? • Construire une règle de décision à partir d’une méthode d’analyse discriminante :
Choisir une méthode et un modèle
Estimer le modèle et définir la règle de décision
• Mettre en œuvre :
Mettre en place des outils informatiques
Mettre en place des procédures Former les utilisateurs • Réactualiser régulièrement le modèle et la règle de décision :
Ajouter de nouvelles variables ou supprimer d’anciennes variables
Estimer à nouveau les paramètres du modèle Changer la valeur des paramètres de la règle de décision (la valeur du seuil pour une fonction de score par exemple) Les méthodes d’analyse discriminantes • L’analyse discriminante regroupent différentes méthodes: Les méthodes de scoring : Méthodes statistiques qui permettent d’affecter à chaque individu un score (une note) représentatif de son profil. La comparaison de ce score à un seuil fixé aboutit à une décision : accorder un crédit à un client de la banque par exemple. Les méthodes d’arbre • Méthodes descriptives fondées sur un arbre décisionnel mettant en valeur les variables discriminantes importantes et les liens entre ces variables. Le cheminement d’un individu dans l’arbre permet de le classer et d’aboutir à une décision. Les réseaux de neurones
Modélisations sophistiquées de la relation
entre les inputs (variables décrivant les individus) et les outputs (classement des individus permettant de prendre une décision) adaptées à des données complexes.
• Toutes ces méthodes permettent de classer
les individus et de prendre une décision de façon automatique (gain de temps dans l’analyse des dossiers et rapidité de décision). Objectifs des méthodes d’analyse discriminante • Les différentes méthodes d’analyse discriminante partagent les mêmes objectifs :
Un objectif descriptif :
Mettre en évidence les variables qui permettent de séparer au
mieux les groupes d’individus. Déterminer si les différences entre les groupes sont significatives. Donner une représentation graphique qui rende compte de cette séparation. L’analyse discriminante à but descriptif repose sur la notion de distance • Un objectif décisionnel Construire une règle d’affectation des nouveaux individus à l’un des groupes. L’analyse discriminante à but décisionnel repose sur le concept de probabilité Etapes de la construction d’un score • Construire un modèle • Choisir un modèle (exemples : linéaire ou logistique) • Séparer la base de données historiques en deux échantillons : un échantillon d’apprentissage (pour estimer le modèle) et un échantillon test (pour tester le modèle) • Sélectionner les variables explicatives du modèle et estimer les paramètres du modèle à partir de l’échantillon d’apprentissage • Interpréter des paramètres estimés (signe des paramètres) Construire une règle de décision fondée sur le modèle • Déterminer un seuil pour la règle de décision • Mesurer la qualité d’ajustement du modèle sur un échantillon test Rappel sur la modèle linéaire • Principe
• Un modèle vise à expliquer une variable par d’autres variables
La régression s’adresse à un type de problème où les 2 variables quantitatives continues X et Y ont un rôle asymétrique : la variable Y dépend de la variable X. La liaison entre la variable Y dépendante et la variable X indépendante peut être modélisée par une fonction de type Y = α + β X, représentée graphiquement par une droite. Y : variable dépendante (expliquée) X : variable indépendante (explicative) α : ordonnée à l’origine (valeur de Y pour x = 0) β : pente (variation moyenne de la valeur de Y pour une augmentation d’une unité de X) • où Yi représente la variable à expliquer qualitative (Y =0 si le client i est un mauvais client et Y = 1 si le client i est un bon client). Pour un client de l’échantillon d’apprentissage, la valeur de cette variable est connue. Pour un futur client, cette valeur n’est pas connue au moment de la décision mais le modèle en fournira une estimation qui permettra de prendre une décision. • où (X ij ) j=1 , p représente les p variables explicatives qui peuvent être qualitatives (propriétaire ou locataire, marié ou non marié) ou quantitatives (âge, nombre d’enfants, salaire, etc.). • Pour un client de l’échantillon d’apprentissage ou un futur client, la valeur de ces variables est connue Les limites de la régression linéaire
• Problème : prédire une variables à deux issus Y= {0,1} dont
l’une est le succès (Y=1) et l’autre un échec (Y=0). • En réutilisant une technique de régression, on peut chercher la probabilité d’obtenir le succès P(Y=1) , il est alors possible de déduire la probabilité de l’échec ; P(Y=0)=1-P(Y=1). • On peut se munir d’une règle de décision qui pour un seuil θ décide : • Avec θ=0.5 en première approximation • On pourrait envisager réutiliser la régression linéaire pour prédire des valeurs 0 et 1 avec une règle de décision du type : • Le problème est que la régression linéaire produit des valeurs qui sont inévitablement en dehors de l’intervalle [0, 1] є R et qui ne s’interprètent pas comme des probabilités
• La régression linéaire va en effet prédire des valeurs continues sur
R, or on veut uniquement prédire dans l’intervalle [0, 1] є R Question: quel modèle proposer ? Régression logistique Définition • La régression logistique est un des modèles multi variables couramment utilisé en épidémiologie avec la régression linéaire multiple, • Elle s’utilise lorsque la variable à expliquer (variable dépendante Y) est qualitative, le plus souvent binaire. • Les variables explicatives (variables indépendantes Xi) peuvent être par contre soit qualitatives, soit quantitatives. • La régression logistique est une technique prédictive. Elle vise à construire un modèle permettant de prédire / expliquer les valeurs prises par une variable cible qualitative (le plus souvent binaire, on parle alors de régression logistique binaire ; si elle possède plus de 2 modalités, on parle de régression logistique polytomique) à partir d’un ensemble de variables explicatives quantitatives ou qualitatives Notation • (Y,X1,X2,…...,Xk) les variables de la population dont on extrait un échantillon de n individus. • (yi, xi) est le vecteur des réalisations de (Yi, Xi) • K variables explicatives • • Y=f(x1,x2,…,xk) • f ne peut être une fonction linéaire car Y ne prend que deux valeurs : La fonction logistique • La fonction logistique est sous la forme: Le graphe de la fonction • Les nuages de points dont la variable Y est une variable à valeurs dans [0, 1] ne se résument plus par une droite mais par une fonction qui décrit une courbe en S, la fonction logistique (ou sigmoïde) : Remarque Observons ce qu’il se passe si on change les valeurs de α et de β. . .
α contrôle la translation de la courbe
β contrôle l’incurvation de la courbe. (β contrôle la direction de la courbe) Propriétés de P(Y=1|X=x)
• Strictement croissante. • Varie de 0 à 1 pour x allant de -∞ à +∞
• Point d’inflexion correspond à f(x)=1/2
• Symétrique autour de point d’inflexion Loi de Y
• Y suit loi de Bernoulli de paramètre p
• L’événement (X=1) est considérer comme
l’événement succès et (X=0) considérer comme l’événement échec Utilisation
• Quand la variable dépendante est nominale ou ordinale
Deux type selon la forme de la variable dépendante. Binaire pour deux catégories. Polytomique pour plusieurs catégories. Multinomiale ou ordinale. • Quand les variables indépendantes peuvent être de plusieurs types: Nominales (qualitatives) Ordinales • Comme la variable dépendante prend soit la valeur 0 et 1 (régression logistique ordinaire), la valeur prédite doit donc se situer entre 0 et 1. C’est pourquoi on transforme la VD en un fonction de probabilité • Pour passer d'une variable prenant ses valeurs dans [0, 1] à une variable prenant ses valeurs dans [0, +∞[, on introduit le rapport de chances ou cote : • Exemple: Rapport de cote /chance
• si P(Y=1)=0,9, le rapport de chances vaut
p1 = 0,9/0,1=9 : on a 9 fois plus de chances d'observer Y=1 que Y=0. • De même, si P(Y=1)=0,2, le rapport de chances vaut p1 = 0,2/0,8=1/4 : on a 4 fois plus de chances d'observer Y=0 que Y=1. • La régression logistique :
• Se distingue de la régression linéaire par le fait que celle-ci
demande une distribution normales des variables indépendante et dépendante. de plus si on utilise la régression linéaire ,la valeur prédite pourrait se situer en dehors de l’intervalle 0,1 • Le modèle de régression linéaire est un modèle qui s’applique à prédire une variable continue en fonction d’une variable continue • Il arrive souvent que l’on veuille prédire une variable binaire à partir d’une (ou plusieurs) variable(s) continue(s) (ou nominales), c’est ce que permet de faire: la régression logistique x ∈ R, y ∈ {0, 1} • La régression logistique peut être vue comme une extension de la régression linéaire • Dans le cas le plus simple, on cherche à expliquer une variable dichotomique Y par une variable numérique X. On dispose donc d'un tableau de données sous la forme : • Exemple : On considère un échantillon de 30 sujets pour lesquels on a relevé : • - d'une part le niveau des revenus (variable numérique) • - d'autre part la possession ou non d'un nouvel équipement électro-ménager. Principe de la méthode • Ces données peuvent être représentées à l'aide d'un nuage de points, qui a l'allure suivante : La sélection des variables • Idée : Les variables explicatives sont choisies de manière à prédire l’appartenance des individus aux groupes. Lorsqu’une variable est introduite dans le modèle, elle apporte de l’information pour discriminer les individus appartenant à des groupes différents, mais elle apporte aussi du bruit. La pertinence de la variable dépend du ratio information/bruit. • Méthode : • La contribution marginale de chaque variable au modèle est considérée et testée. • Une variable donnée est retenue d’après un critère objectif : comparaison du maximum de vraisemblance de , deux modèles (l’un comprenant la variable l’autre pas). Matrice de confusion • On peut comparer les valeurs effectivement prédite par le modèle avec les valeurs observées dans les données et reporter les comptes dans une matrice de confusion :
On se définit le score d’exactitude (accurracy) comme suit:
L'analyse fondamentale facile à apprendre: Le guide d'introduction aux techniques et stratégies d'analyse fondamentale pour anticiper les événements qui font bouger les marchés
La communication professionnelle facile à apprendre: Le guide pratique de la communication professionnelle et des meilleures stratégies de communication d'entreprise
La psychologie du travail facile à apprendre: Le guide d'introduction à l'utilisation des connaissances psychologiques dans le domaine du travail et des organisations
L'analyse technique facile à apprendre: Comment construire et interpréter des graphiques d'analyse technique pour améliorer votre activité de trading en ligne.