La Régression Logistique

Plan du cours
• Etude de cas : Le risque de crédit « Le scoring »
 Les méthodes d’évaluation du risque de crédit pour les PME

et les ménages.
 Les étapes de la mise en place d’un outil d’aide à la décision .
 Les méthodes d’analyse discriminantes .
 Objectifs des méthodes d’analyse discriminante .
 Rappel sur la régression linéaire .
 Introduction à la Régression logistique
Les méthodes d’évaluation du risque
de crédit pour les PME et les ménages
Caractéristiques
• Comme les montants des crédits et des pertes possibles sont
relativement peu importantes, les banques ne peuvent passer
beaucoup de temps sur l’analyse du crédit.
Les données des petites et moyennes entreprises et des ménages

sont standard et permettent un traitement de masse informatisé.
Les modèles peuvent être utilisés à plusieurs fins :

• Evaluer les risques : calculer la probabilité d’être un bon client
• Décider : accorder ou ne pas accorder le crédit
• Proposer : marketing
• Formalisation du problème
Discriminer au mieux les différents groupes

d’une population dont les individus sont décrits par
des variables afin de prendre une décision.
Exemple: le risque de crédit pour les clients particuliers d’un
réseau bancaire
Le problème: discriminer les clients en fonction de leur degré
de risque (les bons et les mauvais clients)
Information disponible: caractéristiques des clients (âge,
situation familiale, salaire, ancienneté dans l’entreprise, etc.)
Objectif : accorder un crédit au client et éventuellement de

déterminer le montant, la durée et le taux du crédit.
Les étapes de la mise en place
d’un outil d’aide à la décision
• Construire une base de données historique :
• Définir la base de données
• Définir précisément l’événement étudié : qu’est ce qu’un
mauvais payeur ?
• Définir les caractéristiques à retenir : âge, salaire,
ancienneté dans l’entreprise, etc.
• Collecter les informations
• Retraiter la base de données
 Valeurs manquantes, valeurs aberrantes
• Redresser éventuellement la base de données
 Comment traiter les dossiers refusés ?
• Construire une règle de décision à partir d’une méthode
d’analyse discriminante :
 Choisir une méthode et un modèle

Estimer le modèle et définir la règle de décision
• Mettre en œuvre :
 Mettre en place des outils informatiques

 Mettre en place des procédures
 Former les utilisateurs
• Réactualiser régulièrement le modèle et la règle de décision :
 Ajouter de nouvelles variables ou supprimer d’anciennes variables

 Estimer à nouveau les paramètres du modèle
 Changer la valeur des paramètres de la règle de décision
(la valeur du seuil pour une fonction de score par exemple)
Les méthodes d’analyse discriminantes
• L’analyse discriminante regroupent différentes méthodes:
Les méthodes de scoring :
Méthodes statistiques qui permettent d’affecter à chaque
individu un score (une note) représentatif de son profil.
La comparaison de ce score à un seuil fixé aboutit à
une décision : accorder un crédit à un client de la banque par
exemple.
Les méthodes d’arbre
• Méthodes descriptives fondées sur un arbre décisionnel
mettant en valeur les variables discriminantes importantes
et les liens entre ces variables. Le cheminement d’un
individu dans l’arbre permet de le classer et d’aboutir à
une décision.
Les réseaux de neurones
Modélisations sophistiquées de la relation

entre les inputs (variables décrivant
les individus) et les outputs (classement
des individus permettant de prendre une
décision) adaptées à des données complexes.
• Toutes ces méthodes permettent de classer

les individus et de prendre une décision de
façon automatique (gain de temps dans
l’analyse des dossiers et rapidité de décision).
Objectifs des méthodes d’analyse
discriminante
• Les différentes méthodes d’analyse discriminante partagent
les mêmes objectifs :
Un objectif descriptif :
 Mettre en évidence les variables qui permettent de séparer au

mieux les groupes d’individus.
 Déterminer si les différences entre les groupes sont significatives.
 Donner une représentation graphique qui rende compte de cette
séparation.
 L’analyse discriminante à but descriptif repose sur la notion de
distance
• Un objectif décisionnel
 Construire une règle d’affectation des nouveaux individus à
l’un des groupes.
 L’analyse discriminante à
but décisionnel repose sur le concept de probabilité
Etapes de la construction d’un score
• Construire un modèle
• Choisir un modèle (exemples : linéaire ou logistique)
• Séparer la base de données historiques en deux échantillons :
un échantillon d’apprentissage (pour estimer le modèle) et un
échantillon test (pour tester le modèle)
• Sélectionner les variables explicatives du modèle et estimer
les paramètres du modèle à partir de l’échantillon d’apprentissage
• Interpréter des paramètres estimés (signe des paramètres)
Construire une règle de décision fondée sur le modèle
• Déterminer un seuil pour la règle de décision
• Mesurer la qualité d’ajustement du modèle sur un échantillon
test
Rappel sur la modèle linéaire
• Principe
• Un modèle vise à expliquer une variable par d’autres variables

La régression s’adresse à un type de problème où les 2 variables
quantitatives continues X et Y ont un rôle asymétrique : la variable Y
dépend de la variable X.
La liaison entre la variable Y dépendante et la variable X indépendante
peut être modélisée par une fonction de type Y = α + β X, représentée
graphiquement par une droite.
Y : variable dépendante (expliquée)
X : variable indépendante (explicative)
α : ordonnée à l’origine (valeur de Y pour
x = 0)
β : pente (variation moyenne de la valeur de
Y pour une augmentation d’une unité de X)
• où Yi représente la variable à expliquer qualitative
(Y =0 si le client i est un mauvais client et Y = 1 si le client
i est un bon client).
Pour un client de l’échantillon d’apprentissage, la valeur de cette
variable est connue. Pour un futur client, cette valeur n’est
pas connue au moment de la décision mais le modèle en fournira
une estimation qui permettra de prendre une décision.
• où (X ij ) j=1 , p représente les p variables explicatives qui
peuvent être qualitatives
(propriétaire ou locataire, marié ou non marié) ou quantitatives (âge,
nombre d’enfants, salaire, etc.).
• Pour un client de l’échantillon d’apprentissage ou un futur client,
la valeur de ces variables
est connue
Les limites de la régression
linéaire
• Problème : prédire une variables à deux issus Y= {0,1} dont

l’une est le succès (Y=1) et l’autre un échec (Y=0).
• En réutilisant une technique de régression, on peut chercher
la probabilité d’obtenir le succès P(Y=1) , il est alors possible
de déduire la probabilité de l’échec ; P(Y=0)=1-P(Y=1).
• On peut se munir d’une règle de décision qui pour un seuil θ
décide :
• Avec θ=0.5 en première approximation
• On pourrait envisager réutiliser la régression linéaire pour prédire
des valeurs 0 et 1 avec une règle de décision du type :
• Le problème est que la régression linéaire produit des valeurs qui
sont inévitablement en dehors de l’intervalle [0, 1] є R et qui ne
s’interprètent pas comme des probabilités
• La régression linéaire va en effet prédire des valeurs continues sur

R, or on veut uniquement prédire dans l’intervalle [0, 1] є R
Question: quel modèle proposer ?
Régression logistique
Définition
• La régression logistique est un des modèles multi variables
couramment utilisé en épidémiologie avec la régression
linéaire multiple,
• Elle s’utilise lorsque la variable à expliquer (variable
dépendante Y) est qualitative, le plus souvent binaire.
• Les variables explicatives (variables indépendantes Xi) peuvent
être par contre soit qualitatives, soit quantitatives.
• La régression logistique est une technique prédictive.
Elle vise à construire un modèle permettant de
prédire / expliquer les valeurs prises par une variable
cible qualitative (le plus souvent binaire, on parle
alors de régression logistique binaire ; si elle possède
plus de 2 modalités, on parle de régression logistique
polytomique) à partir d’un ensemble de variables
explicatives quantitatives ou qualitatives
Notation
• (Y,X1,X2,…...,Xk) les variables de la population dont on extrait
un échantillon de n individus.
• (yi, xi) est le vecteur des réalisations de (Yi, Xi)
• K variables explicatives
•
• Y=f(x1,x2,…,xk)
• f ne peut être une fonction linéaire car Y ne prend que deux
valeurs :
La fonction logistique
• La fonction logistique est sous la forme:
Le graphe de la fonction
• Les nuages de points dont la variable Y est une variable à
valeurs dans [0, 1] ne se résument plus par une droite mais
par une fonction qui décrit une courbe en S, la fonction
logistique (ou sigmoïde) :
Remarque
Observons ce qu’il se passe si on change les valeurs de α et de β. . .
α contrôle la translation de la courbe

β contrôle l’incurvation de la courbe. (β contrôle la direction de la courbe)
Propriétés de P(Y=1|X=x)
• Strictement croissante.
• Varie de 0 à 1 pour x allant de -∞ à +∞
• Point d’inflexion correspond à f(x)=1/2

• Symétrique autour de point d’inflexion
Loi de Y
• Y suit loi de Bernoulli de paramètre p
• L’événement (X=1) est considérer comme

l’événement succès et (X=0) considérer
comme l’événement échec
Utilisation
• Quand la variable dépendante est nominale ou ordinale

 Deux type selon la forme de la variable dépendante.
Binaire pour deux catégories.
Polytomique pour plusieurs catégories. Multinomiale ou
ordinale.
• Quand les variables indépendantes peuvent être de plusieurs
types:
Nominales (qualitatives)
Ordinales
• Comme la variable dépendante prend soit la valeur 0 et 1
(régression logistique ordinaire), la valeur prédite doit donc se
situer entre 0 et 1. C’est pourquoi on transforme la VD en un
fonction de probabilité
• Pour passer d'une variable prenant ses valeurs dans [0, 1] à
une variable prenant ses valeurs dans [0, +∞[, on introduit le
rapport de chances ou cote :
• Exemple: Rapport de cote /chance
• si P(Y=1)=0,9, le rapport de chances vaut

p1 = 0,9/0,1=9 : on a 9 fois plus de chances
d'observer Y=1 que Y=0.
• De même, si P(Y=1)=0,2, le rapport de
chances vaut p1 = 0,2/0,8=1/4 : on a 4 fois
plus de chances d'observer Y=0 que Y=1.
• La régression logistique :
• Se distingue de la régression linéaire par le fait que celle-ci

demande une distribution normales des variables indépendante
et dépendante. de plus si on utilise la régression linéaire ,la
valeur prédite pourrait se situer en dehors de l’intervalle 0,1
• Le modèle de régression linéaire est un modèle qui s’applique
à prédire une variable continue en fonction d’une variable
continue
• Il arrive souvent que l’on veuille prédire une variable binaire à
partir d’une (ou plusieurs) variable(s) continue(s) (ou
nominales), c’est ce que permet de faire:
 la régression logistique x ∈ R, y ∈ {0, 1}
• La régression logistique peut être vue comme une extension de la
régression linéaire
• Dans le cas le plus simple, on cherche à expliquer une variable
dichotomique Y par une variable numérique X. On dispose donc
d'un tableau de données sous la forme :
• Exemple : On considère un échantillon de 30 sujets pour
lesquels on a relevé :
• - d'une part le niveau des revenus (variable numérique)
• - d'autre part la possession ou non d'un nouvel équipement
électro-ménager.
Principe de la méthode
• Ces données peuvent être représentées à l'aide d'un nuage de
points, qui a l'allure suivante :
La sélection des variables
• Idée :
Les variables explicatives sont choisies de manière à prédire
l’appartenance des individus aux groupes.
Lorsqu’une variable est introduite dans le modèle,
elle apporte de l’information pour discriminer les individus
appartenant à des groupes différents, mais elle apporte aussi
du bruit.
La pertinence de la variable dépend du ratio information/bruit.
• Méthode :
• La contribution marginale de chaque variable
au modèle est considérée et testée.
• Une variable donnée est retenue d’après un
critère objectif :
comparaison du maximum de vraisemblance de ,
deux modèles
(l’un comprenant la variable l’autre pas).
Matrice de confusion
• On peut comparer les valeurs eﬀectivement prédite par le
modèle avec les valeurs observées dans les données et
reporter les comptes dans une matrice de confusion :
On se déﬁnit le score d’exactitude (accurracy) comme suit:

Exemple:
Validation de l’analyse discriminante

La Régression Logistique

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

La Régression Logistique

Transféré par

Droits d'auteur :

Formats disponibles

Plan du cours

• Etude de cas : Le risque de crédit « Le scoring »

 Les méthodes d’évaluation du risque de crédit pour les PME

Les données des petites et moyennes entreprises et des ménages

Les modèles peuvent être utilisés à plusieurs fins :

Discriminer au mieux les différents groupes

Objectif : accorder un crédit au client et éventuellement de

 Choisir une méthode et un modèle

 Mettre en place des outils informatiques

 Ajouter de nouvelles variables ou supprimer d’anciennes variables

Modélisations sophistiquées de la relation

• Toutes ces méthodes permettent de classer

 Mettre en évidence les variables qui permettent de séparer au

• Un modèle vise à expliquer une variable par d’autres variables

• Problème : prédire une variables à deux issus Y= {0,1} dont

• La régression linéaire va en effet prédire des valeurs continues sur

α contrôle la translation de la courbe

• Point d’inflexion correspond à f(x)=1/2

• Y suit loi de Bernoulli de paramètre p

• L’événement (X=1) est considérer comme

• Quand la variable dépendante est nominale ou ordinale

• si P(Y=1)=0,9, le rapport de chances vaut

• Se distingue de la régression linéaire par le fait que celle-ci

On se déﬁnit le score d’exactitude (accurracy) comme suit:

Vous aimerez peut-être aussi