Vous êtes sur la page 1sur 105

Introduction

Modèles Dichotomiques : définitions et interprétations


Estimation des modèles dichotomiques
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Chapitre x:
La régression Logistique

Francisco Serranito

Université de Paris 13, Sorbonne Paris Cité

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Estimation des modèles dichotomiques
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Plan du chapitre

1 Introduction

2 Modèles Dichotomiques : définitions et interprétations

3 Estimation des modèles dichotomiques

4 Inférence Statistique et Qualité du modèle

5 Mesures d’efficacité d’une règle de décision

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Estimation des modèles dichotomiques
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Introduction

Chapitre sur "l’économétrie des variables qualitatives"


Si la variable à expliquer est qualitative alors les méthodes
d’inférences traditionnelles (MCO, ...) ne permettent pas de les
modèliser et de les étudier correctement
des méthodes spécifiques doivent être utilisées pour tenir compte de
l’absence de continuité des variables à expliquer ou de l’absence
d’ordre naturel entre les différentes modalités possibles que peut
prendre le caractère qualitatif.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Estimation des modèles dichotomiques
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Introduction I

Soit Y la variable à expliquer : on va supposer que Y peut prendre K


modalités différentes
la variable Y est dite polytomique
Si K = 2 on parle de variable dichotomique
1 Être ou ne pas être au chômage
2 Être un bon ou mauvais client dans une banque, ...
En général on associe une variable quantitative (ou codage) au
caractère qualitatif : par exemple le codage 0/1
L’intérêt du codage va être de pouvoir utiliser des lois de distribution
discrètes
Il faut utiliser avec prudence la loi d’une telle représentation car, par
nature, elle dépend du codage choisi

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Estimation des modèles dichotomiques
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Introduction II

Ainsi les moments (moyenne, variance, ...) de la variable codée ont peu
de sens : par exemple la corrélation entre deux variable X et Y va
dépendre du codage retenu et ne peut être interprétée économiquement
La notion d’indépendance entre deux variables codées reste quant à
elle indépendante du codage choisi

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Estimation des modèles dichotomiques
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Introduction III

Dans ce chapitre nous allons étudier le cas de variables dichotomiques


uniquement
Ce cas le plus simple correspond à la construction d’un score pour
évaluer l’octroi ou non d’un crédit
Nous allons étudier les modèles LOGIT et PROBIT
Application de ces modèles à la question du scoring bancaire

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

1 Introduction

2 Modèles Dichotomiques : définitions et interprétations

3 Estimation des modèles dichotomiques

4 Inférence Statistique et Qualité du modèle

5 Mesures d’efficacité d’une règle de décision

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Les données
On considère un échantillon de N individus indicés par i = 1, ..., N. Pour
chaque individu, on observe si un certain évènement s’est réalisé et on
note Yi la variable codée asociée :
1

(
0 si l’évènement ne s’est pas réalisé pour l’individu i
Yi =
1 si l’évènement s’est réalisé pour l’individu i

E [Yi ] = P[Yi = 1] × 1 + P[Yi = 0] × 0 = P[Yi = 1] ≡ pi

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Objectif des modèles dichotomiques :


Expliquer la survenue de l’évènement considéré en fonction d’un certain
nombre de caractéristiques observées des individus. On cherche à spécifier
la probabilité d’apparition de cet événement :

pi = f (xi1 , ..., xiM )

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Modèle linéaire

Spécification linéaire :
0
Yi = Xi β+i avec Xi = (xi1 ...xiM ) et β = (β1 ...βK ) pour i = 1, ..., N

par définition :
E [Yi ] = Xi β ≡ pi

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Les problèmes I

1 la valeur du paramètre β va dépendre du choix de codage. Donc le


paramètre β n’est pas interprétable.
2 Graphiquement, on peut montrer que l’approximation linéaire n’est
pas adaptée au problème posée : impossibilité d’ajuster par une droite
le nuage de points associé à une variable dichotomique

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Les problèmes II

3 Les variables Yi et i sont de nature différentes : sachant la nature


dichotomique de Yi alors i ne peut prendre aussi que 2 valeurs
différentes :
(
1 − Xi β avec une probabilité pi = P[Yi = 1]
i =
−Xi β avec une probabilité 1 − pi

⇒ ainsi la perturbation du modèle admet nécessairement une loi


discrète ce qui exclut l’hypothèse de normalité des résidus

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Les problèmes III

4 Si E [i ] = 0, alors la probabilité pi est déterminée de façon unique :

E [i ] = pi (1 − Xi β) − (1 − pi )Xi β = 0 ⇐⇒ pi = Xi β

Par conséquent, on doit avoir la propriété suivante :

0 6 Xi β 6 1 pour i = 1, ..., N

⇒ Rien n’assure que de telles conditions soient satisfaites par


l’estimateur MCO

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Les problèmes IV

5 Même si les contraintes précédentes sont vérifiées, on peut montrer


qu’il va subsister un problème d’hétéroscédasticité :
V [i ] = (1 − Xi β)Xi β

Démonstration :

V [i ] = E [2i ] = pi (1 − Xi β)2 + (1 − pi )(−Xi β)2


= Xi β(1 − Xi β)2 + (1 − Xi β)(−Xi β)2
= (1 − Xi β)Xi β[(1 − Xi β) + Xi β]
= (1 − Xi β)Xi β

D’où :

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Les problèmes V

MCG n’est pas applicable dans ce cas du fait de la contrainte


d’inégalité 0 6 Xi β 6 1
En effet dans ce cas la matrice de variance covariance de  dépend du
paramètre β à estimer dans la spécification linéaire, qui est par nature
supposé inconnu.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Conclusion
Pour toute ces différentes raisons, la spécification linéaire des
variables endogène qualitatitives n’est jamais utilisée.
On a recourt aux modèle LOGIT ou PROBIT
= la régression Logistique

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Définitions

L’idée est de remplacer la droite linéaire par ne fonction non linéaire


prenant ces valeurs dans l’intervalle [0, 1] :
pi = P[Yi = 1/Xi ] = F (Xi β) pour i = 1, ..., N
F (.) est une fonction de répartition (pourquoi ?)
Le choix de la fonction de répartition est a priori non contraint ; mais
dans la pratique deux types de fonctions sont retenues :
1 la fonction de répartition de la loi logistique (= LOGIT)
2 la fonction de répartition de la loi normale centrée réduite (= PROBIT)

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

LOGIT I

Fonction logistique
Dans le cas du modèle LOGIT, la fonction de répartition est la fonction
logistique :
ew 1
F (w ) = = ≡ Λ(w )
1 + ew 1 + e −w

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

LOGIT II

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

PROBIT

Probit
Dans le cas du modèle PROBIT, la fonction de répartition est celle de la
loi normale centrée réduite :

Z w z2
1 (− )
F (w ) = √ e 2 dz ≡ Φ(w )
−∞ 2π

On peut alors calculer les probabilités d’occurrence de l’évènement en


fonction des variables exogènes

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Calcul des probabilités

P[Yi = 1/Xi ]
1
LOGIT : pi = Λ(Xi β) =
1 + e −Xi β
z2
R Xi β 1 −
PROBIT : pi = Φ(Xi β) = −∞ √ e 2 dz

e −Xi β
NB : P[Yi = 0/Xi ] = dans le cas logistique
1 + e −Xi β

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Choix entre les deux modèles

Quelles sont les différences fondamentales entre les deux modèles ?


Quand doit-on utiliser l’un plutôt que l’autre ?
Quelles sont les propriétés particulières de ces deux modèles ?

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Comparaison des modèles I

Historiquement le modèle LOGIT a été introduit comme une


approximation du modèle PROBIT en permettant des calculs plus
simples
Ceci s’explique par la proximité des lois logistiques et normales : les
deux fonctions de répartitions sont sensiblement proches :

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Comparaison des modèles II


La similitude peut être encore plus proche si on normalise la loi
logistique de telle sorte que la variable aléatoire va avoir la même
variance que dans le cas de la loi normale (i.e. 1)
En effet, si Yi suit une loi logistique alors V [Yi ] = π 2 /3
On peut alors définir une loi logistique transformée :
1
Λλ (w ) = où V [Yi ] = π 2 /(3λ2 )
1 + e −λw

Il convient donc de normaliser par λ = π/ 3, soit :
1
Λπ/√3 (w ) = √
1+ e −(π/ 3)w
Amemiya (1981) proposent d’utiliser le paramètre λ = 1.6 qui est le
rapport des deux fonctions de densités (φ(w )/λ(w )) au point w = 0
Francisco Serranito Datamining et Scoring Bancaire
Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Comparaison des modèles III

Au final, les modèles LOGIT et PROBIT donnent généralement des


résultats relativement similaires même si les valeurs estimées des
paramètres ne sont pas les mêmes. On peut montrer que :

β̂L ' 1.6β̂P

Cette approximation sera d’autant plus vraie que l’échantillon


comporte peut de "valeurs extrêmes" (i.e. quand la moyenne des Xi β
est proche de 0)
Il existe toutefois des différences entre les deux modèles

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Différence entre LOGIT / PROBIT

1 La loi logistique tend a attribuer aux "évenements extrêmes" une


probabilité plus forte que la distribution nornale
La loi logistique est une distribution leptokurtique : elle présente un
excès de Kurtosis
Intuitivement on choisira un modèle LOGIT si on veut attribuer une
plus grande probabilité aux évènements extrêmes de l’échantillon
2 Le modèle LOGIT facilite l’interprétation des paramètres β associés
aux variables explicatives
Dans le cadre de la régression logistique, seul le signe du paramètre
donne une information pertinente indiquant si la variable associée
influence à la baisse (β̂ < 0) ou à la hausse (β̂ > 0) la probabilité de
l’évènement considéré.
On peut aussi calculer les Effets Marginaux pour interpréter les
coefficients

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Définition de l’Effet Marginal (EM)

Effet Marginal (EM)


L’effet marginal de la variable j xij mesure la sensibilité de la probabilité de
l’évènement Yi = 1 par rapport à une variation de cette variable :
δpi
δxij

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

EM dans le cas LOGIT

A partir de la définition de la probilité dans le cas logistique pi = Λ(Xi β),


on peut écrire les égalités suivantes :

e Xi β = pi (1 + e Xi β )
pi
log( ) = Xi β
1 − pi
1
(1 − pi ) =
1 + e Xi β
pi
e Xi β =
1 − pi
Cette dernière expression va être très intéressante pour l’anlyse
économique des résultats de l’estimation.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Odds ratio

Définition du "Odds" ("la cote")


La quantité ci ≡ pi /(1 − pi ) représente le rapport de la probabilité associée
à l’évènement Yi = 1 à la probabilité de non survenue de cet évènement :
il s’agit de la cote ("Odds). Dans le cas du modèle LOGIT, on a :

ci = e Xi β

Interprétation
Pour l’individu i, si sa cote vaut ci cela veut dire qu’il y a ci fois plus de
chance que l’évènement associé à Yi = 1 se réalise qu’il ne se réalise pas
(une cote de "ci contre 1" dans le langage des jeux)

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

EM, "Odds Ratio" et interprétations des coefficients I

On peut chercher à calculer l’EM de xij sur la cote ci : impact de la


j ième variable sur la cote de l’individu i
on suppose que xij augmente d’une unité et l’on cherche à mesurer de
combien la cote va se modifier sachant que :
M M
j
j
X Y
ci = exp( xi βj ) = e xi βj
j=1 j=1

On peut alors isoler l’effet la part de la cote qui provient de la variable


xij :
M

ci = exp(xij βj )
Y
e xi k

k=1etk6=j

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

EM, "Odds Ratio" et interprétations des coefficients II

Donc si xij augmente d’une unité, la cote devient :

M M
kβ j
c̄i = exp((xij + 1)βj )
Y Y
e xi k
= exp(βj ) e xi βj
k=1etk6=j j=1

Effet d’un accroissement unitaire sur la cote


Dans un modèle LOGIT, un accroissement d’une unité de la variable xij
multiplie, toutes choses égales par ailleurs, la cote par exp(βj ) :

c̄i = exp(βj )ci

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

EM, "Odds Ratio" et interprétations des coefficients III

Odds Ratio et interprétation des coefficients


D’après le résultat précédent, on peut écrire : βj = log[c̄i /ci ]
Le coefficient s’interprète comme le log du "Odds Ratio"
(=Rapport de cote)

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

EM dans le cas LOGIT


En général, on calcule les effets marginaux non pas à partir de la cote
mais directement à partir des probabilités associées à l’évènement de
référence.
EM mesure de la variation de la probabilité suite à une variation d’une
des variables exogènes :

δpi
EMij = = f (Xi β) × βj où f(.) est la fonction de densité
δxij

Démonstration :

δpi δF (Xi β) δ(Xi β) δF (Xi β)


= × = βj
δxij δ(Xi β) δxij δ(Xi β)
PM j
car : Xi β = j=1 xi βj
Francisco Serranito Datamining et Scoring Bancaire
Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

EM dans le cas du PROBIT

EM dans le cas d’un PROBIT


δpi 1 1
EMij = = √ exp[−( )(Xi β)2 ] × βj
δxij 2π 2

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Interprétation du signe des paramètres

Comme f (.) > 0, le signe de cette dérivée est donc identique à celui de βj
Interprétation
L’augmentation d’une variable associée à un coefficient positif βj > 0
entraîne une hausse de P[Yi = 1/Xi ]
Inversement, une augmentation d’une variable associée à un
coefficient négatif βj < 0 entraîne une baisse de cette probabilité

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Rejet de la méthode de la régression Linéaire
Estimation des modèles dichotomiques
Modèles LOGIT et PROBIT
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

EM individuel versus EM au point moyen

Les formules précédentes fournissaient des mesures individuelles des


EM
En général, il est utile de calculer ses EM au point moyen de
l’échantillon pour estimer l’impact moyen d’une variable sur la
probabilité.
Il existe deux manières de calculer cet EM évalué "au point moyen" :
1 ¯ j = f (X̄i β) × βj
EM
¯ j = 1 N EM j =
P 1
PN
2 EM N i=1 i N i=1 f (Xi β) × βj

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

1 Introduction

2 Modèles Dichotomiques : définitions et interprétations

3 Estimation des modèles dichotomiques

4 Inférence Statistique et Qualité du modèle

5 Mesures d’efficacité d’une règle de décision

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

Modélisation dichotomique et variable latente

L’estimation des modèles dichotomiques peut se faire par


l’introduction d’une variable latente continue qui mesure le
phénomène que l’on cherche à expliquer : Yi∗
On cherche à modéliser cette variable aléatoire continue mais elle est
inobservée ; on ne peut observer que Yi : l’évènement s’est réalisé ou
pas.
On suppose alors la relation suivante entre les deux variables :
(
0 si Yi∗ ≥ γ avec γ un réel
Yi =
1 si Yi∗ < γ

l’évènement Yi = 1 apparaît si la variable latente est inférieure à un


seuil : Yi∗ < γ
Francisco Serranito Datamining et Scoring Bancaire
Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

Modélisation dichotomique et variable latente

La variable latente Yi∗ va ensuite être modélisée par une régression


linéaire dépendant de caractéristique propre à l’individu Xi et d’un
terme aléatoire :
Yi∗ = Xi β + i
On fait alors l’hypothèse que : i ∼ i.i.d.(0; σ 2 )
le modèle s’écrit donc :
(
0 si Yi∗ = Xi β + i ≥ γ
Yi =
1 si Yi∗ = Xi β + i < γ

Il aurait été aussi possible de modéliser la variable latente (−Yi∗ ) et le


seuil (−γ)

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

Modélisation dichotomique et variable latente

la probabilité d’occurrence de l’évènement peut être ainsi modélisée


par :

pi = P[Yi = 1] = P[Yi∗ < γ]


= P[i < γ − Xi β]
= P[i ≤ γ − Xi β]
pi = F [γ − Xi β]

où F (.) désigne la fonction de répartition du terme d’erreur i


1 Si F (.) = Λ(.) la fonction logistique on retrouve le modèle LOGIT
2 Si F (.) = Φ(.) la fonction de répartition de la loi normale, on retrouve
le modèle PROBIT

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

Normalisation du seuil
le seuil γ ne peut être identifié que si le modèle linéaire ne contient
pas de constante
j
Si Xi β = β0 + M
P
j=1 xi βj alors :

M M
j j
X X
pi = F [γ − Xi β] = F [γ − β0 − xi βj ] = F [β̃0 − xi βj ]
j=1 j=1

Ainsi, on ne peut estimer que le paramètre β̃0 ≡ γ − β0


Pour estimer le modèle on est donc obligé d’imposer une contrainte
sur l’un des deux paramètres : en général, on suppose γ = 0 :
M
j
X
pi = F [−β0 − xi βj ]
j=1

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

Normalisation de la variance des résidus

Nous allons montrer que nous devons aussi normaliser la variance des
résidus pour estimer le modèle
Cette normalisation implique que la valeur des coefficients n’est pas
interprétable
Seul le signe du coefficient est important

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

Normalisation de la variance des résidus


Repartons du modèle :
(
0 si Yi∗ = Xi β + i ≥ 0
Yi =
1 si Yi∗ = Xi β + i < 0 avec i ∼ i.i.d.(0; σ 2 )
Si l’on considère le modèle PROBIT, alors la probabilité d’occurence de
l’évènement devient :
M
j
X
pi = P[i ≤ −β0 − xi βj ]
j=1
M
i β0 X βj
= P[ ≤− − xij ( )]
σ σ j=1
σ
M
β0 X βj
= Φ(− − xij ( ))
σ j=1
σ
Francisco Serranito Datamining et Scoring Bancaire
Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

Soit, de nouveau :
M
j
X
pi = Φ(−β̃0 − xi β̃j )
j=1

Seuls les paramètres β̃j pour j = 0, ..., M peuvent être estimés et non
pas les pramètres structurels du modèle : βj pour j = 0, ..., M et σ
De nouveau, on va avoir recours à une normalisation pour identifier
les paramètres βj
On va supposer que les résidus sont de variance unitaire : σ = 1

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

Interprétation des coefficients

Interprétation des coefficients estimés


Dans les modèles LOGIT et PROBIT, la variance du terme d’erreur
n’est pas identifiable ainsi que le seuil si le modèle inclut une
constante. la variance est alors normalisée à l’unité et le seuil à zéro.
Par conséquent, la valeur numérique des paramètres estimés n’a pas
d’intérêt en soi dans la mesure où ils ne correspondent aux
paramètres structurels β de l’équation de la variable latente qu’à une
constante multiplicative près.
Ainsi, la seule information réellement utilisable est le signe des
paramètres

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

Max de vraisemblance

L’imposition d’une loi spécifique pour la distribution des résidus, soit


la loi logistique soit la loi normale, permet d’estimer les paramètres
par la méthode du maximum de vraisemblance.
L’évènement Yi = 1 est associé à la probabilité pi = F (−Xi β) et
Yi = 0 à (1 − pi ) = (1 − F (−Xi β))
Yi peut être interprétée comme la réalisation d’un processus binomial
avec une probabilité pi = F (−Xi β) : Yi → B(1; pi )

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

Max de vraisemblance
La vraisemblance de l’échantillon associée au modèle dichotomique
s’écrit donc comme la vraisemblance d’échantillons associés à des
modèles binomiaux.
La vraisemblance associée à l’observation i est la probabilité
d’observer Yi par la loi binominale : soit si Yi → B(1; pi ) :
L(Yi ; β) = piYi × (1 − pi )1−Yi
La vraisemblance de l’échantillon Y = (Y1 , ..., YN ) s’écrit :
N N
piYi × (1 − pi )1−Yi
Y Y
L(Y ; β) = L(Yi ; β) =
i=1 i=1
Soit :
N
Y
L(Y ; β) = F (−Xi β)Yi × [1 − F (−Xi β)]1−Yi
i=1
Francisco Serranito Datamining et Scoring Bancaire
Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

Max de vraisemblance

La log Vraisemblance
La fonction à maximiser est donc la log vraisemblance, soit :
N
X
log L(Y ; β) = (Yi log[F (−Xi β)] + (1 − Yi ) log[1 − F (−Xi β)])
i=1
X X
log L(Y ; β) = log[F (−Xi β)] + log[1 − F (−Xi β)]
i:Yi =1 i:Yi =0

L’estimateur β̂MV est obtenu en calculant les CPO de ce programme

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Introduction d’une variable latente
Modèles Dichotomiques : définitions et interprétations
Normalisation du seuil
Estimation des modèles dichotomiques
Normalisation de la variance des résidus
Inférence Statistique et Qualité du modèle
Max de Vraisemblance
Mesures d’efficacité d’une règle de décision

title

La log vraisemblance est toujours négative, parfois on calcule la


quantité suivante appelée la "Deviance" ou la "Deviance
Résiduelle" (D) qui est toujours positive :

D = −2 × log L(Y ; β)

On doit alors minimiser ce critère


En anglais, D est appelé "residual deviance" : le logiciel R utilise cette
notion

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

1 Introduction

2 Modèles Dichotomiques : définitions et interprétations

3 Estimation des modèles dichotomiques

4 Inférence Statistique et Qualité du modèle

5 Mesures d’efficacité d’une règle de décision

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Tests sur les paramètres

Test : H0 : g(β) = 0 vs H1 : g(β) 6= 0


le modèle étant estimé par le Max. de Vraisemblance, l’inférence
statistique se fera à partir des 3 tests suivants :
1 Test de Wald : W
2 Test du score ou du multiplicateur de Lagrange : LM
3 Test du rapport de vraisemblance : LRT
Ces trois tests sont asymptotiquement équivalents
Ils peuvent différer sur des "petits échantillons" : dans ce cas, le test
LRT est localement le plus puissant et il devrait être préféré

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Représentation graphique des tests

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Test de Wald

Idée : H0 sera accepté si l’estimateur contraint est proche de


l’estimateur non contraint : soit g(β̂) = 0
0 0
W = [g(β̂)] [G × Var (β̂) × G ][g(β̂)] → χ2 (c)

δg(.)
où c est le nombre de contrainte et G =
δβ 0
Pour tester la significativité d’un seul coefficient, la statisitique
précédente devient :

0 (β̂j − a)2
W = [β̂j − a] [Var (β̂j )]−1 [β̂j − a] = = tβ2j → χ2 (1)
Var (β̂j )

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Test LRT

Idée : la log vraisemblance contrainte doit être proche de celle non


contrainte
Il faut alors estimer le modèle non contraint et le modèle contraint
par le principe du max de vraisemblance :

LRT = −2[log L(Y ; β̂) − log L(Y ; β̂ c )] → χ2 (c)

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Test LM

Idée : H0 sera accepté si les conditions du premier ordre évalué au


point contraint doit être proche de zéro

δ log L(Y ; β̂ c ) 0 c −1 δ log L(Y ; β̂ c )


LM = [ ] I(β̂ ) [ ] → χ2 (c)
δβ 0 δβ 0

où I(β̂ c )−1 est l’inverse de la matrice d’information de Fisher évaluée


au point contraint
NB : on utilise souvent une régression auxilaire estimée par les MCO
pour calculer la statistique LM = N × R 2

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Règle de classement

Règle de classement ou définition du Score


Une fois la regression logistique estimée, on utilise la règle suivante
pour le classement des individus :
(
1 si p̂i = F [−Xi β̂] ≥ Q̄
Ŷi =
0 si p̂i = F [−Xi β̂] < Q̄

Dans la pratique courante, le seuil est le suivant : Q̄ = 1/2


Cette règle permet de "scorer" les individus, et par là de les classer
selon leur probabilité d’occurrence de l’évènement considéré

La valeur théorique de ce seuil provient de l’hypothèse suivante : Ŷi = 1 si


pi
le rapport de chances est supérieur à 1 : >1
1 − pi
Francisco Serranito Datamining et Scoring Bancaire
Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Règle de classement : le cas LOGIT I

Dans la cas LOGIT :


pi P[Yi = 1/Xi ] 1 1 + e −Xi β
= = × >1
1 − pi P[Yi = 0/Xi ] 1 + e −Xi β e −Xi β
= e Xi β > 1

Soit :
Xi β > 0
Dans ce cas, la fonction de "Score" (notée S(X )) est simple à calculer :

Ŷi = 1 ssi S(Xi ) = Xi β̂ > 0

On retrouve ici l’idée de la transformation logistique des données

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Règle de classement : le cas LOGIT II

Transformation LOGIT de pi pour estimer cette probabilité :


M
pi
xij βj
X
ln[ ] = Xi β = β0 +
1 − pi j=1

et non pas, comme dans le modèle linéaire :


M
j
X
pi = β0 + xi βj
j=1

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Score dans le cas d’un PROBIT

Dans le cas d’un modèle PROBIT, le score est directement mesuré par la
probabilité estimée :

Ŷi = 1 ssi S(Xi ) = 100 × p̂i ≡ 100 × Φ[−Xi β] ≥ 50

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Règle de classement

Limite de la règle
Le problème avec cette règle est que l’on considère de la même façon
un individu ayant une probabilité p̂i = 0.49 et un individu ayant une
probabilité p̂i = 0.1
On pénalise ces deux individus de la même façon dans le cas d’un
échec du modèle (Yi = 1) et on les valorise de la même façon en cas
de réussite

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Mesures de la qualité du modèle

Grâce à la règle de classement, on peut calculer des mesures de qualité du


modèle :
1 Nombre de prédictions fausses
2 La matrice de confusion : calcul de la sensibilité, de la spécificité, de
la précision et du taux d’erreur
3 A partir de ces indicateurs, on peut calculer la somme des Carrés des
Résidus et des "pseudo R 2 " (de Efron et/ou de McFadden)

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Nombre de fausses prédictions

N
X
Nombre de fausses prédictions = (Yi − Ŷi )2
i=1

Cette quantité donne le nombre de fausses prédictions puisque


(Yi − Ŷi )2 > 0 si seulement Yi 6= Ŷi : par exemple si Yi = 1 alors que
Ŷi = 0 et inversement.
Limites de ce critère : dans le cas particulier où l’on modélise des
événements avec une forte probabilité ou au contraire une faible
probabilité, alors la plupart des modèles obtiendront de bons résultats
avec ce critère.
⇒ le nombre de prédictions fausses sera faible

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Matrice de Confusion
On peut généraliser le résultat suivant et calculer la matrice de
confusion (en anglais "classification table") du modèle qui est simplement
le tableau de contingence suivant :

Table – Matrice de confusion


valeur observée
Y =1 Y =0 Total
Ŷ = 1 TP FP P̂(Tot)
valeur prédite
Ŷ = 0 FN TN N̂(Tot)
Total P(Tot) N(Tot) N

où : TP désigne les vrais positifs (True Positive), TN les vrais négatifs


(True Negative), FP les faux positifs (False Positive) et FN les faux
négatifs (False Negative)
Francisco Serranito Datamining et Scoring Bancaire
Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Matrice de confusion

Matrice de Confusion
L’intérêt de la matrice de confusion est qu’elle permet à la fois de mesurer
la valeur de l’erreur commise (le taux d’erreurs) et de rendre compte de la
structure de cette erreur (la manière de se tromper du modèle).

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Indicateurs calculés à partir de la Matrice de confusion I

A partir de ce tableau de contingence, on peut construire les indicateurs


suivants :
1 ACCURACY (ACC) = le taux de bon classement ou le taux de
succès ou la probabilité de bien classer un individu :

TP + TN
ACC ≡
N
2 ERROR (ERR) = le taux de mauvais classement, appelé aussi le
taux d’erreur ou la probabilité de mal classer un individu :

FP + FN
ERR ≡ = 1 − ACC
N

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Indicateurs calculés à partir de la Matrice de confusion II

Lorsque les classes sont équi-distribuées c’est-à-dire si les proportions


de 0 et de 1 sont identiques dans la population, alors nous obtiendrions
un taux d’erreurs théorique égal à 0.5.
La règle de classement doit faire mieux.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Indicateurs calculés à partir de la Matrice de confusion III


3 On peut aussi écrire le tableau de contingence précédent en calculant
les fréquences
. . . en ligne : PPV (Positive Predictive Value), NPV (Negative
Predictive Value), FDR (False Discovery Rate) et FOR (False
Ommission Rate) :

Table – Matrice de confusion II


valeur observée
Y =1 Y =0
TP FP
Ŷ = 1 PPV = FDR =
valeur prédite P̂(Tot) P̂(Tot)
FN TN
Ŷ = 0 FOR = NPV =
N̂(Tot) N̂(Tot)
Total P(Tot) /N N(Tot) /N

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Indicateurs calculés à partir de la Matrice de confusion IV

La valeur prédictive positive (PPV) est aussi appelée la "Précision"


= la proportion de vrais 1 parmi les individus qui ont été classés 1
par la règle
La précision et doit être comparée à la "Prévalence" P(Tot) /N
= le pourcentage de 1 dans l’échantillon

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Indicateurs calculés à partir de la Matrice de confusion V

Calcul des fréquences en colonne : le taux de vrais positifs TPR (True


Positive rate), FPR (False Positive Rate), FNR (False Negatif Rate) et
TNR (True Negative Rate)

Table – Matrice de confusion III


valeur observée
Y =1 Y =0
Ŷ = 1 TPR = TP/P(Tot) FPR = FP/N(Tot)
valeur prédite
Ŷ = 0 FNR = FN/P(Tot) TNR = TN/N(Tot)

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Spécificité et Sensibilité

En pratique on s’intéresse plus particulièrement aux deux indicateurs :


TPR et TNR
TPR est aussi appelé la "Sensibilité" (Se ) ou encore "Recall" en
anglais : la proportion de 1 bien prédits.
La sensibilité indique la capacité du modèle à correctement
prédir l’évènement étudié.
TNR est aussi appelé la "Spécificité" (Sp ) : la proportion de 0 bien
prédits.
FPR = (1 − TPR) ≡ (1 − Spécificité) est aussi appelé le taux de
faux prédits, "Fall-Out" en anglais ou l’antispécificité.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Spécificité et Sensibilité

Mesure de la Qualité d’un modèle


Une bonne règle de classement doit être à la fois "sensible" et
"spécifique"
On peut analyser la qualité de la règle en calculant la F-Mesure

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

La F-Mesure I

La F-Mesure est une moyenne harmonique entre la sensibilité (Se ) et la


"Précision" ou la valeur prédictive positive (P = PPV ) :

1
Fα = 1 1 α ∈ [0, 1]
α× P + (1 − α) × Se

soit, en notant λ2 = (1 − α)/α

(1 + λ2 ) × Se × P
Fλ =
λ2 × P + Se
L’importance accordée à la Sensibilité ou à la Précision va dépendre du
paramètre λ :

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

La F-Mesure II

1 Si λ = 1 (la valeur usuelle) : alors on accorde la même importance à


la sensibilité et à la précision, la F-Mesure devient :

2 × Se × P
F =
P + Se
2 Si λ < 1 alors on accorde plus d’importance à la précision par rapport
à la sensibilité. Une valeur fréquemment utilisée est λ = 0.5 : on
accorde deux fois plus d’importance à la précision.
3 Si λ > 1 alors on accorde plus d’importance à la sensibilité. Une
valeur fréquemment utilisée est λ = 2

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Qualité de la règle de classement I

La sensibilité (Se ) et la spécificité ( Sp ) jouent un rôle particulier dans


l’évaluation de la qualité d’un modèle.
Un "bon" modèle doit présenter des valeurs élevées sur ces deux
critères : max Se et Sp .
⇒ un "bon" modèle doit présenter des valeurs faibles de taux
d’erreur et de taux de faux positifs (proche de 0) ; mais des
valeurs élevées de la sensibilité, de la précision et de la
spécificité (proche de 1).
En règle générale, lorsqu’on oriente l’apprentissage de manière à
améliorer la sensibilité, on dégrade (souvent) la précision et la
spécificité.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Qualité de la règle de classement II

Raison de plus pour les surveiller les deux critères


simultanément :
1 Car tous deux partagent une propriété importante : ils ne dépendent
pas du schéma d’échantillonnage.
Même si l’échantillon n’est pas représentatif c.-à-d. la proportion de 1
(resp. de 0) ne reflète pas la vraie probabilité d’occurence de
l’évènement considéré, la sensibilité et la spécificité n’en sont pas
affecté.
⇒ Tout simplement parce que nous utilisons le "profil-colonne" de la
matrice de confusion.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Qualité de la règle de classement III

2 Enfin, la grande majorité des indicateurs d’évaluation des règles de


classement peuvent s’écrire en fonction de la sensibilité et la spécificité :

ERR = P(Y = 1 et Ŷ = 0) + P(Y = 0 et Ŷ = 1)


= P(Y = 1) × P(Ŷ = 0/Y = 1) + P(Y = 0) × P(Ŷ = 1/Y = 0)
= P(Y = 1) × (1 − Se ) + P(Y = 0) × (1 − Sp )
= p × (1 − Se ) + (1 − p) × (1 − Sp )

Le taux d’erreur sera d’autant plus faible que la sensibilité et la


spécificité sont élevées (proches de 1)
D’après la définition du taux de succès : ACC = 1 − ERR, on a :

ACC = p × Se + (1 − p) × Sp

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Qualité de la règle de classement IV

La précision (valeur prédictive positive) peut s’écrire :

p × Se
PPV ≡ P =
p × Se + (1 − p) × (1 − Sp )

Le rapport de Vraisemblance : ce critère décrit le surcroît de


chances qu’a un individu pour lequel l’évènement est survenu (Y = 1)
par rapport à Y = 0 d’être classés Ŷ = 1 par la règle.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

Qualité de la règle de classement V

Sa définition est la suivante :

P[Ŷ = 1/Y = 1]
L=
P[Ŷ = 1/Y = 0]
P[Ŷ = 1/Y = 1]
=
1 − P[Ŷ = 0/Y = 0]
Se
L=
1 − Sp

Le rapport de vraisemblance ne dépend pas de la proportion de "1"


dans l’échantillon : Plus grande est sa valeur, meilleur sera le
modèle.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

SCR et "pseudo R 2 "

Grâce à la règle de classement, on peut calculer des mesures de qualité du


modèle de type R 2
1 la somme des Carrés des Résidus et le R 2 de Efron
2 le pseudo R 2 de McFadden (mesure la plus utilisée)

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

SCR et R 2 de Efron I

Nous pouvons interpréter le modèle dichotomique de la manière suivante :

Yi = pi + i = F (−Xi β) + i puisque dans ce cas E [Yi ] = pi

D’où :
N
X N
X
2
SCR ≡ [Yi − p̂i ] = [Yi − F (−Xi β̂)]2
i=1 i=1

On peut alors utiliser ce critère pour construire une mesure de la qualité


du modèle de type R 2 . Efron (1978) propose la mesure suivante :
PN 2
2 i=1 [Yi − F (−Xi β̂)]
R de Efron = 1 − PN 2
i=1 (Yi − Ȳ )

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

SCR et R 2 de Efron II

Cependant, comme nous l’avons vu, les résidus du modèle dichotomique


sont hétéroscédastiques.
Il est alors préférable de calculer la SCR pondérés par les probabilités
estimées :
N
X [Yi − F (−Xi β̂)]2
SCR pondérée = [ ]
i=1
F (−Xi β)(1 − F (−Xi β)

Avec ce critère, on attache une plus grande "perte" aux erreurs faites en
prévoyant des variables de faible variance, étant donné qu’il est plus facile
de prévoir ces variables.
C’est pourquoi on pondère la SCR par l’inverse de la variance.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

SCR et R 2 de Efron III

A partir de ce critère on peut calculer le Coefficient de Corrélation des


Carrés (CCR) :

[ N 2
i=1 (Yi − Ȳ ) F (−Xi β̂)]
2
P
CCR = PN
[ i=1 (Yi − Ȳ )2 ] × [ N 2
i=1 (F (−Xi β̂) − F̄ (−Xi β)) ]
P

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Modèles Dichotomiques : définitions et interprétations
Tests sur les paramètres
Estimation des modèles dichotomiques
Mesures de la qualité du modèle
Inférence Statistique et Qualité du modèle
Mesures d’efficacité d’une règle de décision

R 2 de McFadden

Comme le modèle est estimé par le maximum de vraisemblance, McFadden


(1974) propose d’utiliser la valeur estimée de la log vraisemblance pour
calculer un pseudo-R 2 :

log L(Y , β̂)


Pseudo-R 2 de McFadden = 1 −
log L(Y , 0)

où log L(Y , 0) désigne le maximum de la fonction de log vraisemblance


obtenu lorsque tous les coefficients de la régression (β) sont nuls à
l’exception de la constante.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

1 Introduction

2 Modèles Dichotomiques : définitions et interprétations

3 Estimation des modèles dichotomiques

4 Inférence Statistique et Qualité du modèle

5 Mesures d’efficacité d’une règle de décision

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Les trois approches alternatives

L’efficacité de la règle de classement est définie à partir du calcul du taux


d’erreurs.
3 méthodes distinctes peuvent être mises en place :
1 La méthode de resubstitution
2 La méthode de l’échantillon-test
3 La méthode de validation croisée (méthode LOO "Leave One Out")

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Méthode de resubstitution

Cette méthode consiste à appliquer la règle de décision choisie sur


l’échantillon en entier
Le taux d’erreurs ainsi calculé s’apelle le taux apparent d’erreurs
NB : il s’agit de l’approche retenue dans la section précédente

Limites
Méthode peu coûteuse en termes de temps de calculs ; mais elle a un grave
défaut : elle sous-estime systématiquement le taux d’erreurs vu que l’on
utilise les mêmes observations pour le calculer que celles qui ont servi à
estimer la règle de classement.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Méthode de l’échantillon-test

La solution la plus simple pour calculer le taux d’erreurs de manière


robuste consiste à évaluer la règle de décision sur des données à part
qui n’ont pas participé au processus d’apprentissage.
Il faut lors partager l’échantillon initial en deux sous-échantillons. Le
partage doit se faire de manière aléatoire :
1 un premier sous-échantillon (taille ≥ 70% de l’original) sert
d’échantillon d’apprentissage de la règle de classement
2 le second sous-echantillon sert d’échantillon-test et permet de tester la
qualité de la règle de classement en calculant le taux d’erreurs
Principal atout de cette méthode, les indicateurs ainsi obtenus sont
non-biaisés. Ils permettent de comparer les mérites respectifs de
plusieurs modèles, même s’ils sont de complexité différente
Cette méthode nécessite un échantillon initial plus important.
Francisco Serranito Datamining et Scoring Bancaire
Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Méthode de validation croisée

Cette méthode convient mieux aux petits échantillons.


Méthode LOO (Leave One Out)
Pour tout i = 1, . . . , N, on va considérer les N échantillons
d’apprentissage constitués en éliminant la i ème observation,
La règle de classement est alors appliquée à cette i ème observation
On recommence le processus avec un nouvel echantillon
d’apprentissage
A l’issu de ces N analyses, le taux d’erreurs est estimé en divisant le
nombre de mal-classés par N

NB : on pourrait aussi utiliser le "Bootstrap" pour construire des


échantillons d’apprentissage différents.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Choix du seuil Q̄

Nous avons vu que la règle de classement dépend du choix d’un seuil Q̄ :


(
1 si p̂i = F [−Xi β̂] ≥ Q̄
Ŷi =
0 si p̂i = F [−Xi β̂] < Q̄

Si on modifie le seuil Q̄(= 0.5), on modifie la règle de décision, la


matrice de confusion et donc tous les indicateurs de qualités étudiés
(taux d’erreurs, spécificité, sensibilité, précision, . . .)
On peut utiliser la courbe ROC (Receiver Operating Characteristic)
et de la valeur AUC (Area Under the Curve) pour choisir un seuil
"optimal"

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Courbe ROC

La sensibilité et la spécificité dépendent du seuil Q̄ choisi. On peut donc


définir les variables suivantes :

Se (Q̄) et Sp (Q̄) pour Q̄ ∈ [0, 1]

La courbe ROC représente le taux de faux prédits ("Fall-Out") ou


FPR ou l’antispécificité (1 − Sp (Q̄)) en abscisse et la sensibilité en
ordonnée Se (Q̄)
La courbe ROC est alors la courbe : (1 − Sp (Q̄); Se (Q̄))Q̄

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Courbe ROC

Courbe ROC et Qualité de la règle de classement


Si cette courbe coïncide avec la première bissectrice, alors le score
n’est pas plus performant qu’un modèle aléatoire où l’on attribue la
classe au hasard ;
Plus la courbe ROC s’approche du coin supérieur gauche, meilleur est
le modèle : il permet de capturer le plus possible de vrais "1" avec le
moins possible de faux "0".

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Un exemple de courbe ROC


Un exemple de courbe ROC :

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Règle de classement parfaite

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Mauvaise règle de classement

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Critère AUC I

L’aire sous la courbe ROC (la valeur AUC) peut ainsi être vu comme
une mesure de la qualité du score.
Le critère AUC varie entre 0 (cas le pire) et 1 (cas le meilleur) :
Interprétation de AUC
La valeur AUC s’interprète comme la probabilité que le score d’un individu
A soit supérieur à celui d’un individu B, si A est tiré aléatoirement parmi
l’ensemble des individus pour lesquels Y = 1 tandis que B est issu du
groupe des individus pour lesquels Y = 0

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Critère AUC II

Ainsi si AUC = 1 cela veut dire que le score de tous les individus pour
lesquels Y = 1 est supérieur au score des individus pour lesquels
Y =0
⇒ Le score discrimine parfaitement l’échantillon.
Si la règle de classement est totalement aléatoire la courbe ROC se
confond avec la première bissectrice, et alors nous obtiendrons AUC
= 0.5.
C’est la situation de référence, notre règle de classement doit faire
mieux.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Critère AUC

On propose généralement différents paliers pour donner un ordre d’idée sur


la qualité de la règle de classement :
Interprétation des valeurs AUC
Valeur AUC Commentaire
AUC = 0.5 Mauvais modèle (car classement aléatoire)
0.7 ≤ AUC < 0.8 Règle de classement acceptable
0.8 ≤ AUC < 0.9 Règle de classement excellente
AUC ≥ 0.9 Règle de classement exceptionnelle

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Choix du seuil Q̄

On peut utiliser la courbe ROC pour choisir un seuil optimal Q̄ ∗ . En


pratique :
1 Ce seuil correspond au point de la courbe ROC le plus éloigné de la
première bissectrice et le plus près du point supérieur gauche (0,1)
2 Ce seuil correspond au point où la pente de la courbe est la plus proche
de 0
3 Ou le seuil qui minimise le taux d’erreurs

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Un exemple

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Courbe de Lorentz ou courbe LIFT I

Une variante de la courbe ROC est la courbe LIFT, utilisé en


marketing, qui est appelée courbe de Lorentz, de Puissance ou de
Performance en économétrie.
La courbe LIFT représente la proportion d’individus dont Y = 1 et
qui ont bien été classés (i.e. la sensibilité Se (Q̄) du modèle) en
fonction de la proportion des individu choisie par la règle (ceux pour
qui Ŷ = 1)
La courbe LIFT a ainsi la même ordonnée que la courbe ROC mais une
abscisse différente.

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Courbe de Lorentz ou courbe LIFT II

On obtient la courbe LIFT en classant tous les individus de


l’échantillon par score décroissant, en les regroupant par classes (ex
par centiles), puis en traçant la courbe cumulative de ces
pourcentages.
Ainsi, un point de la courbe LIFT (n, m) signifie que n% des individus
ayant le plus fort score concentrent m% des individus pour lesquels
Y = 1.
La courbe LIFT permet donc de répondre à la question suivante :
Quelle fraction de la population à risque détecte t-on en ciblant
les x% de la population ayant un score supérieur à un seuil Q̄ ?

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Un exemple de courbe LIFT

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Indice de Gini

La courbe LIFT peut s’interpéter comme une courbe de Lorentz, on


peut alors calculer un indice de Gini.
Mathématiquement, l’indice de Gini va correspondre au rapport entre
deux aires dans le diagramme de la courbe LIFT :
A
Gini =
A+B
On peut montrer la relation suivante entre le Gini et le critère AUC :

Gini = 2 × AUC − 1

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Indice de Gini : représentation graphique

Francisco Serranito Datamining et Scoring Bancaire


Introduction
Mesures d’efficacité
Modèles Dichotomiques : définitions et interprétations
Courbe ROC et critère AUC
Estimation des modèles dichotomiques
Choix d’un seuil optimal
Inférence Statistique et Qualité du modèle
Courbe de Performance et indice de Gini
Mesures d’efficacité d’une règle de décision

Indice de Gini

Plus l’indice de Gini sera eléve et plus la règle de classement et donc


le modèle sera bon
Il est communément admis que l’indice de Gini doit être supérieur à
0,25 pour qu’un modèle soit assez prédictif pour aider à la prise de
décision

Francisco Serranito Datamining et Scoring Bancaire

Vous aimerez peut-être aussi