Académique Documents
Professionnel Documents
Culture Documents
Cours Scoring
Cours Scoring
Cours Scoring
Page 1
AVANT PROPOS
Ce cours polycopi sur les mthodes de scoring est le rsultat dune
exprience denseignement de ce module durant ces dernires annes lEcole
de Statistique et dAnalyse de lInformation
Il profite galement de lexprience acquise travers lencadrement dans la
mme cole de projets de fin dtudes ayant port sur des applications de gestion
qui ont utilis les mthodes de scoring.
Ce cours reste nanmoins trs incomplet. Il ne traite en effet en tout que
deux mthodes de scoring qui sont la mthode danalyse discriminante de Fisher
et la mthode de discrimination logistique. Ces deux mthodes sont les plus
connues mais dautres mthodes galement intressantes existent dans la
littrature statistique et devraient tre aussi tudies par tout lecteur cherchant
approfondir ses connaissances en la matire.
Il reste galement assez thorique. En effet, les considrations dordre
pratique lies notamment lchantillonnage et aux techniques de slection des
variables explicatives ne sont que partiellement ou pas du tout abordes.
Dautre part et quoique ayant fait lobjet de plusieurs lectures et de
vrifications, ce cours risque de contenir quelques erreurs mathmatiques (et
erreurs de langue aussi). Je serais trs reconnaissant aux lecteurs me signalant
les ventuelles erreurs ou incomprhensions.
Lauteur
Page 2
TABLE DE MATIERES
Dsignation
Avant propos
Chapitre1 : Introduction gnrale
1. Prsentation des mthodes de scoring
2. Dmarche pratique
3. Porte et limites
Chapitre 2 : Lapproche gomtrique
1. Position du problme et notation
2. Concepts de base
3. Principe de classement
Chapitre 3 : Classifieurs Bayesiens
1. Elments de la thorie de la dcision
2. Classifieur de Bayes
3. Mise en application
Chapitre 4 : Analyse discriminante de Fisher
1. Prsentation
2. Modlisation
3. Estimation
Chapitre 5 : Analyse discriminante logistique
1. Prsentation
2. Modlisation
3. Estimation
Chapitre 6 : Validation dun modle de scoring
1. Concepts de base
2. Principaux outils
3. Illustration
Bibliographie.
Page
2
4
4
6
7
9
9
11
16
19
19
22
24
26
26
26
28
29
29
31
31
33
33
35
39
41
Page 3
Chapitre 1
INTRODUCTION GENERALE
Cette introduction gnrale a pour but de prsenter lobjet des mthodes de
scoring ainsi que leurs principales applications en gestion. La porte et les
limites de ces mthodes ainsi que la dmarche pratique pour leur mise en uvre
sont galement discutes.
1. PRESENTATION
Dans cette prsentation des mthodes de scoring, nous nous proposons de
dfinir lobjet de ces mthodes. Nous examinons par la suite les principales
applications des dites mthodes dans le domaine de la gestion des entreprises.
1.1 Objet
Selon le langage courant, le terme score peut signifier classement ,
rsultat , marque etc. En statistique, cest lide de classement qui est
surtout retenue.
Le scoring (statistique) se prsente en effet comme un ensemble de
mthodes conduisant un classement dindividus au sein de groupes
pralablement dfinis.
La notion de classement mrite son tour dtre lucide compte tenu des
confusions souvent constates avec le terme classification . Ce dernier terme
signifie en effet la mise en vidence de groupements inconnus dans une
population. En revanche, un classement dsigne toute mthode daffectation des
individus dune population dans des groupes dfinis priori.
Formellement, tant donn un ensemble dindividus pouvant tre dcrits
par un certain nombre de variables. Ces individus se rpartissent entre quelques
groupes dfinis priori. Un individu se prsente. On ne connait pas son groupe
dappartenance. Peut-on, sur la base des observations quil prsente vis--vis des
variables considres, prvoir le groupe auquel il appartient ?
Cest le problme auquel les mthodes de scoring cherchent donner une
solution. Une mthode de scoring se prsente en effet comme une technique
statistique permettant de classer un individu dans lun des quelques groupes
dfinis priori et ce au vu de certaines caractristiques de cet individu.
Page 4
Il sagit bien dune mthode de classement statistique car elle est base
dabord sur un traitement statistique des donnes issues dun chantillon
dindividus. Dautre part, les facteurs derrire lappartenance dun individu tel
ou tel autre groupe reste en partie inconnus.
En fait, les mthodes de scoring relvent de mthodes gnrales de
classement statistiques (et non de classification) comme lanalyse discriminante,
la rgression logistique, etc.
1.2 Domaines dapplication
Les techniques de scoring sont appliques dans plusieurs domaines comme
la mdecine, lagronomie, larchologie, linformatique, la gestion des
entreprises, etc.
Dans ce dernier domaine, deux principaux types de score sont utiliss : le
score dapptence et le score de risque.
1.2.1 Score dapptence
Utilis notamment en marketing, le score dapptence est une mesure de la
propension dacheter dun client.
En pratique, on utilise notamment ce type de score pour apprcier la
probabilit dun client dtre intress par un nouveau produit.
En effet, dans les domaines o il est possible datteindre directement (par
email, SMS, ou par voie postale par exemple) un grand nombre de clients
potentiels (tlphonie, services bancaires, etc.), la promotion de nouveaux
produits gagnerait tre cible auprs des clients les plus intresss.
Dans ce contexte, on est ainsi en prsence de deux groupes : celui des
clients qui sont intresss par le nouveau produit et celui des clients qui ne le
sont pas.
La construction dun score dapptence permet alors de prvoir le groupe
dappartenance des diffrents clients de lentreprise au vu de leur
caractristiques et partant :
De natteindre que les clients les plus rceptifs
Dviter dimportuner les clients non intresss
Ce qui assure une utilisation optimale du budget allou cet effet.
Cours de mthodes de scoring- Hassen MATHLOUTHI
Page 5
Page 6
Page 7
Page 8
Chapitre 2
APPROCHE GEOMETRIQUE
Ce chapitre prsente la mthode de scoring la plus intuitive. Il sagit en
effet dune mthode simplement base sur des outils gomtriques et
statistiques.
La rgle daffectation qui se dduit de cette approche gomtrique se
prsente comme un cas particulier important de la mthode danalyse
discriminante de Fisher qui sera examine en dtail plus loin dans ce cours.
1. NOTATION ET POSITION DU PROBLEME
Lobjet de cette section est de placer le problme de classement dans un
cadre gomtrique. Pour ce faire, nous devons au pralable fixer les notations.
1.1 Notations
On considre une population E compose de n individus. On collecte
auprs de ces individus des donnes relatives p variables quantitatives. La
donne relative la variable j chez lindividu i est note xi,j
Lensemble des donnes collectes peut alors tre reprsent par un tableau
ayant la forme suivante :
x1,1 x1,2 x1,j x1,p
x2,1 x2,2 x2,j x2,p
xi,1 xi,2 xi,j xi,p
Page 9
,
,
,
,
et X(i) =
,
,
.
.
,
,
-2
-2 0
-4
-6
0 1 ! "
1
1
1
Page 10
Remarques
Le poids dun groupe est naturellement dfini par la somme des poids des
individus format ce groupe :
#
$%&
.
Dans le cas uniforme # & Les poids associs aux groupes ne sont
pas uniformes car les effectifs des groupes ne sont pas en gnral gaux.
) "
,
Page 11
-01
&
- . -,/
2&
0%&
,
) " # )
Il sensuit que :
3
# 3
Page 12
4 '
,
( + 65
4
,
.
,
,9
+ ) )9
,
,9
1
7 79
.
V=
8, 8, . 4 8,
.
8, 8, . 8, 4
Page 13
4 . 8,
8,
8,
.
Vk=
8 8 . 4 8
,
, ,
.
8, 8, . 8, 4
4
et
(4
-01
&
&
<
.-,/
8,9
'8,9
&
&
2&
+ :) ;
<
-01 - .-,/
0%&
,
,9
#
+ ) )9
Remarque: les moyennes ne sont pas nulles car les sous nuages ne sont pas
centrs.
Soit W la matrice dfinie par la moyenne arithmtique des variances Vk .
Cette matrice est appele matrice des variances et covariances intra groupes:
> " # 4
Page 14
) ) . ) )
.
G=
) ) . ) )
.
) ) . ) )
?
?
?
4? 8,
. 8,
8,
?
?
?
?
8, 4 . 8, 8,
..
B=
8? 8? . 4? 8?
,
, ,
.
?
?
?
?
8, 8, . 8, 4
4?
65 (
# ') +
# ') (
et
?
8,9
65 ;' )9 +
,,,(
9 # ) )9
# :) +
@
# 3 3 .
Page 15
Page 16
AB 'C( DB E "
GI
FBG CG
Page 17
Page 18
Chapitre 3
CLASSIFIEUR BAYESIEN
Le problme de classement dun individu sur la base de ses caractristiques
dans lun de quelques groupes dfinis priori peut tre plac dans un cadre
probabiliste. Il sera ainsi possible dutiliser tous les outils de la thorie de
probabilit dont en particulier les mthodes de choix dans lincertain.
Un avantage important de lapproche probabiliste par rapport aux mthodes
gomtriques prsentes dans le chapitre prcdent est alors de permettre
dapprcier quantitativement les risques de mauvais classement.
1. ELEMENTS DE LA THEORIE DE DECISION
On considre une population E de n individus rpartis entre m groupes E1,
E2,,Ek, ,Em dfinis priori :
et Ek El = k l. Si on note
n1, n2,,nk, ,nm les effectifs respectifs des m groupes considrs, on a ainsi :
Soit un individu e de E, dont on ne connait pas le groupe dappartenance et
quon cherche classer dans lun des m groupes. Cet individu peut tre
considr comme le rsultat dune exprience alatoire de tirage au hasard dun
lment de E.
Vu de cette manire, le problme de classement peut tre plac dans le
cadre de la thorie probabiliste. Lensemble E se prsente ainsi comme un
ensemble de rsultats possibles dune exprience alatoire auquel on peut
adjoindre une tribu et une probabilit P pour former un espace probabilis.
1.1 Etats de la nature :
Pour un individu e dont on ne connait pas le groupe dappartenance, on
dfinit m tats de la nature, c'est--dire des ventualits, concernant son groupe
dappartenance. Ces tats de la nature sont nots : k : lindividu e Ek et on
dsigne par ={1,2,k,,m} lensemble des tats de la nature. Soit T une
application de E dans associant chaque individu son tat de la nature.
On peut considrer T comme une variable qualitative prenant les modalits 1
,2,k,,m et les probabilits priori dappartenance au groupe k : pk =
P(T= k) comme sa loi de probabilit.
NB : T est non observable.
Cours de mthodes de scoring- Hassen MATHLOUTHI
Page 19
Page 20
1.6 Illustration :
E est lensemble des champignons pouvant tre rcolts dans un foret. On
suppose que ces champignons appartiennent deux groupes. E1 : les
champignons combustibles et E2 : les champignons vnneux. On observe sur
les champignons une seule variable alatoire X, prenant les valeurs 3, 5 et 8 (par
exemple leur diamtre exprim en cm). On suppose disposer des lois
conditionnelles de X sachant T= et de la loi marginale de X :
X / T= 1
9/10
1/10
0
3
5
8
X / T=2
0
1/4
3/4
X
3/4
1/8
1/8
a1
3/4
a2
1/4
Loi de (T,Y)
1
2
Y
a1
3/4
0
3/4
a2
1/12
1/6
1/4
T
5/6
1/6
1
Page 21
2 CLASSIFIEUR DE BAYES
2.1 Dfinition :
Etant donn un espace dtats de la nature , un espace dobservations ,
un espace de dcision A et une fonction de perte L, le classifieur de Bayes est la
rgle de dcision minimisant la perte moyenne parmi toutes les rgles de
dcision possibles.
Soit lensemble de toutes les rgles de dcisions possibles de dans A.
Le classifieur de Bayes * est donc tel que :
E(L(*(X),T)) E(L( (X),T))
2.2 Caractrisation :
Proposition
Soit 0 minimisant E(L( (X),T)/X=x) x alors 0 minimise E(L(
(X),T)).
Preuve :
?
O'R '( , N (P'T V /X x( Z O'R'( , N (P'T V /X x(
x et
Do en remplaant,
Page 22
?
O'R '( , N ( _ '( Z O'R'( , N ( _ '( x et
a`
O'*` , N ( _ '( pour chaque groupe l = 1 m.
a`
Le groupe retenir pour laffectation de lindividu e est celui pour le quel cette
quantit est la plus faible.
2.3 Cas particulier important
Les cots varient dune application une autre. Si lon suppose que les
cots sont gaux, la rgle de Bayes prend une formulation assez simple. En
effet, en dveloppant la formule prcdente on trouve:
a`
a`?
Soit aprs division des deux membres par
_ '(,
P'T d /X x( P'T d ? /X x(
Page 23
Bien que lhypothse dgalit des cots ne soit pas plausible, cest cette
rgle qui est la plus retenue en pratique. Ainsi, tant donn un individu e et x ses
caractristiques,
On commence par calculer la quantit
Ck(x) = pkfk(x) pour k =1 l.
Le groupe daffectation de e est celui pour le quel la quantit Ck(x) est la
plus leve.
Remarques :
Toute transformation monotone de Ck(x) peut tre considre comme une
fonction donnant le score de e dans Ek. En particulier, la transformation
Logarithme est souvent utilise pour les facilits de calcul quelle permet.
Dans le cas de deux groupes (k=1,2), la rgle daffectation prcdente est
quivalente la suivante : On affecte lindividu e au groupe 1 si :
R(x)= [p1.f1(x)/ p2.f2(x)] > 1
Ou ce qui est quivalent en passant aux logarithmes, si
r(x)=Ln(p1/p2) +L n(f1(x)/f2(x)) > 0
3. MISE EN APPLICATION
Pour la mise en application du classifieur de Bayes, il faut disposer des
probabilits priori pk et des probabilits conditionnelles fk. En pratique, ces
grandeurs sont en gnral inconnues. Il convient en consquence de les estimer
partir de donnes issues dun chantillon.
On peut procder une estimation directe de ces probabilits dans le cas
o X= ( X1, X2,, Xj ,,Xp) est discret et p petit (estimation non
paramtrique)
Rappelons que lon a estimer :
pk = P(e Ek) k = 1 m
fk(x) = P( X=x/ Ek) k = 1 m et x
NB : lensemble est fini .Il est dfini par le produit cartsien
= 1 2 j p
ou j est lespace des observations relatives la variable Xj. Cest un ensemble
fini contenant les modalits de cette variable puisque celle-ci est discrte.
Page 24
&
Remarques importantes :
En pratique, cette mthode nest possible quavec un nombre trs limit de
groupes et de variables. En outre, ces variables doivent prsenter galement un
petit nombre de modalits. Pour fixer les ides, supposons quon est en prsence
de 5 variables prsentant chacune 8 modalits et que le nombre de groupes est 3.
Le cardinal de est alors de 85. Le nombre de quantits _f '( calculer slve
alors 3.85 ce qui est impossible raliser mme avec un ordinateur.
On peut considrer des variables continues condition de les discrtiser en
dfinissant des classes de variation. Mais, se pose alors le problme de
dfinition de ces classes.
Une hypothse a t propose pour rduire le nombre de paramtres estimer.
Elle consiste supposer lindpendance des variables prises en considration.
Sous cette hypothse, on a en effet seulement les probabilits marginales
estimer. La mthode daffectation qui en rsulte porte le nom de classifieur
Bayesien naf.
Annexe : Formule de Bayes
Dsignons par :
pk : Probabilit dappartenance au groupe k . pk = P( e Ek)
Cette probabilit est appele probabilit priori .
fk(x): la densit de probabilit du vecteur X dans le groupe k (Il sagit
dune densit conditionnelle) lorsque X est absolument continue ou la
probabilit de lvnement X=x dans le groupe k lorsque X est discret
(fk(x) = P(X=x/ e Ek).
La formule de Bayes permet dexprimer la probabilit posteriori dappartenir
au groupe k sachant que la variable prend la valeur x :
[ '.(
P(e Ek / X(e) = x) = \ & &
&]^ & [& '.(
Page 25
Chapitre 4
ANALYSE DISCRIMINANTE
DE FISHER
Cette mthode est la plus ancienne des mthodes statistiques de classement.
Remontant aux travaux de Fisher en 1936, elle permet de classer les individus
dune population entre diffrents groupes dfinis priori au vu de donnes
relatives des variables quantitatives.
1. PRESENTATION
Cette mthode se prsente comme une application du classifieur de Bayes
dans le cas o les descripteurs X sont des variables alatoires continues et sont
supposes suivre, conditionnellement chaque groupe Ek , une loi normale de
moyenne k et une matrice de variances et covariances k.
Cest donc une mthode o les probabilits conditionnelles estimer sont
supposes relever de lois de probabilits donnes mais dpendant nanmoins de
paramtres inconnus estimer partir des donnes mises disposition
(estimation paramtrique).
2. MODELISATION
Dans les applications, on distingue en fait entre deux modles danalyse
discriminante selon que lon suppose que les k sont diffrentes dun groupe
un autre (modle htroscdastique) ou que ces matrices sont identiques (modle
homoscdastique).
2.1 Modle htroscdastique
Avec un modle htroscdastique, les densits conditionnelles scrivent,
tant donn x Rp :
fk(x) =(2)(-p/2) (detk)(-1/2) exp(-1/2)(x-k) k-1(x-k)
On en dduit directement les fonctions Ck(x) :
Ck(x) =pk(2)(-p/2) (detk)(-1/2) exp(-1/2)(x-k) k-1(x-k) .
Page 26
Soit, aprs passage aux logarithmes (ce qui ne change pas la rgle
daffectation) :
Sk(x)= Ln(pk ) (1/2)Ln(detk)-(1/2)(x-k) k-1(x-k)
Cette quantit est calculer pour chaque groupe k =1 m. Le groupe
daffectation est alors celui pour le quel cette quantit est la plus leve.
Remarques : La fonction Sk(x) est bien une fonction de x. On lappelle la
fonction de classement ou la fonction discriminante ou encore la fonction de
score. On note quelle est de type quadratique.
2.2 Modle Homoscdastique
Lhomoscdasticit du modle signifie que les k sont supposes identiques
(k = , k = 1 m). En pratique, il convient au pralable de tester cette
hypothse.
La fonction de score se simplifie. En effet, lon a :
Sk(x)= Ln(pk ) (1/2)Ln(det)-(1/2)(x-k) -1(x-k)
soit en dveloppant,
Sk(x)= Ln(pk ) (1/2)Ln(det)-(1/2)[ x -x1-x -1k -k -1x+k -1k]
Les termes ne dpendant pas de k peuvent tre omis car ils ne changent pas
le classement. On peut alors dfinir la fonction de score ainsi :
Sk(x)= Ln pk +k -1x (1/2)(k -1k).
On note que dans ce cas, la fonction de score est linaire ce qui constitue
un avantage pratique important.
Remarques importantes :
Lorsquon suppose en plus que les probabilits priori sont gales, on peut
liminer les termes correspondants dans la fonction de score. On retrouve alors
la rgle gomtrique de Fisher Mahalanobis.
Dans le cas de deux groupes, la rgle prcdente est quivalente la
suivante : On affecte lindividu e au groupe 1 si
r(x)=Ln(p1/p2) +Ln(f1(x)/f2(x)) > 0
Cours de mthodes de scoring- Hassen MATHLOUTHI
Page 27
.
la matrice de variances et covariances.
=
8, 8, . 4 8,
.
8, 8, . 8, 4
Page 28
Chapitre 5.
ANALYSE DISCRIMINANTE
LOGISTIQUE
Lanalyse discriminante logistique est une autre mthode de
classement aussi connue que la mthode danalyse discriminante de
Fisher. Tout en reposant sur le principe bayesien de classement, elle se
distingue toutefois de cette dernire en procdant plutt modliser
les probabilits posteriori et non les probabilits conditionnelles.
1. PRESENTATION
1.1 Hypothse de base
Il a t dmontr que dans le cas de deux groupes, la rgle de dcision de
Bayes est telle quon affecte un individu x au groupe 1 si :
O
_ '(
p q 'rst!*! (
_ '(
Page 29
#. '1 + # (.
O .
p r 'rst!*! (
# '1 + # (.
ce qui donne :
wO
#
1 + #
1 + #
+ O
pr
x E O
#
1 + #
1 + #
_ '(
yv
_ '(
Elle est ainsi plus gnrale que lanalyse discriminante baysienne avec
normalit et homoscdasticit des descripteurs.
1.2 Expression de la probabilit postriori
Lorsque le score est linaire, les probabilits postriori prennent une
forme particulire qui est celle de la loi logistique. En effet, notons p(x)
(respectivement q(x)) la probabilit postriori dappartenance au groupe E1
(respectivement E2) :
_ '(
'( J' 0 \7 (
_ '( E _ '(
Soit, en divisant numrateur et dnominateur par f2(x)p2 et compte tenu de
lhypothse de linarit de logarithme du rapport de vraisemblance :
avec 0 = ln (p1/p2)
'(
. {|}|~
1E
. { |}|~
1E
. { |}|~
Page 30
Page 31
4'L, , v( J'K
L
, 7
(
Ou encore,
p(xi)) :
.- { |}|~
( E " O J' 7
(
y x,
x, .
{
} - ~
=0
Page 32
Chapitre 6
VALIDATION
DUNE METHODE DE SCORING
Une fois un modle ou plusieurs modles de scoring sont estims, il
convient danalyser leurs performances avant de les valider pour tre utiliss
comme outil daide la dcision.
Lanalyse de performances, lissue de la quelle une mthode de scoring
est valide, permet notamment
Damliorer un modle en comparant plusieurs de ses variantes (ajout ou
retrait de variables explicatives, etc.)
De choisir entre plusieurs types de modles candidats
Lanalyse des performances dun modle gagnerait tre conduite sur un
jeu de donnes diffrent de celui qui a t utilis pour lestimation. On doit en
effet, lorsque cela est possible, distinguer entre lchantillon dapprentissage et
lchantillon de test ou de validation. Ce dernier doit ncessairement contenir les
valeurs relles de la variable cible (appartenance aux groupes). Dune manire
gnrale, il sagit de comparer entre les valeurs relles de la variable cible avec
celles prdites par le modle.
1. CONCEPTS DE BASE
1.1 Positifs et ngatifs
Soit une population partitionne en deux sous groupes G1 et G2. On appelle
(par convention) les positifs les individus de G1 et les ngatifs les individus de
G2.
On dispose par ailleurs dune fonction de score (issue dun modle) note S
et dun seuil s dfinies tels que :
On affecte lindividu prsentant lobservation x au groupe G1 si S(x) > s .
Autrement dit, on considre cet individu comme positif.
Sinon, on laffecte au groupe G2 , on le considre donc comme ngatif
On appelle :
Faux positif, un individu ngatif considr par la mthode de score
comme positif
Faux ngatif, un individu positif considr par la mthode de score
comme ngatif
Page 33
1.2 Spcificit
On appelle coefficient de spcificit et on note 1- la probabilit suivante :
1- = Pr (S(x) < s / x G2)
Cest donc la probabilit de bien dtecter un ngatif ou encore cest la
proportion des ngatifs dans la population pouvant tre dtect par la mthode.
La quantit = Pr (S(x) s / x G2) dsigne donc la probabilit de
considrer un individu comme positif alors quil est ngatif (faux positif). Pour
une mthode de score, cest un premier type de risque derreur daffectation.
1.3 Sensibilit
On appelle coefficient de sensibilit et on note 1- la probabilit suivante :
1- = Pr (S(x) > s / x G1)
Cest donc la probabilit de bien dtecter un positif ou encore cest la
proportion des positifs dans la population pouvant tre dtect par la mthode.
La quantit = Pr (S(x) s / x G1) dsigne par consquent la
probabilit de considrer un individu comme ngatif alors quil est positif (faux
ngatif). Il sagit pour une mthode de score dun deuxime type de risque
derreur daffectation
Remarques
On peut aussi considrer la quantit = Pr (S(x) > s ) qui est la probabilit de
considrer un individu comme positif. Cest la proportion dindividus supposs
tre intresss par un nouveau produit dans une compagne marketing par
exemple.
Le meilleur modle (et donc la meilleure fonction de score) est celui
qui minimise les deux types de risque daffectation (les quantits et ) .
Les coefficients et changent lorsque le seuil s change. On les exprime
comme des fonctions de s : (s) et (s). Le seuil s est dtermin lextrieur du
modle notamment par des considrations dordre conomique.
Page 34
G2
G1
1-
1-
S(x)
Considrs positifs
Considrs ngatifs
Total
Positifs
n11
n21
n.1
Ngatifs
n12
n22
n.2
Total
n1.
n2..
n
Page 35
(s)
1
Page 36
Page 37
choix alatoire. Cette situation est reprsente par un LIFT concidant avec la
premire bissectrice (LIFT alatoire)
Dune manire gnrale, la courbe LIFT a lallure suivante :
1
1-(s)
LIFT estim
Lift idal
LIFT alatoire
(s)
1
2.3.2 Utilisation
Notons p1 la proportion des positifs et donc (1-p1) la proportion des
ngatifs. La probabilit scrit alors :
(s) = (1-) p1+ (1-p1)
On peut dmontrer que la surface sous la courbe LIFT note AUL est
donne par :
AUL = p1/2 + (1-p1) AUC
Cette surface peut tre utilise comme une mesure de la performance dun
modle. On lui prfre la quantit Ki donne par :
Ki =
En remplaant on trouve :
Ki = 2 AUC -1
Page 38
3. ILLUSTRATION
Les donnes de lchantillon de validation, une fois quon a calcul le score
pour chaque individu, se prsentent ainsi par ordre dcroissant du score :
identifiant Groupe
positif
positif
positif
ngatif
positif
ngatif
positif
ngatif
ngatif
ngatif
1
2
3
4
5
6
7
8
9
10
Score
1
0.9
0.85
0.7
0.6
0.55
0.45
0.3
0.2
0.1
(s)
(s)
0
0
0
0.2
0.2
0.4
0.4
0.6
0.8
1
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1-
(s)
0.2
0.4
0.6
0.6
0.8
0.8
1
1
1
1
5
2
7
0
3
3
Total
5
5
10
On en dduit :
Page 39
0,5
1,5
On en dduit directement,
AUC = 0.88
3.3 La courbe LIFT
En portant les points, on obtient :
1,2
1
0,8
0,6
0,4
0,2
0
0
0,2
0,4
0,6
0,8
1,2
On en dduit :
Ki = 0.76
Page 40
Bibliographie
Analyse discriminante : application au risque et scoring financier. Mireille
Bardos
Probabilits, analyse de donnes et Statistiques. Gilbert Saporta
Data mining et Scorig. Stphane Tuffery
Page 41