Académique Documents
Professionnel Documents
Culture Documents
Lauteur
Dsignation Page
Avant propos 2
Chapitre1 : Introduction gnrale 4
1. Prsentation des mthodes de scoring 4
2. Dmarche pratique 6
3. Porte et limites 7
INTRODUCTION GENERALE
1. PRESENTATION
1.1 Objet
La notion de classement mrite son tour dtre lucide compte tenu des
confusions souvent constates avec le terme classification . Ce dernier terme
signifie en effet la mise en vidence de groupements inconnus dans une
population. En revanche, un classement dsigne toute mthode daffectation des
individus dune population dans des groupes dfinis priori.
Lexemple typique est le crdit scoring utilis par les banques pour
apprcier les risques de non remboursement des crdits accords leurs clients.
Dans ce contexte, les groupes en prsence sont le groupe des bons clients et
celui des mauvais clients . Une mthode de scoring se prsente alors comme
un prcieux outil daide la dcision la disposition des banquiers leur
permettant lors de demandes de crdit par leur clients de dtecter si ces derniers
prsentent ou non un grand risque de non remboursement.
Ce type de score peut tre aussi utilis par les compagnies dassurance pour
apprcier le niveau de sinistralit dun nouveau client.
Lutilisation dun score de risque permet ainsi de rduire les impays. Elle
permet galement de fournir les bases dune tarification du risque.
2. DEMARCHE PRATIQUE
Pour fixer les ides considrons le cas dune entreprise de tlphonie qui
projette de lancer un nouveau service (par exemple tlphoner moiti prix
entre 22 heures et six heures du matin moyennant une cotisation mensuelle de 5
dinars).
La mise en place dun systme de crdit scoring dans une banque passe
priori par les tapes suivantes :
3. PORTEE ET LIMITES
Remarque : dans tous les cas, il convient de se rappeler que la statistique est
juste un outil daide la prise de dcision et ne permet en aucun cas darrter
cette dcision.
APPROCHE GEOMETRIQUE
1.1 Notations
Lensemble des donnes collectes peut alors tre reprsent par un tableau
ayant la forme suivante :
x1,1 x1,2 x1,j x1,p
x2,1 x2,2 x2,j x2,p
xi,1 xi,2 xi,j xi,p
xn,1 xn,2 xn,j xn,p
6
4
2
0
-4 -2 -2 0 2 4 6
-4
-6
n1, n2,,nk, ,nm les effectifs respectifs des m groupes considrs, on a ainsi :
0 1 ! "
1
1
1
# $%& .
Dans le cas uniforme # & Les poids associs aux groupes ne sont
pas uniformes car les effectifs des groupes ne sont pas en gnral gaux.
2 CONCEPTS DE BASE
Utilisant le systme de notation sus prsent nous donnons dans ce qui suit
les concepts statistiques et gomtriques ncessaires pour dfinir la mthode de
classement considre.
) "
,
,
)
, * , + *,
-01 - . -,/
)
dans chaque groupe k
&
2&
:
gk = ') , ) , , ) , , ) (
groupe, soit
0%&
,
)
) " # )
Il sensuit que :
3
# 3 (= 0 si le nuage est centr)
4 '
,
( + 65
4
,
.
,
1
davantage :
4 7 7
La covariance des variables j et h est donne par :
,
,9
8,9 + ) )9
,
,9 1
8,9 7 79
1
uniformes, on a :
4 77
On sait que cest une matrice symtrique dfinie positive, inversible sauf
sil existe une relation linaire entre les variables. De mme on dfinit pour
chaque groupe k une matrice de variances et covariance spcifique, soit
4 8,
. 8,
8,
8,
4 . 8,
8,
Vk= . .
8 8 . 4 8
, , ,
.
8, 8, . 8, 4
-01 - .-,/
<
4 + :) ;
&
2&
-01 .-,/
<
(4 + :) ; si les poids sont uniformes)
&
&
0%&
,
,9
et
8,9
+ ) )9
#
Remarque: les moyennes ne sont pas nulles car les sous nuages ne sont pas
centrs.
> " # 4
) ) . ) )
) ) . ) )
G= .
) ) . ) )
.
) ) . ) )
4? 8,
?
. 8,
?
8,
?
..
B=
8? 8? . 4? 8?
, , ,
.
8, 8, . 8, 4
? ? ? ?
4?
65 (
# ') + # ') (
et
8,9
?
# :) +
65 ;' )9 + 9 # ) )9
,,,(
@
# 3 3 .
V= W + B.
Cette proprit snonce ainsi : les variances (et covariances) totales (au
niveau de la population) telles que prsents par la matrice V concident avec
la somme des variances (et covariances) intragroupes (au sein des groupes)
donnes par la matrice W et des variances (et covariances) intergroupes (entre
les groupes) fournies par la matrice B.
2.3 Mtrique
d(e,f) = (e-f)M(e-f).
|| e || = d(o,e) = eMe
3. PRINCIPE DE CLASSEMENT
Soit x = (x1, x2,.., xj,, xp) les coordonnes du nouvel individu. Dsignons
par d(x,gk) le carr de la distance entre x (le nouvel individu) et gk (le centre de
gravit du groupe k). Par dfinition, lon a :
d(x,gk)= (x-gk)W-1(x-gk)
do en dveloppant :
On peut noter que lexpression prcdente est une fonction linaire des
coordonnes du nouvel individu :
H
AB 'C( DB E " FBG CG
GI
ce qui constitue un avantage pratique important du fait de la simplicit des
calculs effectuer.
Soit x = (x1, x2,.., xj,, xp) les coordonnes du nouvel individu. Cet
individu est ainsi affecter au groupe 1 lorsque
soit en remplaant,
On remarque que le premier membre de cette ingalit est une fonction linaire
de x. En notant cette fonction S, lindividu dont les coordonnes sont donnes
par x est ainsi affecter dans le groupe 1 lorsque :
CLASSIFIEUR BAYESIEN
Le problme de classement dun individu sur la base de ses caractristiques
dans lun de quelques groupes dfinis priori peut tre plac dans un cadre
probabiliste. Il sera ainsi possible dutiliser tous les outils de la thorie de
probabilit dont en particulier les mthodes de choix dans lincertain.
n1, n2,,nk, ,nm les effectifs respectifs des m groupes considrs, on a ainsi :
A chaque rgle de dcision on associe une fonction de perte dfinie par une
application L de (A, ) dans R+ : L(ak, l) 0. On linterprte comme la perte
(ou le cot) supporte en affectant e au groupe k alors quen ralit il appartient
au groupe l. On note que L(ak, k) = 0 pour tout k = 1 m. Dautre part, comme
ak et l rsulte du hasard, la perte encourue z = L(ak, l) rsulte aussi du hasard.
Cest une ralisation dune variable alatoire Z = L(Y,T). Dans la suite, on est
amen calculer la perte moyenne dune rgle de dcision :
X / T= 1 X / T=2 X
3 9/10 0 3/4
5 1/10 1/4 1/8
8 0 3/4 1/8
Loi de Y
Y a1 a2
P(Y=ai) 3/4 1/4
Loi de (T,Y)
a1 a2 T
1 3/4 1/12 5/6
2 0 1/6 1/6
Y 3/4 1/4 1
2.1 Dfinition :
2.2 Caractrisation :
Proposition
Soit 0 minimisant E(L( (X),T)/X=x) x alors 0 minimise E(L(
(X),T)).
Preuve :
E(L(0 (X),T)/X=x) E(L((X),T)/X=x) x et
Ex(E(L(0 (X),T)/X=x)) Ex(L((X),T)/X=x)
E(L(0 (X),T)) E(L( (X),T))
E(L(*(X),T)/X=x) E(L((X),T)/X=x) x et
Soit donc,
O'R '( , N (P'T V /X x( Z O'R'( , N (P'T V /X x(
?
x et
[& '.(
P(T=k /X=x) = \ &
&]^ & [& '.(
Do en remplaant,
O'*` , N ( _ '( pour chaque groupe l = 1 m.
a`
Le groupe retenir pour laffectation de lindividu e est celui pour le quel cette
quantit est la plus faible.
2.3 Cas particulier important
Les cots varient dune application une autre. Si lon suppose que les
cots sont gaux, la rgle de Bayes prend une formulation assez simple. En
effet, en dveloppant la formule prcdente on trouve:
O'*`? , N` (` _` '( E " O'*`? , N ( _ '(
a`?
a`
Z O'*`? , N`? (`? _`? '( E " O'*` , N ( _ '( b c b ?
a`
a`?
Aprs simplification, on obtient:
P'T d /X x( P'T d ? /X x(
3. MISE EN APPLICATION
e & o nk est leffectif du groupe Ek et n est leffectif total dans
Remarques importantes :
En pratique, cette mthode nest possible quavec un nombre trs limit de
groupes et de variables. En outre, ces variables doivent prsenter galement un
petit nombre de modalits. Pour fixer les ides, supposons quon est en prsence
Le cardinal de est alors de 85. Le nombre de quantits _f '( calculer slve
de 5 variables prsentant chacune 8 modalits et que le nombre de groupes est 3.
[ '.(
au groupe k sachant que la variable prend la valeur x :
P(e Ek / X(e) = x) = \ & &
&]^ & [& '.(
ANALYSE DISCRIMINANTE
DE FISHER
1. PRESENTATION
2. MODELISATION
soit en dveloppant,
Les termes ne dpendant pas de k peuvent tre omis car ils ne changent pas
le classement. On peut alors dfinir la fonction de score ainsi :
On note que dans ce cas, la fonction de score est linaire ce qui constitue
un avantage pratique important.
Remarques importantes :
Lorsquon suppose en plus que les probabilits priori sont gales, on peut
liminer les termes correspondants dans la fonction de score. On retrouve alors
la rgle gomtrique de Fisher Mahalanobis.
Dans le cas de deux groupes, la rgle prcdente est quivalente la
suivante : On affecte lindividu e au groupe 1 si
1- 2)
r(x)=Ln (p1/p2) +( -1x - (
1- 2)
-1 (
1+ 2) > 0
3. ESTIMATION
jB jB j
h B iB , H
g fB
h B , k f
lB , k m
vraisemblance) donne :
j jB + I j +B
NB : lorsque les effectifs nk sont levs, on peut ne pas tenir compte des facteurs
o 4 , o >
correctifs dans lestimateur de la variance en posant :
ANALYSE DISCRIMINANTE
LOGISTIQUE
1. PRESENTATION
_ '(
O p q 'rst!*! (
_ '(
uv p r
(c tant une constante)
Cependant, tout en restant dans le cadre Baysien, il peut tre not que la
linarit du score peut tre obtenue sous dautres hypothses concernant les lois
conditionnelles. Ainsi par exemple si on a une seule variable X de type discret
suivant une loi de Bernoulli de paramtres 1 dans le groupe E1 et 2 dans le
groupe E2, la rgle de Bayes scrit :
# 1 + # 1 + #
ce qui donne :
wO + O x E O pr
# 1 + # 1 + #
_ '(
O yv
_ '(
Elle est ainsi plus gnrale que lanalyse discriminante baysienne avec
normalit et homoscdasticit des descripteurs.
_ '(
(respectivement E2) :
'( J' 0 \7 (
_ '( E _ '(
. {|}|~
'(
1E . { |}|~
avec 0 = ln (p1/p2)
1
'(
1E . { |}|~
Remarques
Poser que la score est linaire quivaut donc supposer que les
probabilits postriori sont logistiques
Lanalyse discriminante logistique consiste estimer ces probabilits
partir des donnes. Elle se distingue ainsi de lanalyse prcdente dont
lobjet est lestimation des lois conditionnelles
On se base toujours sur le principe bayesien : lindividu est affecter au
groupe pour le quel la probabilit postriori dy appartenir est la plus
leve. Cela suppose au pralable que lon dispose dune estimation des j
j=0 p
2. MODELISATION
'(
Le modle postule que :
O u v E v
1 + '(
3. ESTIMATION
4'L, , v( J'K
L
, 7
(
Ou encore,
Do en remplaant,
y x, + x, .
'',,(( ~
{
} - ~
=0
VALIDATION
DUNE METHODE DE SCORING
1. CONCEPTS DE BASE
1.3 Sensibilit
Remarques
1-
1-
s S(x)
Remarques :
Ces taux doivent tre interprts en tenant compte des fluctuations
dchantillonnage
Il nya pas de rfrence servant de base pour la comparaison.
2.2.1 Dfinition
(s)
1
2.2.2 Utilisation
Lorsque les deux distributions de S(X) (dans les deux groupes) sont bien
distinctes, la courbe ROC est horizontale. En effet, lorsque (s) passe de 0 1
1-(s) prend toujours la valeur 1. (Modle le plus performant)
Lorsque les deux distributions de S(x) sont confondues, la courbe ROC
concide avec la premire bissectrice. (Modle le moins performant) . Ces
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 36
remarques conduisent considrer la surface sous la courbe ROC (AUC)
comme indicateur synthtique de la performance dun modle :
AUC 1 modle trs performant
AUC 1/2 modle non performant
Dans les applications, cette probabilit est estime par la proportion des
paires concordantes. Si on note n1 et n2 le nombre dindividus dans le groupe
des positifs et dans le groupe des ngatifs. Le nombre de paires slve n1n2.
Parmi ces paires, celles o le score du positif dpasse celle du ngatif sont
appeles paires concordantes.
Cette courbe est trs utilise en marketing. Elle peut servir aussi mesurer
la performance dune compagne de promotion dun nouveau produit. Elle est
alors dtermine partir des donnes de la population.
2.3.1 Dfinition
1
1-(s)
LIFT estim
Lift idal LIFT alatoire
(s)
2.3.2 Utilisation
On peut dmontrer que la surface sous la courbe LIFT note AUL est
donne par :
Cette surface peut tre utilise comme une mesure de la performance dun
modle. On lui prfre la quantit Ki donne par :
En remplaant on trouve :
Ki = 2 AUC -1
On en dduit :
1,2
1
0,8
0,6
0,4
0,2
0
0 0,5 1 1,5
On en dduit directement,
AUC = 0.88
1,2
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1 1,2
On en dduit :
Ki = 0.76