Académique Documents
Professionnel Documents
Culture Documents
Cours Scoring
Cours Scoring
L’auteur
Désignation Page
Avant propos 2
Chapitre1 : Introduction générale 4
• 1. Présentation des méthodes de scoring 4
• 2. Démarche pratique 6
• 3. Portée et limites 7
INTRODUCTION GENERALE
1. PRESENTATION
1.1 Objet
La notion de classement mérite à son tour d’être élucidée compte tenu des
confusions souvent constatées avec le terme « classification ». Ce dernier terme
signifie en effet la mise en évidence de groupements inconnus dans une
population. En revanche, un classement désigne toute méthode d’affectation des
individus d’une population dans des groupes définis à priori.
L’exemple typique est le crédit scoring utilisé par les banques pour
apprécier les risques de non remboursement des crédits accordés à leurs clients.
Dans ce contexte, les groupes en présence sont le groupe des « bons clients » et
celui des « mauvais clients ». Une méthode de scoring se présente alors comme
un précieux outil d’aide à la décision à la disposition des banquiers leur
permettant lors de demandes de crédit par leur clients de détecter si ces derniers
présentent ou non un grand risque de non remboursement.
Ce type de score peut être aussi utilisé par les compagnies d’assurance pour
apprécier le niveau de sinistralité d’un nouveau client.
L’utilisation d’un score de risque permet ainsi de réduire les impayés. Elle
permet également de fournir les bases d’une tarification du risque.
2. DEMARCHE PRATIQUE
Pour fixer les idées considérons le cas d’une entreprise de téléphonie qui
projette de lancer un nouveau service (par exemple téléphoner à moitié prix
entre 22 heures et six heures du matin moyennant une cotisation mensuelle de 5
dinars).
La mise en place d’un système de crédit scoring dans une banque passe à
priori par les étapes suivantes :
3. PORTEE ET LIMITES
Remarque : dans tous les cas, il convient de se rappeler que la statistique est
juste un outil d’aide à la prise de décision et ne permet en aucun cas d’arrêter
cette décision.
APPROCHE GEOMETRIQUE
1.1 Notations
L’ensemble des données collectées peut alors être représenté par un tableau
ayant la forme suivante :
x1,1 x1,2 … x1,j … x1,p
x2,1 x2,2 … x2,j … x2,p
… … … … … …
xi,1 xi,2 … xi,j … xi,p
…
xn,1 xn,2 … xn,j … xn,p
6
4
2
0
-4 -2 -2 0 2 4 6
-4
-6
∑
n1, n2,…,nk, …,nm les effectifs respectifs des m groupes considérés, on a ainsi :
0 1 à ! "
1
1
1à
# ∑ $%& .
• Dans le cas uniforme # & Les poids associés aux groupes ne sont
pas uniformes car les effectifs des groupes ne sont pas en général égaux.
2 CONCEPTS DE BASE
Utilisant le système de notation sus présenté nous donnons dans ce qui suit
les concepts statistiques et géométriques nécessaires pour définir la méthode de
classement considérée.
) "
,
∑
,
)
, * , + *,
∑-01 - . -,/
)
dans chaque groupe k
&
2&
:
gk = ') , ) , … , ) , … , ) (′
groupe, soit
∑
0%&
,
)
) " # )
Il s’ensuit que :
3 ∑
# 3 (= 0 si le nuage est centré)
4 '∑
,
( + 65 ²
4 ∑
,
.
∑
,
1
davantage :
4 7 ′7
La covariance des variables j et h est donnée par :
∑
,
,9
8,9 + ) )9
∑
,
,9 1
8,9 7′ 79
1
uniformes, on a :
4 7′7
On sait que c’est une matrice symétrique définie positive, inversible sauf
s’il existe une relation linéaire entre les variables. De même on définit pour
chaque groupe k une matrice de variances et covariance spécifique, soit
4 8,
… . 8,
… 8,
8,
4 … . 8,
… 8,
Vk= … . … … … … … … … … .
8 8 … . 4 … 8
, , ,
………………………….
8, 8, … . 8, … 4
∑-01 - .-,/
<
4 + :) ;
&
2&
∑-01 .-,/
<
(4 + :) ; si les poids sont uniformes)
&
&
∑
0%&
,
,9
et
8,9
+ ) )9
#
Remarque: les moyennes ne sont pas nulles car les sous nuages ne sont pas
centrés.
> " # 4
) ) … . ) … )
) ) … . ) … )
G= … … … … … … … … .
) ) … . ) … )
…………………….
) ) … . ) … )
4? 8,
?
… . 8,
?
… 8,
?
….…………………….
B=
8? 8? … . 4? … 8?
, , ,
………………………….
8, 8, … . 8, … 4
? ? ? ?
4? ∑
65 (² ∑
# ') + # ') (²
et
8,9
?
∑
# :) +
65 ;' )9 + 9 ∑ # ) )9
,,,(
@ ∑
# 3 3′ .
V= W + B.
Cette propriété s’énonce ainsi : les variances (et covariances) totales (au
niveau de la population) telles que présentés par la matrice V coïncident avec
la somme des variances (et covariances) intragroupes (au sein des groupes)
données par la matrice W et des variances (et covariances) intergroupes (entre
les groupes) fournies par la matrice B.
2.3 Métrique
d²(e,f) = (e-f)’M(e-f).
3. PRINCIPE DE CLASSEMENT
Soit x = (x1, x2,.., xj,…, xp) les coordonnées du nouvel individu. Désignons
par d²(x,gk) le carré de la distance entre x (le nouvel individu) et gk (le centre de
gravité du groupe k). Par définition, l’on a :
d²(x,gk)= (x-gk)’W-1(x-gk)
d’où en développant :
On peut noter que l’expression précédente est une fonction linéaire des
coordonnées du nouvel individu :
H
AB 'C( DB E " FBG CG
GI
ce qui constitue un avantage pratique important du fait de la simplicité des
calculs à effectuer.
Soit x = (x1, x2,.., xj,…, xp) les coordonnées du nouvel individu. Cet
individu est ainsi à affecter au groupe 1 lorsque
soit en remplaçant,
On remarque que le premier membre de cette inégalité est une fonction linéaire
de x. En notant cette fonction S, l’individu dont les coordonnées sont données
par x est ainsi à affecter dans le groupe 1 lorsque :
CLASSIFIEUR BAYESIEN
Le problème de classement d’un individu sur la base de ses caractéristiques
dans l’un de quelques groupes définis à priori peut être placé dans un cadre
probabiliste. Il sera ainsi possible d’utiliser tous les outils de la théorie de
probabilité dont en particulier les méthodes de choix dans l’incertain.
∑
n1, n2,…,nk, …,nm les effectifs respectifs des m groupes considérés, on a ainsi :
A chaque règle de décision on associe une fonction de perte définie par une
application L de (A, Θ) dans R+ : L(ak, θl) ≥ 0. On l’interprète comme la perte
(ou le coût) supportée en affectant e au groupe k alors qu’en réalité il appartient
au groupe l. On note que L(ak, θk) = 0 pour tout k = 1 à m. D’autre part, comme
ak et θl résulte du hasard, la perte encourue z = L(ak, θl) résulte aussi du hasard.
C’est une réalisation d’une variable aléatoire Z = L(Y,T). Dans la suite, on est
amené à calculer la perte moyenne d’une règle de décision :
X / T= θ1 X / T=θ2 X
3 9/10 0 3/4
5 1/10 1/4 1/8
8 0 3/4 1/8
Loi de Y
Y a1 a2
P(Y=ai) 3/4 1/4
Loi de (T,Y)
a1 a2 T
θ1 3/4 1/12 5/6
θ2 0 1/6 1/6
Y 3/4 1/4 1
2.1 Définition :
2.2 Caractérisation :
Proposition
Soit δ0 ∈ ∆ minimisant E(L(δ (X),T)/X=x) ∀ x ∈ χ alors δ0 minimise E(L(δ
(X),T)).
Preuve :
E(L(δ0 (X),T)/X=x) ≤ E(L(δ(X),T)/X=x) ∀ x ∈ χ et ∀ δ ∈ ∆
Ex(E(L(δ0 (X),T)/X=x)) ≤ Ex(L(δ(X),T)/X=x) ∀ δ ∈ ∆
E(L(δ0 (X),T)) ≤ E(L(δ (X),T)) ∀ δ ∈ ∆
E(L(δ*(X),T)/X=x) ≤ E(L(δ(X),T)/X=x) ∀ x ∈ χ et ∀ δ ∈ ∆
Soit donc,
∑
O'R '( , N (P'T θV /X x( Z ∑ O'R'( , N (P'T θV /X x(
?
∀ x ∈ χ et ∀ δ ∈ ∆
[& '.(
P(T=θk /X=x) = ∑\ &
&]^ & [& '.(
D’où en remplaçant,
∑
O'*` , N ( _ '( pour chaque groupe l = 1 à m.
a`
• Le groupe à retenir pour l’affectation de l’individu e est celui pour le quel cette
quantité est la plus faible.
2.3 Cas particulier important
Les coûts varient d’une application à une autre. Si l’on suppose que les
coûts sont égaux, la règle de Bayes prend une formulation assez simple. En
effet, en développant la formule précédente on trouve:
O'*`? , N` (` _` '( E " O'*`? , N ( _ '(
a`?
a`
Z O'*`? , N`? (`? _`? '( E " O'*` , N ( _ '( b c b ?
a`
a`?
Après simplification, on obtient:
P'T θd /X x( ≤ P'T θd ? /X x(
3. MISE EN APPLICATION
•
e & où nk est l’effectif du groupe Ek et n est l’effectif total dans
Remarques importantes :
• En pratique, cette méthode n’est possible qu’avec un nombre très limité de
groupes et de variables. En outre, ces variables doivent présenter également un
petit nombre de modalités. Pour fixer les idées, supposons qu’on est en présence
Le cardinal de χ est alors de 85. Le nombre de quantités _f '( à calculer s’élève
de 5 variables présentant chacune 8 modalités et que le nombre de groupes est 3.
[ '.(
au groupe k sachant que la variable prend la valeur x :
P(e ∈ Ek / X(e) = x) = ∑\ & &
&]^ & [& '.(
ANALYSE DISCRIMINANTE
DE FISHER
1. PRESENTATION
2. MODELISATION
soit en développant,
Les termes ne dépendant pas de k peuvent être omis car ils ne changent pas
le classement. On peut alors définir la fonction de score ainsi :
On note que dans ce cas, la fonction de score est linéaire ce qui constitue
un avantage pratique important.
Remarques importantes :
• Lorsqu’on suppose en plus que les probabilités à priori sont égales, on peut
éliminer les termes correspondants dans la fonction de score. On retrouve alors
la règle géométrique de Fisher Mahalanobis.
• Dans le cas de deux groupes, la règle précédente est équivalente à la
suivante : On affecte l’individu e au groupe 1 si
µ1- µ2)Σ
r(x)=Ln (p1/p2) +(µ Σ-1x - ½ (µ
µ1- µ2)’Σ
Σ-1 (µ
µ1+ µ2) > 0
3. ESTIMATION
En pratique, on ne connait pas les pk, ni les µk, ni les Σk. On cherche à les
estimer.
jB jB j
h B iB , H
g fB
h B , k f
lB , k m
vraisemblance) donne :
j jB + I j +B
NB : lorsque les effectifs nk sont élevés, on peut ne pas tenir compte des facteurs
Σo 4 , Σo >
correctifs dans l’estimateur de la variance en posant :
ANALYSE DISCRIMINANTE
LOGISTIQUE
1. PRESENTATION
_ '(
O p q 'rst!*! (
_ '(
uv p r
(c étant une constante)
Cependant, tout en restant dans le cadre Bayèsien, il peut être noté que la
linéarité du score peut être obtenue sous d’autres hypothèses concernant les lois
conditionnelles. Ainsi par exemple si on a une seule variable X de type discret
suivant une loi de Bernoulli de paramètres π1 dans le groupe E1 et π2 dans le
groupe E2, la règle de Bayes s’écrit :
# 1 + # 1 + #
ce qui donne :
wO + O x E O pr
# 1 + # 1 + #
_ '(
O yv
_ '(
Elle est ainsi plus générale que l’analyse discriminante bayésienne avec
normalité et homoscédasticité des descripteurs.
_ '(
(respectivement E2) :
'( J' 0 \7 (
_ '( E _ '(
. {|}|~
'(
1E . { |}|~
avec β0 = ln (p1/p2)
1
'(
1E . { |}|~
Remarques
• Poser que la score est linéaire équivaut donc à supposer que les
probabilités à postériori sont logistiques
• L’analyse discriminante logistique consiste à estimer ces probabilités à
partir des données. Elle se distingue ainsi de l’analyse précédente dont
l’objet est l’estimation des lois conditionnelles
• On se base toujours sur le principe bayesien : l’individu est à affecter au
groupe pour le quel la probabilité à postériori d’y appartenir est la plus
élevée. Cela suppose au préalable que l’on dispose d’une estimation des βj
j=0 à p
2. MODELISATION
'(
Le modèle postule que :
O u v E v
1 + '(
3. ESTIMATION
4'L, , v( J'K
L
, 7
(
Ou encore,
D’où en remplaçant,
O4'L, , v(
" O'
(- '1 + '
((-
E " O J' 7
(
VALIDATION
D’UNE METHODE DE SCORING
1. CONCEPTS DE BASE
1.3 Sensibilité
Remarques
1-β
1-α
s S(x)
Remarques :
• Ces taux doivent être interprétés en tenant compte des fluctuations
d’échantillonnage
• Il n’ya pas de référence servant de base pour la comparaison.
2.2.1 Définition
α(s)
1
2.2.2 Utilisation
• Lorsque les deux distributions de S(X) (dans les deux groupes) sont bien
distinctes, la courbe ROC est horizontale. En effet, lorsque α(s) passe de 0 à 1
1-β(s) prend toujours la valeur 1. (Modèle le plus performant)
• Lorsque les deux distributions de S(x) sont confondues, la courbe ROC
coïncide avec la première bissectrice. (Modèle le moins performant) . Ces
Cours de méthodes de scoring- Hassen MATHLOUTHI Page 36
remarques conduisent à considérer la surface sous la courbe ROC (AUC)
comme indicateur synthétique de la performance d’un modèle :
• AUC ≈ 1 modèle très performant
• AUC ≈ 1/2 modèle non performant
Dans les applications, cette probabilité est estimée par la proportion des
paires concordantes. Si on note n1 et n2 le nombre d’individus dans le groupe
des positifs et dans le groupe des négatifs. Le nombre de paires s’élève à n1n2.
Parmi ces paires, celles où le score du positif dépasse celle du négatif sont
appelées paires concordantes.
Cette courbe est très utilisée en marketing. Elle peut servir aussi à mesurer
la performance d’une compagne de promotion d’un nouveau produit. Elle est
alors déterminée à partir des données de la population.
2.3.1 Définition
1
1-β(s)
LIFT estimé
Lift idéal LIFT aléatoire
γ(s)
2.3.2 Utilisation
On peut démontrer que la surface sous la courbe LIFT notée AUL est
donnée par :
Cette surface peut être utilisée comme une mesure de la performance d’un
modèle. On lui préfère la quantité Ki donnée par :
En remplaçant on trouve :
Ki = 2 AUC -1
On en déduit :
1,2
1
0,8
0,6
0,4
0,2
0
0 0,5 1 1,5
On en déduit directement,
AUC = 0.88
1,2
0,8
0,6
0,4
0,2
0
0 0,2 0,4 0,6 0,8 1 1,2
On en déduit :
Ki = 0.76