Vous êtes sur la page 1sur 41

Cours de mthodes de scoring- Hassen MATHLOUTHI Page 1

UNIVERSITE DE CARTHAGE


ECOLE SUPERIEURE DE STATISTIQUE
ET DANALYSE DE LINFORMATION












Cours de mthodes de scoring
















Prpar par Hassen MATHLOUTHI

Anne universitaire 2013-2014




Cours de mthodes de scoring- Hassen MATHLOUTHI Page 2



AVANT PROPOS


Ce cours polycopi sur les mthodes de scoring est le rsultat dune
exprience denseignement de ce module durant ces dernires annes lEcole
de Statistique et dAnalyse de lInformation

Il profite galement de lexprience acquise travers lencadrement dans la
mme cole de projets de fin dtudes ayant port sur des applications de gestion
qui ont utilis les mthodes de scoring.

Ce cours reste nanmoins trs incomplet. Il ne traite en effet en tout que
deux mthodes de scoring qui sont la mthode danalyse discriminante de Fisher
et la mthode de discrimination logistique. Ces deux mthodes sont les plus
connues mais dautres mthodes galement intressantes existent dans la
littrature statistique et devraient tre aussi tudies par tout lecteur cherchant
approfondir ses connaissances en la matire.

Il reste galement assez thorique. En effet, les considrations dordre
pratique lies notamment lchantillonnage et aux techniques de slection des
variables explicatives ne sont que partiellement ou pas du tout abordes.

Dautre part et quoique ayant fait lobjet de plusieurs lectures et de
vrifications, ce cours risque de contenir quelques erreurs mathmatiques (et
erreurs de langue aussi). Je serais trs reconnaissant aux lecteurs me signalant
les ventuelles erreurs ou incomprhensions.








Lauteur






Cours de mthodes de scoring- Hassen MATHLOUTHI Page 3


TABLE DE MATIERES

Dsignation Page
Avant propos 2
Chapitre1 : Introduction gnrale 4
1. Prsentation des mthodes de scoring
2. Dmarche pratique
3. Porte et limites

4
6
7
Chapitre 2 : Lapproche gomtrique 9
1. Position du problme et notation
2. Concepts de base
3. Principe de classement
9
11
16
Chapitre 3 : Classifieurs Bayesiens 19
1. Elments de la thorie de la dcision
2. Classifieur de Bayes
3. Mise en application
19
22
24
Chapitre 4 : Analyse discriminante de Fisher 26
1. Prsentation
2. Modlisation
3. Estimation
26
26
28
Chapitre 5 : Analyse discriminante logistique 29
1. Prsentation
2. Modlisation
3. Estimation
29
31
31
Chapitre 6 : Validation dun modle de scoring 33
1. Concepts de base
2. Principaux outils
3. Illustration
33
35
39
Bibliographie. 41






Cours de mthodes de scoring- Hassen MATHLOUTHI Page 4

Chapitre 1

INTRODUCTION GENERALE

Cette introduction gnrale a pour but de prsenter lobjet des mthodes de
scoring ainsi que leurs principales applications en gestion. La porte et les
limites de ces mthodes ainsi que la dmarche pratique pour leur mise en uvre
sont galement discutes.

1. PRESENTATION

Dans cette prsentation des mthodes de scoring, nous nous proposons de
dfinir lobjet de ces mthodes. Nous examinons par la suite les principales
applications des dites mthodes dans le domaine de la gestion des entreprises.

1.1 Objet

Selon le langage courant, le terme score peut signifier classement ,
rsultat , marque etc. En statistique, cest lide de classement qui est
surtout retenue.

Le scoring (statistique) se prsente en effet comme un ensemble de
mthodes conduisant un classement dindividus au sein de groupes
pralablement dfinis.

La notion de classement mrite son tour dtre lucide compte tenu des
confusions souvent constates avec le terme classification . Ce dernier terme
signifie en effet la mise en vidence de groupements inconnus dans une
population. En revanche, un classement dsigne toute mthode daffectation des
individus dune population dans des groupes dfinis priori.

Formellement, tant donn un ensemble dindividus pouvant tre dcrits
par un certain nombre de variables. Ces individus se rpartissent entre quelques
groupes dfinis priori. Un individu se prsente. On ne connait pas son groupe
dappartenance. Peut-on, sur la base des observations quil prsente vis--vis des
variables considres, prvoir le groupe auquel il appartient ?

Cest le problme auquel les mthodes de scoring cherchent donner une
solution. Une mthode de scoring se prsente en effet comme une technique
statistique permettant de classer un individu dans lun des quelques groupes
dfinis priori et ce au vu de certaines caractristiques de cet individu.

Cours de mthodes de scoring- Hassen MATHLOUTHI Page 5

Il sagit bien dune mthode de classement statistique car elle est base
dabord sur un traitement statistique des donnes issues dun chantillon
dindividus. Dautre part, les facteurs derrire lappartenance dun individu tel
ou tel autre groupe reste en partie inconnus.

En fait, les mthodes de scoring relvent de mthodes gnrales de
classement statistiques (et non de classification) comme lanalyse discriminante,
la rgression logistique, etc.

1.2 Domaines dapplication

Les techniques de scoring sont appliques dans plusieurs domaines comme
la mdecine, lagronomie, larchologie, linformatique, la gestion des
entreprises, etc.

Dans ce dernier domaine, deux principaux types de score sont utiliss : le
score dapptence et le score de risque.

1.2.1 Score dapptence

Utilis notamment en marketing, le score dapptence est une mesure de la
propension dacheter dun client.

En pratique, on utilise notamment ce type de score pour apprcier la
probabilit dun client dtre intress par un nouveau produit.

En effet, dans les domaines o il est possible datteindre directement (par
email, SMS, ou par voie postale par exemple) un grand nombre de clients
potentiels (tlphonie, services bancaires, etc.), la promotion de nouveaux
produits gagnerait tre cible auprs des clients les plus intresss.

Dans ce contexte, on est ainsi en prsence de deux groupes : celui des
clients qui sont intresss par le nouveau produit et celui des clients qui ne le
sont pas.

La construction dun score dapptence permet alors de prvoir le groupe
dappartenance des diffrents clients de lentreprise au vu de leur
caractristiques et partant :
De natteindre que les clients les plus rceptifs
Dviter dimportuner les clients non intresss

Ce qui assure une utilisation optimale du budget allou cet effet.

Cours de mthodes de scoring- Hassen MATHLOUTHI Page 6

1.2.1 Score de risque

Le score de risque ou de comportement est une mesure de la probabilit
pour un client de subir un certain vnement dfavorable pou lentreprise.

Lexemple typique est le crdit scoring utilis par les banques pour
apprcier les risques de non remboursement des crdits accords leurs clients.
Dans ce contexte, les groupes en prsence sont le groupe des bons clients et
celui des mauvais clients . Une mthode de scoring se prsente alors comme
un prcieux outil daide la dcision la disposition des banquiers leur
permettant lors de demandes de crdit par leur clients de dtecter si ces derniers
prsentent ou non un grand risque de non remboursement.

Ce type de score peut tre aussi utilis par les compagnies dassurance pour
apprcier le niveau de sinistralit dun nouveau client.

Lutilisation dun score de risque permet ainsi de rduire les impays. Elle
permet galement de fournir les bases dune tarification du risque.

2. DEMARCHE PRATIQUE

La mise en place dun systme de scoring passe par un certain nombre
dtapes quil convient de raliser.

2.1 Cas du score dapptence

Pour fixer les ides considrons le cas dune entreprise de tlphonie qui
projette de lancer un nouveau service (par exemple tlphoner moiti prix
entre 22 heures et six heures du matin moyennant une cotisation mensuelle de 5
dinars).

Comment procde t elle pour faire connaitre ce nouveau produit ? La
solution la plus facile est denvoyer un SMS prsentant ce produit lensemble
des abonns. Cette solution nest pas videmment la plus approprie car un
certain nombre de ces abonns nest pas intress.

Il serait plus judicieux de distinguer au pralable entre les clients non
intresss et les clients intresss et procder par la suite la promotion du
nouveau produit auprs de ces derniers.

Extraction dun chantillon de la base des donnes des clients de lentreprise
Dans le cadre dune enqute, prsenter le nouveau produit aux clients de
lchantillon et solliciter leur niveau dapptence.
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 7

Utiliser la moiti des donnes de lchantillon (donnes indiques par la base
dune part et niveau dapptence fournies par lenqute dautre part) pour
modliser le score dapptence (expliquer le niveau dapptence comme une
fonction des caractristiques des clients)
Utiliser lautre moiti des donnes de lchantillon pour valider le modle de
scoring spcifi.
Calculer le score pour lensemble des clients
Cibler les clients les plus scors compte tenu du budget allou.

2.2 Cas du score de risque

La mise en place dun systme de crdit scoring dans une banque passe
priori par les tapes suivantes :

Extraire dans les dossiers de crdits accords dans le pass un chantillon
de bons clients et de mauvais clients

NB : On ne cherche pas respecter la structure de la population entre bons et mauvais
clients. On considre plutt pour le besoin de la modlisation un chantillon plus ou moins
galement rparti.

Analyse prliminaire des donnes issues de lchantillon choisi
(limination des erreurs et incohrences, recodage des variables, slection
des variables explicatives, etc.)
Utilisation de la moiti des donnes de lchantillon pour modliser le
score de risque (explication de la probabilit dtre un mauvais client
comme une fonction de ses caractristiques)
Utilisation de lautre moiti des donnes de lchantillon pour valider le
modle de scoring spcifi.
Fixation dun seuil de score en dca du quel un client est considr
comme mauvais .
NB : Ce seuil est gnralement fix travers un calcul conomique.
Application du modle adopt sur les nouvelles demandes de crdits.

3. PORTEE ET LIMITES

En pratique, on pourrait utiliser dautres mthodes plus ou moins
subjectives pour apprcier la probabilit dappartenance dun individu un
groupe donn.

Par rapport ces mthodes, les techniques statistiques de scoring
prsentent un certain nombre davantages et inconvnients dont les principaux
sont prsents ci aprs.
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 8

3.1 Principaux avantages

Par rapport un systme de notation subjective, le scoring statistique
prsente les avantages suivants :

Evaluation quantitative de la probabilit dappartenance ce qui permet
dordonner les individus.
Caractre immuable (fixe) des rsultats
Cohrence des rsultats : deux individus ayant les mmes caractristiques
auront le mme score.
Caractre explicite : mthodologie dvaluation pouvant tre clairement
prsente.
Prise en compte de plusieurs facteurs de risque.
Aptitude dtre teste au pralable
Explication du lien existant entre le niveau de risque et les facteurs de risque
Aptitude donner lieu des calculs sur les effets sur la rentabilit de
lentreprise.

3.2 Principaux inconvnients

Les mthodes statistiques de scoring soufrent nanmoins de quelques
insuffisances dont entre autres :
La dcision pouvant tre prise suite lutilisation des mthodes de scoring est
base sur une probabilit et non sur une certitude
Les mthodes statistiques de scoring supposent comme toute autre mthode
statistique que le futur est identique au pass.
Le risque est expliqu par les seules variables disponibles
Il existe un vrai problme de biais de slection dans llaboration dune
mthode de crdit scoring. En effet, les dossiers refuss ne sont pas pris en
considration.
Lapplication dun systme de scoring ncessite un grand nombre de donnes
et de variables statistiques et serait de ce fait impossible raliser sans loutil
informatique.
La mise en place dun systme de scoring dans une entreprise nest pas
toujours facile raliser du fait de la ncessit de son intgration informatique
avec les autres systmes dinformation.

Remarque : dans tous les cas, il convient de se rappeler que la statistique est
juste un outil daide la prise de dcision et ne permet en aucun cas darrter
cette dcision.


Cours de mthodes de scoring- Hassen MATHLOUTHI Page 9

Chapitre 2

APPROCHE GEOMETRIQUE

Ce chapitre prsente la mthode de scoring la plus intuitive. Il sagit en
effet dune mthode simplement base sur des outils gomtriques et
statistiques.

La rgle daffectation qui se dduit de cette approche gomtrique se
prsente comme un cas particulier important de la mthode danalyse
discriminante de Fisher qui sera examine en dtail plus loin dans ce cours.

1. NOTATION ET POSITION DU PROBLEME

Lobjet de cette section est de placer le problme de classement dans un
cadre gomtrique. Pour ce faire, nous devons au pralable fixer les notations.

1.1 Notations

On considre une population E compose de n individus. On collecte
auprs de ces individus des donnes relatives p variables quantitatives. La
donne relative la variable j chez lindividu i est note x
i,j

Lensemble des donnes collectes peut alors tre reprsent par un tableau
ayant la forme suivante :
x
1,1
x
1,2
x
1,j
x
1,p

x
2,1
x
2,2
x
2,j
x
2,p


x
i,1
x
i,2
x
i,j
x
i,p


x
n,1
x
n,2
x
n,j
x
n,p


o par convention, on a plac les p donnes relatives lindividu i dans la ligne
n i (et donc les n donnes concernant la variable j dans la colonne n j)

Pour la formalisation mathmatique, ce tableau est identifi une matrice
X de n et p dimensions. De mme, on identifie la colonne n j de ce tableau,
reprsentant la variable j, un point de R
n
quon note X
j
. Pareillement, on
identifie la ligne n i reprsentant lindividu i de ce mme tableau un point
de R
p
. Ce point est not X
(i)


Cours de mthodes de scoring- Hassen MATHLOUTHI Page 10

Les points variables X
j
forment un nuage de p points dans de R
n
. Il en est
de mme en ce qui concerne les points individus qui forment un nuage de n
points de R
p
.

X =

,

,
.
,

,

,
.
,

,
. .

,

,
.
,

,
.

,

,
.
,

, X
j
=

,
.

et X
(i)
=

,
.



Illustration gomtrique : On considre un nuage de 5 individus dcrits par
deux variables ( p=2)




On observe galement auprs de chacun des n individus son appartenance
lun des m groupes E
1
, E
2
,,E
k
, ,E
m
dfinis priori. Un individu appartient
un et un seul groupe. On a ainsi :

et E
k
E
l
= k l. Si on note
n
1
, n
2
,,n
k
, ,n
m
les effectifs respectifs des m groupes considrs, on a ainsi :



Les donnes disponibles concernent aussi les poids p
i
associs chaque
individu i. Ce poids mesure limportance relative de lindividu dans lanalyse
effectuer. On a par dfinition :

0 1

1

Un cas particulier important est celui o les poids sont uniformes :

1

-6
-4
-2
0
2
4
6
-4 -2 0 2 4 6
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 11

Remarques
Le poids dun groupe est naturellement dfini par la somme des poids des
individus format ce groupe :

.

Dans le cas uniforme

Les poids associs aux groupes ne sont


pas uniformes car les effectifs des groupes ne sont pas en gnral gaux.

1.2 Position du problme

Etant donn un nouvel individu dont on ne connait pas le groupe
dappartenance. Soit x =
,

,
.
,

,
ses coordonnes.

Le problme pos consiste prvoir le groupe dappartenance de cet
individu au vu de ses caractristiques dfinies par x.

Il convient de signaler quil sagit dune prvision et non dune
dtermination du groupe dappartenance. Il ya donc un risque de procder un
classement erron.

2 CONCEPTS DE BASE

Utilisant le systme de notation sus prsent nous donnons dans ce qui suit
les concepts statistiques et gomtriques ncessaires pour dfinir la mthode de
classement considre.

2.1 Moyennes arithmtiques et centre de gravit

Pour chaque variable X
j
on calcule sa moyenne arithmtique



NB : Dans le cas uniforme, cette formule prend la forme habituelle



Le vecteur g des p moyennes arithmtiques est appel centre de gravit du
nuage des individus : g = (

, ,

, ,

. Ce point dfinit un nouvel


Cours de mthodes de scoring- Hassen MATHLOUTHI Page 12

individu. Cest lindividu moyen. Dans la suite, on suppose que g = (0,0,,0).
Cette hypothse a lavantage de simplifier les calculs sans modifier les rsultats
de lanalyse.

Remarque : Pour satisfaire cette hypothse en pratique, on commence par
centrer le nuage des individus. On pose cet effet

,

,



o les
,
dsignent les donnes initiales.

On calcule galement pour chaque variable X
j
sa moyenne arithmtique
dans chaque groupe k

:

Cela permet de dfinir un centre de gravit pour le sous nuage associ ce
groupe, soit
g
k
=

, ,

, ,



Remarque : avec des poids uniformes, on a :



Ce point de R
p
sidentifie ainsi avec lindividu moyen du groupe k. On le
considre comme le reprsentant de ce groupe.

On a la proprit suivante : La moyenne de la population concide avec
la moyenne pondre des moyennes des groupes, les pondrations tant les
importances numriques des groupes :




Il sensuit que :


(= 0 si le nuage est centr)



Cours de mthodes de scoring- Hassen MATHLOUTHI Page 13

2.2 Matrice de variances et covariances

La variance de la variable j est dfinie par :


soit en dveloppant



Remarque : Avec des donnes centres, on a

.

Lorsquen plus les poids sont uniformes, la formule se simplifie
davantage :



La covariance des variables j et h est donne par :


NB : Avec des poids uniformes, on a :



ou encore si le nuage est centr :



On note V la matrice de variances et covariances :

V=


,
.
,

.
,

,
. .

,

,
.


,
.

,

,
.
,


Cours de mthodes de scoring- Hassen MATHLOUTHI Page 14


On peut remarquer quen prsence dun nuage centr et des poids
uniformes, on a :

1



On sait que cest une matrice symtrique dfinie positive, inversible sauf
sil existe une relation linaire entre les variables. De mme on dfinit pour
chaque groupe k une matrice de variances et covariance spcifique, soit

V
k
=

.
,


.
,

. .

.
,

si les poids sont uniformes)


et

si les poids sont uniformes)



Remarque: les moyennes ne sont pas nulles car les sous nuages ne sont pas
centrs.

Soit W la matrice dfinie par la moyenne arithmtique des variances V
k
.
Cette matrice est appele matrice des variances et covariances intra groupes:




A signaler que la matrice W est en gnral inversible.

On dfinit galement une autre matrice B appele matrice des variances et
covariances intergroupes. Cest la matrice des variances et covariances calcule
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 15

au niveau des reprsentants des diffrents groupes. A rappeler que chaque
reprsentant dun groupe deux est caractris par les moyennes des variables
considres dans le groupe considr, c'est--dire le centre de gravit de ce
groupe. Les donnes concernant les reprsentants des groupes peuvent tre
consignes dans une matrice G prenant la forme suivante :

G =



La matrice B est alors dfinie comme suit :

B =

.
,


.
,

. .

.
,



et



car le nuage est centr.

On peut vrifier que :


.

Cest une matrice carre de dimension p mais en en gnral de rang
infrieur p. Cette matrice nest donc pas en gnral inversible.



Cours de mthodes de scoring- Hassen MATHLOUTHI Page 16

On a le rsultat important suivant connu sous le nom de formule de
lanalyse de la variance :

V= W + B.

Cette proprit snonce ainsi : les variances (et covariances) totales (au
niveau de la population) telles que prsents par la matrice V concident avec
la somme des variances (et covariances) intragroupes (au sein des groupes)
donnes par la matrice W et des variances (et covariances) intergroupes (entre
les groupes) fournies par la matrice B.

2.3 Mtrique

Pour dfinir la distance, non ncessairement euclidienne, entre deux
individus e et f, on a besoin dune mtrique M. Il sagit dune matrice
symtrique dfinie positive de dimension p:

d(e,f) = (e-f)M(e-f).

La norme associe cette distance est alors donne par :

|| e || = d(o,e) = eMe

Remarque : Lorsque M =I, matrice identit, on a la distance euclidienne

3. PRINCIPE DE CLASSEMENT

Rappelons quon cherche classer un nouvel individu dans lun des m
groupes sur la base des donnes relatives aux p variables considres telles que
observes chez cet individu.

Lapproche gomtrique, connue sous le nom de rgle de Mahalanobis
Fisher, consiste tout simplement classer cet individu dans le groupe le plus
proche. On sait quun individu et un reprsentant dun groupe sont deux points
de R
p
. Le groupe recherch est donc celui pour le quel la distance entre son
centre de gravit et le point individu concern est la plus faible.

La mtrique considre pour calculer cette distance est celle de
Mahalanobis dfinie par linverse de la matrice intra groupes W.

La rgle daffectation prend une formulation particulire lorsquon est en
prsence de deux groupes seulement. Aussi, distingue t- on dans ce qui suit le
cas gnral du cas de deux groupes.
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 17


3.1 Cas gnral

Soit x = (x
1
, x
2
,.., x
j
,, x
p
) les coordonnes du nouvel individu. Dsignons
par d(x,g
k
) le carr de la distance entre x (le nouvel individu) et g
k
(le centre de
gravit du groupe k). Par dfinition, lon a :

d(x,g
k
)= (x-g
k
)W
-1
(x-g
k
)

do en dveloppant :

d(x ,g
k
)= xW
-1
x + g
k
W
-1
g
k
-2xW
-1
g
k

On note que le premier terme du second membre de lgalit prcdente
(xW
-1
x) ne dpend pas des groupes. On peut donc ne pas en tenir compte et se
limiter la quantit :

S
k
(x) = xW
-1
g
k
g
k
W
-1
g
k

En calculant ces quantits pour k = 1 m et les triant selon lordre
croissant, on identifie le groupe pour le quel cette quantit est la plus grande.
Cest ce groupe qui dfinit le groupe daffectation de lindividu considr.

On peut noter que lexpression prcdente est une fonction linaire des
coordonnes du nouvel individu :


ce qui constitue un avantage pratique important du fait de la simplicit des
calculs effectuer.

3.2 Cas de deux groupes

Soit x = (x
1
, x
2
,.., x
j
,, x
p
) les coordonnes du nouvel individu. Cet
individu est ainsi affecter au groupe 1 lorsque

d(x,g
1
) < d(x,g
2
)

soit en remplaant,

xW
-1
x + g
1
W
-1
g
1
-2xW
-1
g
1
< xW
-1
x + g
2
W
-1
g
2
-2xW
-1
g
2

Do en simplifiant et en factorisant on trouve,
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 18

(g
1
-g
2
)W
-1
(x- (g
1
+g
2
)) > 0

On remarque que le premier membre de cette ingalit est une fonction linaire
de x. En notant cette fonction S, lindividu dont les coordonnes sont donnes
par x est ainsi affecter dans le groupe 1 lorsque :

S(x) > 0 ( et donc affecter au groupe 2 lorsque S(x) < 0).

La fonction S est communment appele fonction de score.


































Cours de mthodes de scoring- Hassen MATHLOUTHI Page 19

Chapitre 3

CLASSIFIEUR BAYESIEN

Le problme de classement dun individu sur la base de ses caractristiques
dans lun de quelques groupes dfinis priori peut tre plac dans un cadre
probabiliste. Il sera ainsi possible dutiliser tous les outils de la thorie de
probabilit dont en particulier les mthodes de choix dans lincertain.

Un avantage important de lapproche probabiliste par rapport aux mthodes
gomtriques prsentes dans le chapitre prcdent est alors de permettre
dapprcier quantitativement les risques de mauvais classement.

1. ELEMENTS DE LA THEORIE DE DECISION

On considre une population E de n individus rpartis entre m groupes E
1
,
E
2
,,E
k
, ,E
m
dfinis priori :

et E
k
E
l
= k l. Si on note
n
1
, n
2
,,n
k
, ,n
m
les effectifs respectifs des m groupes considrs, on a ainsi :



Soit un individu e de E, dont on ne connait pas le groupe dappartenance et
quon cherche classer dans lun des m groupes. Cet individu peut tre
considr comme le rsultat dune exprience alatoire de tirage au hasard dun
lment de E.

Vu de cette manire, le problme de classement peut tre plac dans le
cadre de la thorie probabiliste. Lensemble E se prsente ainsi comme un
ensemble de rsultats possibles dune exprience alatoire auquel on peut
adjoindre une tribu et une probabilit P pour former un espace probabilis.

1.1 Etats de la nature :

Pour un individu e dont on ne connait pas le groupe dappartenance, on
dfinit m tats de la nature, c'est--dire des ventualits, concernant son groupe
dappartenance. Ces tats de la nature sont nots :
k
: lindividu e E
k
et on
dsigne par ={
1
,
2
,
k
,,
m
} lensemble des tats de la nature. Soit T une
application de E dans associant chaque individu son tat de la nature.
On peut considrer T comme une variable qualitative prenant les modalits
1

,
2
,
k
,,
m
et les probabilits priori dappartenance au groupe k : p
k
=
P(T=
k
) comme sa loi de probabilit.

NB : T est non observable.
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 20


1.2 Espace des observations :

Soit x = ( x
1
, x
2
,, x
j
,,x
p
) un vecteur de p observations relevs
auprs de lindividu e. On peut considrer x comme une ralisation dun vecteur
alatoire X= ( X
1
, X
2
,, X
j
,,X
p
). On note
={ x R
p
/ x ralisation de X). Cest lespace des observations. La variable X
est alors une application de E dans (vrifiant les conditions de mesurabilit).

1.3 Espace des dcisions :

On a affecter un individu e dans lun des m groupes. Cest une dcision.
On note a
k
la dcision daffecter lindividu e dans le groupe k. On note A
lensemble des dcisions : A={a
1
,a
2
,a
k
,,a
m
}

1.4 Rgle de dcision :

Cest une mthode de classement (on dit aussi classifieur). Formellement,
cest une application de dans A. On note cette application. Techniquement,
cest un procd permettant de prendre une dcision a au vu de la ralisation
x de X : a=(x).
Nb : Comme x rsulte du hasard a=(x) rsulte aussi du hasard. Aussi, dfinit
on la variable alatoire Y =(X) qui prend les valeurs a
1
,a
2
,a
k
,,a
m
avec des
probabilits dfinies par :
P( Y=a) = P(x / a=(x)}=P(
-1
(a)).

1.5 Fonction de perte :

A chaque rgle de dcision on associe une fonction de perte dfinie par une
application L de (A, ) dans R
+
: L(a
k
,
l
) 0. On linterprte comme la perte
(ou le cot) supporte en affectant e au groupe k alors quen ralit il appartient
au groupe l. On note que L(a
k
,
k
) = 0 pour tout k = 1 m. Dautre part, comme
a
k
et
l
rsulte du hasard, la perte encourue z = L(a
k
,
l
) rsulte aussi du hasard.
Cest une ralisation dune variable alatoire Z = L(Y,T). Dans la suite, on est
amen calculer la perte moyenne dune rgle de dcision :

E(Z) = , ,



, ,




Cours de mthodes de scoring- Hassen MATHLOUTHI Page 21

1.6 Illustration :

E est lensemble des champignons pouvant tre rcolts dans un foret. On
suppose que ces champignons appartiennent deux groupes. E
1
: les
champignons combustibles et E
2
: les champignons vnneux. On observe sur
les champignons une seule variable alatoire X, prenant les valeurs 3, 5 et 8 (par
exemple leur diamtre exprim en cm). On suppose disposer des lois
conditionnelles de X sachant T= et de la loi marginale de X :

X / T=
1
X / T=
2
X
3 9/10 0 3/4
5 1/10 1/4 1/8
8 0 3/4 1/8

ainsi que la loi de T : / P(T=
1
) = 5/6 et P(T=
2
) = 1/6.

On cueille un champignon e. Soit deux dcisions a
1
: Manger ce
champignon a
2
: Ne le pas manger . On suppose que les cots sont comme
suit :
a
1
a
2

1
0 1

2
200 0

Considrons enfin la rgle de dcision suivante :

(x) = a
1
si x =3 et (x) = a
2
si x > 3.

Trouvons la loi de Y = (X), la loi du couple (T,Y) et E(Z).

Loi de Y

Y a
1
a
2

P(Y=a
i
) 3/4 1/4
Loi de (T,Y)

a
1
a
2
T

1
3/4 1/12 5/6

2
0 1/6 1/6
Y 3/4 1/4 1

On calcule E(Z) =1/12

Cours de mthodes de scoring- Hassen MATHLOUTHI Page 22

2 CLASSIFIEUR DE BAYES

2.1 Dfinition :

Etant donn un espace dtats de la nature , un espace dobservations ,
un espace de dcision A et une fonction de perte L, le classifieur de Bayes est la
rgle de dcision minimisant la perte moyenne parmi toutes les rgles de
dcision possibles.

Soit lensemble de toutes les rgles de dcisions possibles de dans A.
Le classifieur de Bayes
*
est donc tel que :

E(L(
*
(X),T)) E(L( (X),T))


2.2 Caractrisation :

Proposition
Soit
0
minimisant E(L( (X),T)/X=x) x alors
0
minimise E(L(
(X),T)).

Preuve :
E(L(
0
(X),T)/X=x) E(L((X),T)/X=x) x et
E
x
(E(L(
0
(X),T)/X=x)) E
x
(L((X),T)/X=x)
E(L(
0
(X),T)) E(L( (X),T))

La rgle de Bayes est donc telle que :

E(L(*(X),T)/X=x) E(L((X),T)/X=x) x et

Soit donc,

PT

/X x

PT

/X x
x et

Or daprs la formule de Bayes,

P(T=
k
/X=x) =


Do en remplaant,

Cours de mthodes de scoring- Hassen MATHLOUTHI Page 23

x et

Ainsi, tant donn un individu e et x
e
la ralisation de X chez cet individu.
Notons a
l*
la dcision prise au vue de x
e
si on applique la rgle de Bayes
(a
l*
=*(x
e
)) et a
l
la dcision prise au vue de x
e
si on applique une autre rgle
(a
l
= (x
e
)). Comme L(a
k
,
k
) = 0 k = 1 m, on a ainsi :



Do la rgle pratique suivante, tant donn un individu e de caractristiques x :

On commence par calculer la quantit :

pour chaque groupe l = 1 m.


Le groupe retenir pour laffectation de lindividu e est celui pour le quel cette
quantit est la plus faible.
2.3 Cas particulier important

Les cots varient dune application une autre. Si lon suppose que les
cots sont gaux, la rgle de Bayes prend une formulation assez simple. En
effet, en dveloppant la formule prcdente on trouve:


Aprs simplification, on obtient:



Soit aprs division des deux membres par


,
PT

/X x PT

/X x

Ce qui signifie que le classifieur de Bayes affecte lindividu e au groupe
pour le quel la probabilit dappartenance posteriori est la plus leve.
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 24

Bien que lhypothse dgalit des cots ne soit pas plausible, cest cette
rgle qui est la plus retenue en pratique. Ainsi, tant donn un individu e et x ses
caractristiques,
On commence par calculer la quantit
C
k
(x) = p
k
f
k
(x) pour k =1 l.
Le groupe daffectation de e est celui pour le quel la quantit C
k
(x) est la
plus leve.
Remarques :
Toute transformation monotone de C
k
(x) peut tre considre comme une
fonction donnant le score de e dans E
k
. En particulier, la transformation
Logarithme est souvent utilise pour les facilits de calcul quelle permet.
Dans le cas de deux groupes (k=1,2), la rgle daffectation prcdente est
quivalente la suivante : On affecte lindividu e au groupe 1 si :

R(x)= [p
1
.f
1
(x)/ p
2
.f
2
(x)] > 1

Ou ce qui est quivalent en passant aux logarithmes, si

r(x)=Ln(p
1
/p
2
) +L n(f
1
(x)/f
2
(x)) > 0

3. MISE EN APPLICATION

Pour la mise en application du classifieur de Bayes, il faut disposer des
probabilits priori p
k
et des probabilits conditionnelles f
k
. En pratique, ces
grandeurs sont en gnral inconnues. Il convient en consquence de les estimer
partir de donnes issues dun chantillon.

On peut procder une estimation directe de ces probabilits dans le cas
o X= ( X
1
, X
2
,, X
j
,,X
p
) est discret et p petit (estimation non
paramtrique)

Rappelons que lon a estimer :
p
k
= P(e E
k
) k = 1 m
f
k
(x)

= P( X=x/ E
k
) k = 1 m et x
NB : lensemble est fini .Il est dfini par le produit cartsien
=
1

2

j

p


ou
j
est lespace des observations relatives la variable X
j
. Cest un ensemble
fini contenant les modalits de cette variable puisque celle-ci est discrte.
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 25

On peut utiliser comme mthode destimation la mthode du maximum de
vraisemblance qui conduit estimer ces probabilits par leur quivalent
empirique, soit :

o n
k
est leffectif du groupe E
k
et n est leffectif total dans
lchantillon

ou n
k
(x) est leffectif dans E
k
prsentant la modalit x.

Remarques importantes :
En pratique, cette mthode nest possible quavec un nombre trs limit de
groupes et de variables. En outre, ces variables doivent prsenter galement un
petit nombre de modalits. Pour fixer les ides, supposons quon est en prsence
de 5 variables prsentant chacune 8 modalits et que le nombre de groupes est 3.
Le cardinal de est alors de 8
5
. Le nombre de quantits

calculer slve
alors 3.8
5
ce qui est impossible raliser mme avec un ordinateur.
On peut considrer des variables continues condition de les discrtiser en
dfinissant des classes de variation. Mais, se pose alors le problme de
dfinition de ces classes.
Une hypothse a t propose pour rduire le nombre de paramtres estimer.
Elle consiste supposer lindpendance des variables prises en considration.
Sous cette hypothse, on a en effet seulement les probabilits marginales
estimer. La mthode daffectation qui en rsulte porte le nom de classifieur
Bayesien naf.

Annexe : Formule de Bayes
Dsignons par :
p
k
: Probabilit dappartenance au groupe k . p
k
= P( e E
k
)
Cette probabilit est appele probabilit priori .
f
k
(x): la densit de probabilit du vecteur X dans le groupe k (Il sagit
dune densit conditionnelle) lorsque X est absolument continue ou la
probabilit de lvnement X=x dans le groupe k lorsque X est discret
(f
k
(x) = P(X=x/ e E
k
).
La formule de Bayes permet dexprimer la probabilit posteriori dappartenir
au groupe k sachant que la variable prend la valeur x :
P(e E
k
/ X(e) = x) =






Cours de mthodes de scoring- Hassen MATHLOUTHI Page 26

Chapitre 4

ANALYSE DISCRIMINANTE
DE FISHER

Cette mthode est la plus ancienne des mthodes statistiques de classement.
Remontant aux travaux de Fisher en 1936, elle permet de classer les individus
dune population entre diffrents groupes dfinis priori au vu de donnes
relatives des variables quantitatives.

1. PRESENTATION

Cette mthode se prsente comme une application du classifieur de Bayes
dans le cas o les descripteurs X sont des variables alatoires continues et sont
supposes suivre, conditionnellement chaque groupe E
k
, une loi normale de
moyenne
k
et une matrice de variances et covariances
k
.

Cest donc une mthode o les probabilits conditionnelles estimer sont
supposes relever de lois de probabilits donnes mais dpendant nanmoins de
paramtres inconnus estimer partir des donnes mises disposition
(estimation paramtrique).


2. MODELISATION

Dans les applications, on distingue en fait entre deux modles danalyse
discriminante selon que lon suppose que les
k
sont diffrentes dun groupe
un autre (modle htroscdastique) ou que ces matrices sont identiques (modle
homoscdastique).

2.1 Modle htroscdastique

Avec un modle htroscdastique, les densits conditionnelles scrivent,
tant donn x R
p
:

f
k
(x) =(2 )
(-p/2)
(det
k
)
(-1/2)
exp(-1/2)(x-
k
)
k
-1
(x-
k
)

On en dduit directement les fonctions C
k
(x) :

C
k
(x) =p
k
(2 )
(-p/2)
(det
k
)
(-1/2)
exp(-1/2)(x-
k
)
k
-1
(x-
k
) .

Cours de mthodes de scoring- Hassen MATHLOUTHI Page 27

Soit, aprs passage aux logarithmes (ce qui ne change pas la rgle
daffectation) :

S
k
(x)= Ln(p
k
) (1/2)Ln(det
k
)-(1/2)(x-
k
)
k
-1
(x-
k
)

Cette quantit est calculer pour chaque groupe k =1 m. Le groupe
daffectation est alors celui pour le quel cette quantit est la plus leve.

Remarques : La fonction S
k
(x) est bien une fonction de x. On lappelle la
fonction de classement ou la fonction discriminante ou encore la fonction de
score. On note quelle est de type quadratique.

2.2 Modle Homoscdastique

Lhomoscdasticit du modle signifie que les
k
sont supposes identiques
(
k
= , k = 1 m). En pratique, il convient au pralable de tester cette
hypothse.

La fonction de score se simplifie. En effet, lon a :

S
k
(x)= Ln(p
k
) (1/2)Ln(det )-(1/2)(x-
k
)
-1
(x-
k
)

soit en dveloppant,

S
k
(x)= Ln(p
k
) (1/2)Ln(det )-(1/2)[ x
-
x
1
-x
-1

k
-
k

-1
x+
k

-1

k
]

Les termes ne dpendant pas de k peuvent tre omis car ils ne changent pas
le classement. On peut alors dfinir la fonction de score ainsi :

S
k
(x)= Ln p
k
+
k

-1
x (1/2)(
k

-1

k
).

On note que dans ce cas, la fonction de score est linaire ce qui constitue
un avantage pratique important.

Remarques importantes :
Lorsquon suppose en plus que les probabilits priori sont gales, on peut
liminer les termes correspondants dans la fonction de score. On retrouve alors
la rgle gomtrique de Fisher Mahalanobis.
Dans le cas de deux groupes, la rgle prcdente est quivalente la
suivante : On affecte lindividu e au groupe 1 si

r(x)=Ln(p
1
/p
2
) +Ln(f
1
(x)/f
2
(x)) > 0

Cours de mthodes de scoring- Hassen MATHLOUTHI Page 28

soit aprs remplacement et simplification :

r(x)=Ln (p
1
/p
2
) +(
1
-
2
)
-1
x - (
1
-
2
)
-1
(
1
+
2
) > 0

On note quil sagit dune fonction linaire

3. ESTIMATION

En pratique, on ne connait pas les p
k
, ni les
k
, ni les
k
. On cherche les
estimer.

Leur estimation par leur quivalent empirique (mthode du maximum de
vraisemblance) donne :




o les g
k
et

les V
k
sont dfinies comme dans le chapitre prcdent partir
dobservations sur les p variables dans un chantillon de n individus rpartis en
m groupes dfinis priori.

NB : lorsque les effectifs n
k
sont levs, on peut ne pas tenir compte des facteurs
correctifs dans lestimateur de la variance en posant :



Annexes : Loi normale multidimensionnelle.

Soit X= ( X
1
, X
2
,, X
j
,,X
p
) un vecteur alatoire p dimensions. On note
= (
1
,
2
,,
j
,,
p
) le vecteur des esprances et

=


,
.
,

.
,

,
. .

,

,
.


,
.

,

,
.
,

la matrice de variances et covariances.



On dit que X est un vecteur normal ( X N(,) si :
U R
p
, UX
est une variable alatoire relle suivant une loi normale (unidimensionnelle).
Lorsque est inversible, X admet une densit de probabilit ayant la forme
suivante :
f(x) =(2 )
(-p/2)
(det )
(-1/2)
exp(-1/2)(x- )
-1
(x- ) x R
p
.
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 29

Chapitre 5.

ANALYSE DISCRIMINANTE
LOGISTIQUE

Lanalyse discriminante logistique est une autre mthode de
classement aussi connue que la mthode danalyse discriminante de
Fisher. Tout en reposant sur le principe bayesien de classement, elle se
distingue toutefois de cette dernire en procdant plutt modliser
les probabilits posteriori et non les probabilits conditionnelles.

1. PRESENTATION

1.1 Hypothse de base

Il a t dmontr que dans le cas de deux groupes, la rgle de dcision de
Bayes est telle quon affecte un individu x au groupe 1 si :



o f
1
et f
2
sont les densits du vecteur X respectivement dans les groupes E
1
et
E
2
.

En supposant la normalit et lhomoscdasticit de X, on peut montrer que
cette rgle prend une forme linaire :


(c tant une constante)

La linarit dun score constitue un avantage important en pratique du fait
notamment de la facilit de mise en uvre informatique. Nanmoins les
hypothses de normalit et dhomoscdasticit peuvent savrer dans certains
cas peu ralistes et inadaptes.

Cependant, tout en restant dans le cadre Baysien, il peut tre not que la
linarit du score peut tre obtenue sous dautres hypothses concernant les lois
conditionnelles. Ainsi par exemple si on a une seule variable X de type discret
suivant une loi de Bernoulli de paramtres
1
dans le groupe E
1
et
2
dans le
groupe E
2,
la rgle de Bayes scrit :
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 30



ce qui donne :



qui est bien une fonction linaire des observations.

Lanalyse discriminante logistique, nimpose aucune loi particulire
suivre par les descripteurs. Elle se donne comme hypothse de base la linarit
du logarithme du rapport de vraisemblance :



Elle est ainsi plus gnrale que lanalyse discriminante baysienne avec
normalit et homoscdasticit des descripteurs.

1.2 Expression de la probabilit postriori

Lorsque le score est linaire, les probabilits postriori prennent une
forme particulire qui est celle de la loi logistique. En effet, notons p(x)
(respectivement q(x)) la probabilit postriori dappartenance au groupe E
1

(respectivement E
2
) :



Soit, en divisant numrateur et dnominateur par f
2
(x)p
2
et compte tenu de
lhypothse de linarit de logarithme du rapport de vraisemblance :


avec
0
= ln (p
1
/p
2
)

Un dveloppement similaire conduit :


1
1



Cours de mthodes de scoring- Hassen MATHLOUTHI Page 31

Ce qui montre que les probabilits postriori prennent la forme de la
fonction de rpartition dune loi logistique (do dailleurs lappellation
logistique) .

Remarques
Poser que la score est linaire quivaut donc supposer que les
probabilits postriori sont logistiques
Lanalyse discriminante logistique consiste estimer ces probabilits
partir des donnes. Elle se distingue ainsi de lanalyse prcdente dont
lobjet est lestimation des lois conditionnelles
On se base toujours sur le principe bayesien : lindividu est affecter au
groupe pour le quel la probabilit postriori dy appartenir est la plus
leve. Cela suppose au pralable que lon dispose dune estimation des
j

j=0 p
2. MODELISATION

Lestimation du score passe par lestimation dun modle conomtrique
connu sous lappellation de modle Logit.

Pour simplifier la prsentation, nous considrons dans ce qui suit le cas de
deux groupes (la gnralisation plusieurs groupes peut tre opre assez
directement). Considrons la nouvelle variable alatoire relle Y dfini par :
{Y=1 si lindividu au groupe 1 ; Y= 0, sinon}

On note que la variable Y suit, conditionnellement X =x, suit une loi de
Bernoulli de paramtre p(x) = P(Y= 1/X =x), do :

P(Y=y/X=x) = p(x)
y
(1-p(x))
1-y
y {0,1}

Le modle postule que :



Remarque : On note que cette dernire criture quivaut lhypothse selon
laquelle les probabilits posteriori sont logistiques.

3. ESTIMATION

On utilise la mthode du maximum de vraisemblance pour ses bonnes
proprits asymptotiques.

Soit un chantillon indpendant de n observations :
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 32

(y
1
,x
1,1
,x
1,2
,,x
1,j
,,x
1,p
), (y
2
,x
2,1
,x
2,2
,..,x
2,j
,..,x
2,p
), ...,(y
i
,x
i,1
,x
i,2
,,x
i,j
,,x
i,p
),...,
(y
n
,x
n,1
,x
n,2
,,x
n,j
,,x
n,p
).

La vraisemblance de cet chantillon est par dfinition sa probabilit de
ralisation :

, ,

, ,

, ,

]

Soit compte tenu de lindpendance de lchantillon,

, ,


Ou encore,
, ,



Soit, en passant aux logarithmes :

, ,



Do en remplaant,

, ,



Soit aprs dveloppement et compte tenu du modle (expression de
p(x
i
)) :
, ,


La maximisation de L passe par lannulation de ses drives premires :

,,

x
,
x
,

=0

La solution de cette quation ne peut pas tre dtermine explicitement. On
utilise cet effet un algorithme de rsolution numrique, le plus connu tant
lalgorithme de Newton Raphson.

Cours de mthodes de scoring- Hassen MATHLOUTHI Page 33

Chapitre 6

VALIDATION
DUNE METHODE DE SCORING

Une fois un modle ou plusieurs modles de scoring sont estims, il
convient danalyser leurs performances avant de les valider pour tre utiliss
comme outil daide la dcision.

Lanalyse de performances, lissue de la quelle une mthode de scoring
est valide, permet notamment
Damliorer un modle en comparant plusieurs de ses variantes (ajout ou
retrait de variables explicatives, etc.)
De choisir entre plusieurs types de modles candidats
Lanalyse des performances dun modle gagnerait tre conduite sur un
jeu de donnes diffrent de celui qui a t utilis pour lestimation. On doit en
effet, lorsque cela est possible, distinguer entre lchantillon dapprentissage et
lchantillon de test ou de validation. Ce dernier doit ncessairement contenir les
valeurs relles de la variable cible (appartenance aux groupes). Dune manire
gnrale, il sagit de comparer entre les valeurs relles de la variable cible avec
celles prdites par le modle.

1. CONCEPTS DE BASE

1.1 Positifs et ngatifs

Soit une population partitionne en deux sous groupes G
1
et G
2
. On appelle
(par convention) les positifs les individus de G
1
et les ngatifs les individus de
G
2
.
On dispose par ailleurs dune fonction de score (issue dun modle) note S
et dun seuil s dfinies tels que :
On affecte lindividu prsentant lobservation x au groupe G
1
si S(x) > s .
Autrement dit, on considre cet individu comme positif.
Sinon, on laffecte au groupe G
2
, on le considre donc comme ngatif
On appelle :
Faux positif, un individu ngatif considr par la mthode de score
comme positif
Faux ngatif, un individu positif considr par la mthode de score
comme ngatif



Cours de mthodes de scoring- Hassen MATHLOUTHI Page 34

1.2 Spcificit

On appelle coefficient de spcificit et on note 1- la probabilit suivante :

1- = Pr (S(x) < s / x G
2
)

Cest donc la probabilit de bien dtecter un ngatif ou encore cest la
proportion des ngatifs dans la population pouvant tre dtect par la mthode.

La quantit = Pr (S(x) s / x G
2
) dsigne donc la probabilit de
considrer un individu comme positif alors quil est ngatif (faux positif). Pour
une mthode de score, cest un premier type de risque derreur daffectation.

1.3 Sensibilit

On appelle coefficient de sensibilit et on note 1- la probabilit suivante :

1- = Pr (S(x) > s / x G
1
)

Cest donc la probabilit de bien dtecter un positif ou encore cest la
proportion des positifs dans la population pouvant tre dtect par la mthode.

La quantit = Pr (S(x) s / x G
1
) dsigne par consquent la
probabilit de considrer un individu comme ngatif alors quil est positif (faux
ngatif). Il sagit pour une mthode de score dun deuxime type de risque
derreur daffectation

Remarques

On peut aussi considrer la quantit = Pr (S(x) > s ) qui est la probabilit de
considrer un individu comme positif. Cest la proportion dindividus supposs
tre intresss par un nouveau produit dans une compagne marketing par
exemple.
Le meilleur modle (et donc la meilleure fonction de score) est celui
qui minimise les deux types de risque daffectation (les quantits et ) .
Les coefficients et changent lorsque le seuil s change. On les exprime
comme des fonctions de s : (s) et (s). Le seuil s est dtermin lextrieur du
modle notamment par des considrations dordre conomique.

Cours de mthodes de scoring- Hassen MATHLOUTHI Page 35

NB : En augmentant s, on rduit la probabilit de tomber sur des faux positifs
() mais on augmente la probabilit davoir des faux ngatifs (). A noter aussi
que le modle le plus performant est celui pour le quel les deux distributions
sont spares. En revanche, lorsque les deux distributions sont confondues, le
modle correspondant est le moins performant.

2. PRINCIPAUX OUTILS DE MESURE DE PERFORMANCE

Plusieurs outils de mesure de performance sont proposs par la littrature
statistique. On prsente dans ce qui suit trois de ces outils qui sont les plus
connus : la matrice de confusion, la courbe ROC et la courbe LIFT.

2.1 Matrice de confusion

On lappelle aussi tableau de classement. Elle prend la forme suivante :

Positifs Ngatifs Total
Considrs positifs n
11
n
12
n
1.
Considrs ngatifs n
21
n
22
n2.
.
Total n
.1
n
.2
n

Ces rsultats sont issus dun traitement de lchantillon de validation. A
partir de ce tableau, on calcule :
Le taux derreur de classement donn par : MC= (n
12
+n
21
) /n
Le taux de biens classs donn par : BC= (n
11
+ n
22
)/n

Remarques :
Ces taux doivent tre interprts en tenant compte des fluctuations
dchantillonnage
Il nya pas de rfrence servant de base pour la comparaison.

G1
G2
S(x)
s
1-
1-
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 36

2.2. La courbe ROC

Lappellation ROC vient des abrviations du nom anglais donn cette
courbe : ( Receiver operating caracteristics).

2.2.1 Dfinition

La courbe ROC est dfini par la reprsentation graphique de la proportion
(1-(s)) des positifs dtects par la mthode en fonction de la proportion des
faux positifs (s) lorsque s varie.

On peut noter daprs le graphique ci-dessus, que :
Lorsque (s) = 0, 1-(s) = 0
Lorsque (s) = 1 , 1-(s) = 1.
1-(s) et (s) voluent dans le mme sens.

Dune manire gnrale, la courbe ROC a cette allure

En pratique , la courbe ROC tant construite partir des donnes de
lchantillon de validation, les quantits 1-(s) et (s) sont remplaces par
leur estimations issues de ces donnes, soit respectivement la proportion des
faux positifs dans lensemble des ngatifs et la proportion des individus
considrs positifs dans lensemble des positifs.:

2.2.2 Utilisation

On peut noter que :

Lorsque les deux distributions de S(X) (dans les deux groupes) sont bien
distinctes, la courbe ROC est horizontale. En effet, lorsque (s) passe de 0 1
1-(s) prend toujours la valeur 1. (Modle le plus performant)
Lorsque les deux distributions de S(x) sont confondues, la courbe ROC
concide avec la premire bissectrice. (Modle le moins performant) . Ces
1
1
(s)
1-(s)
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 37

remarques conduisent considrer la surface sous la courbe ROC (AUC)
comme indicateur synthtique de la performance dun modle :
AUC 1 modle trs performant
AUC 1/2 modle non performant

Cet indicateur permet ainsi de choisir entre modles: On retient le modle
ayant le AUC le plus lev.

La surface AUC peut tre calcule en utilisant la mthode de trapzes une
fois que la courbe ROC est trace .Mais on pratique, on utilise la mthode des
paires concordantes. On dmontre en effet que : AUC= P(S
1
>S
2
) o S
1
et S
2

sont respectivement les scores de deux individus tirs dune manire
indpendante dans le groupe des positifs puis dans le groupe des ngatifs.

Dans les applications, cette probabilit est estime par la proportion des
paires concordantes. Si on note n
1
et n
2
le nombre dindividus dans le groupe
des positifs et dans le groupe des ngatifs. Le nombre de paires slve n
1
n
2
.
Parmi ces paires, celles o le score du positif dpasse celle du ngatif sont
appeles paires concordantes.

2.3. La courbe LIFT

Cette courbe est trs utilise en marketing. Elle peut servir aussi mesurer
la performance dune compagne de promotion dun nouveau produit. Elle est
alors dtermine partir des donnes de la population.

2.3.1 Dfinition

La courbe LIFT est dfini par la reprsentation graphique de la proportion
(1-(s)) des positifs dtects par la mthode en fonction de la proportion des
individus considrs positifs par la mthode (s) lorsque s varie.

On peut noter que :

Suite une rduction de s, (s) augmente. Cette augmentation se dcompose
en une augmentation de vrais positifs et en une augmentation des faux positifs
Lidal est lorsque lon enregistre que des augmentations des vrais positifs
suite une augmentation de (s) ( les distributions sont alors bien spares).
Cette situation est reprsente par un LIFT idal.
Lorsquon enregistre autant de vrais positifs que de faux positifs suite une
augmentation de (s), la mthode est non performante et est quivalente un
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 38

choix alatoire. Cette situation est reprsente par un LIFT concidant avec la
premire bissectrice (LIFT alatoire)

Dune manire gnrale, la courbe LIFT a lallure suivante :




2.3.2 Utilisation

Notons p
1
la proportion des positifs et donc (1-p
1
) la proportion des
ngatifs. La probabilit scrit alors :

(s) = (1-) p
1
+ (1-p
1
)

On peut dmontrer que la surface sous la courbe LIFT note AUL est
donne par :

AUL = p
1
/2 + (1-p
1
) AUC

Cette surface peut tre utilise comme une mesure de la performance dun
modle. On lui prfre la quantit Ki donne par :

alatoire) lift et idal lift entre (Surface
alatoire) lift et estim lift entre (surface
Ki =

En remplaant on trouve :

Ki = 2 AUC -1



1
1
(s)
LIFT alatoire
LIFT estim
Lift idal
1-(s)
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 39

3. ILLUSTRATION

Les donnes de lchantillon de validation, une fois quon a calcul le score
pour chaque individu, se prsentent ainsi par ordre dcroissant du score :

identifiant Groupe Score
(s)
(s) 1- (s)
1 positif 1 0.1 0 0.2
2 positif 0.9 0.2 0 0.4
3 positif 0.85 0.3 0 0.6
4 ngatif 0.7 0.4 0.2 0.6
5 positif 0.6 0.5 0.2 0.8
6 ngatif 0.55 0.6 0.4 0.8
7 positif 0.45 0.7 0.4 1
8 ngatif 0.3 0.8 0.6 1
9 ngatif 0.2 0.9 0.8 1
10 ngatif 0.1 1 1 1

3.1 Matrice de confusion

Pour un seuil s fix 0.4, la matrice de confusion se prsente ainsi :


prvu
Rel
Positifs Ngatifs Total
Positif 5 0 5
Ngatif 2 3 5
Total 7 3 10

On en dduit :


BC= 8/10 et MC= 2/10 ,









Cours de mthodes de scoring- Hassen MATHLOUTHI Page 40

3.2 La courbe ROC

La courbe ROC prend la forme suivante pour les donnes considres :



On en dduit directement,

AUC = 0.88

3.3 La courbe LIFT

En portant les points, on obtient :



On en dduit :
Ki = 0.76







0
0,2
0,4
0,6
0,8
1
1,2
0 0,5 1 1,5
0
0,2
0,4
0,6
0,8
1
1,2
0 0,2 0,4 0,6 0,8 1 1,2
Cours de mthodes de scoring- Hassen MATHLOUTHI Page 41


Bibliographie

Analyse discriminante : application au risque et scoring financier. Mireille
Bardos

Probabilits, analyse de donnes et Statistiques. Gilbert Saporta

Data mining et Scorig. Stphane Tuffery