Cours Scoring

UNIVERSITE DE CARTHAGE
ECOLE SUPERIEURE DE STATISTIQUE

ET DANALYSE DE LINFORMATION
Cours de mthodes de scoring
Prpar par Hassen MATHLOUTHI

Anne universitaire 2013-2014
Cours de mthodes de scoring- Hassen MATHLOUTHI
Page 1
AVANT PROPOS
Ce cours polycopi sur les mthodes de scoring est le rsultat dune
exprience denseignement de ce module durant ces dernires annes lEcole
de Statistique et dAnalyse de lInformation
Il profite galement de lexprience acquise travers lencadrement dans la
mme cole de projets de fin dtudes ayant port sur des applications de gestion
qui ont utilis les mthodes de scoring.
Ce cours reste nanmoins trs incomplet. Il ne traite en effet en tout que
deux mthodes de scoring qui sont la mthode danalyse discriminante de Fisher
et la mthode de discrimination logistique. Ces deux mthodes sont les plus
connues mais dautres mthodes galement intressantes existent dans la
littrature statistique et devraient tre aussi tudies par tout lecteur cherchant
approfondir ses connaissances en la matire.
Il reste galement assez thorique. En effet, les considrations dordre
pratique lies notamment lchantillonnage et aux techniques de slection des
variables explicatives ne sont que partiellement ou pas du tout abordes.
Dautre part et quoique ayant fait lobjet de plusieurs lectures et de
vrifications, ce cours risque de contenir quelques erreurs mathmatiques (et
erreurs de langue aussi). Je serais trs reconnaissant aux lecteurs me signalant
les ventuelles erreurs ou incomprhensions.
Lauteur
Page 2
TABLE DE MATIERES
Dsignation
Avant propos
Chapitre1 : Introduction gnrale
1. Prsentation des mthodes de scoring
2. Dmarche pratique
3. Porte et limites
Chapitre 2 : Lapproche gomtrique
1. Position du problme et notation
2. Concepts de base
3. Principe de classement
Chapitre 3 : Classifieurs Bayesiens
1. Elments de la thorie de la dcision
2. Classifieur de Bayes
3. Mise en application
Chapitre 4 : Analyse discriminante de Fisher
1. Prsentation
2. Modlisation
3. Estimation
Chapitre 5 : Analyse discriminante logistique
1. Prsentation
2. Modlisation
3. Estimation
Chapitre 6 : Validation dun modle de scoring
1. Concepts de base
2. Principaux outils
3. Illustration
Bibliographie.
Page
2
4
4
6
7
9
9
11
16
19
19
22
24
26
26
26
28
29
29
31
31
33
33
35
39
41
Page 3
Chapitre 1
INTRODUCTION GENERALE
Cette introduction gnrale a pour but de prsenter lobjet des mthodes de
scoring ainsi que leurs principales applications en gestion. La porte et les
limites de ces mthodes ainsi que la dmarche pratique pour leur mise en uvre
sont galement discutes.
1. PRESENTATION
Dans cette prsentation des mthodes de scoring, nous nous proposons de
dfinir lobjet de ces mthodes. Nous examinons par la suite les principales
applications des dites mthodes dans le domaine de la gestion des entreprises.
1.1 Objet
Selon le langage courant, le terme score peut signifier classement ,
rsultat , marque etc. En statistique, cest lide de classement qui est
surtout retenue.
Le scoring (statistique) se prsente en effet comme un ensemble de
mthodes conduisant un classement dindividus au sein de groupes
pralablement dfinis.
La notion de classement mrite son tour dtre lucide compte tenu des
confusions souvent constates avec le terme classification . Ce dernier terme
signifie en effet la mise en vidence de groupements inconnus dans une
population. En revanche, un classement dsigne toute mthode daffectation des
individus dune population dans des groupes dfinis priori.
Formellement, tant donn un ensemble dindividus pouvant tre dcrits
par un certain nombre de variables. Ces individus se rpartissent entre quelques
groupes dfinis priori. Un individu se prsente. On ne connait pas son groupe
dappartenance. Peut-on, sur la base des observations quil prsente vis--vis des
variables considres, prvoir le groupe auquel il appartient ?
Cest le problme auquel les mthodes de scoring cherchent donner une
solution. Une mthode de scoring se prsente en effet comme une technique
statistique permettant de classer un individu dans lun des quelques groupes
dfinis priori et ce au vu de certaines caractristiques de cet individu.
Page 4
Il sagit bien dune mthode de classement statistique car elle est base
dabord sur un traitement statistique des donnes issues dun chantillon
dindividus. Dautre part, les facteurs derrire lappartenance dun individu tel
ou tel autre groupe reste en partie inconnus.
En fait, les mthodes de scoring relvent de mthodes gnrales de
classement statistiques (et non de classification) comme lanalyse discriminante,
la rgression logistique, etc.
1.2 Domaines dapplication
Les techniques de scoring sont appliques dans plusieurs domaines comme
la mdecine, lagronomie, larchologie, linformatique, la gestion des
entreprises, etc.
Dans ce dernier domaine, deux principaux types de score sont utiliss : le
score dapptence et le score de risque.
1.2.1 Score dapptence
Utilis notamment en marketing, le score dapptence est une mesure de la
propension dacheter dun client.
En pratique, on utilise notamment ce type de score pour apprcier la
probabilit dun client dtre intress par un nouveau produit.
En effet, dans les domaines o il est possible datteindre directement (par
email, SMS, ou par voie postale par exemple) un grand nombre de clients
potentiels (tlphonie, services bancaires, etc.), la promotion de nouveaux
produits gagnerait tre cible auprs des clients les plus intresss.
Dans ce contexte, on est ainsi en prsence de deux groupes : celui des
clients qui sont intresss par le nouveau produit et celui des clients qui ne le
sont pas.
La construction dun score dapptence permet alors de prvoir le groupe
dappartenance des diffrents clients de lentreprise au vu de leur
caractristiques et partant :
De natteindre que les clients les plus rceptifs
Dviter dimportuner les clients non intresss
Ce qui assure une utilisation optimale du budget allou cet effet.
Page 5
1.2.1 Score de risque

Le score de risque ou de comportement est une mesure de la probabilit
pour un client de subir un certain vnement dfavorable pou lentreprise.
Lexemple typique est le crdit scoring utilis par les banques pour
apprcier les risques de non remboursement des crdits accords leurs clients.
Dans ce contexte, les groupes en prsence sont le groupe des bons clients et
celui des mauvais clients . Une mthode de scoring se prsente alors comme
un prcieux outil daide la dcision la disposition des banquiers leur
permettant lors de demandes de crdit par leur clients de dtecter si ces derniers
prsentent ou non un grand risque de non remboursement.
Ce type de score peut tre aussi utilis par les compagnies dassurance pour
apprcier le niveau de sinistralit dun nouveau client.
Lutilisation dun score de risque permet ainsi de rduire les impays. Elle
permet galement de fournir les bases dune tarification du risque.
2. DEMARCHE PRATIQUE
La mise en place dun systme de scoring passe par un certain nombre
dtapes quil convient de raliser.
2.1 Cas du score dapptence
Pour fixer les ides considrons le cas dune entreprise de tlphonie qui
projette de lancer un nouveau service (par exemple tlphoner moiti prix
entre 22 heures et six heures du matin moyennant une cotisation mensuelle de 5
dinars).
Comment procde t elle pour faire connaitre ce nouveau produit ? La
solution la plus facile est denvoyer un SMS prsentant ce produit lensemble
des abonns. Cette solution nest pas videmment la plus approprie car un
certain nombre de ces abonns nest pas intress.
Il serait plus judicieux de distinguer au pralable entre les clients non
intresss et les clients intresss et procder par la suite la promotion du
nouveau produit auprs de ces derniers.
Extraction dun chantillon de la base des donnes des clients de lentreprise
Dans le cadre dune enqute, prsenter le nouveau produit aux clients de
lchantillon et solliciter leur niveau dapptence.
Page 6
Utiliser la moiti des donnes de lchantillon (donnes indiques par la base

dune part et niveau dapptence fournies par lenqute dautre part) pour
modliser le score dapptence (expliquer le niveau dapptence comme une
fonction des caractristiques des clients)
Utiliser lautre moiti des donnes de lchantillon pour valider le modle de
scoring spcifi.
Calculer le score pour lensemble des clients
Cibler les clients les plus scors compte tenu du budget allou.
2.2 Cas du score de risque
La mise en place dun systme de crdit scoring dans une banque passe
priori par les tapes suivantes :
Extraire dans les dossiers de crdits accords dans le pass un chantillon
de bons clients et de mauvais clients
NB : On ne cherche pas respecter la structure de la population entre bons et mauvais
clients. On considre plutt pour le besoin de la modlisation un chantillon plus ou moins
galement rparti.
Analyse prliminaire des donnes issues de lchantillon choisi

(limination des erreurs et incohrences, recodage des variables, slection
des variables explicatives, etc.)
Utilisation de la moiti des donnes de lchantillon pour modliser le
score de risque (explication de la probabilit dtre un mauvais client
comme une fonction de ses caractristiques)
Utilisation de lautre moiti des donnes de lchantillon pour valider le
modle de scoring spcifi.
Fixation dun seuil de score en dca du quel un client est considr
comme mauvais .
NB : Ce seuil est gnralement fix travers un calcul conomique.
Application du modle adopt sur les nouvelles demandes de crdits.
3. PORTEE ET LIMITES
En pratique, on pourrait utiliser dautres mthodes plus ou moins
subjectives pour apprcier la probabilit dappartenance dun individu un
groupe donn.
Par rapport ces mthodes, les techniques statistiques de scoring
prsentent un certain nombre davantages et inconvnients dont les principaux
sont prsents ci aprs.
Page 7
3.1 Principaux avantages

Par rapport un systme de notation subjective, le scoring statistique
prsente les avantages suivants :
Evaluation quantitative de la probabilit dappartenance ce qui permet
dordonner les individus.
Caractre immuable (fixe) des rsultats
Cohrence des rsultats : deux individus ayant les mmes caractristiques
auront le mme score.
Caractre explicite : mthodologie dvaluation pouvant tre clairement
prsente.
Prise en compte de plusieurs facteurs de risque.
Aptitude dtre teste au pralable
Explication du lien existant entre le niveau de risque et les facteurs de risque
Aptitude donner lieu des calculs sur les effets sur la rentabilit de
lentreprise.
3.2 Principaux inconvnients
Les mthodes statistiques de scoring soufrent nanmoins de quelques
insuffisances dont entre autres :
La dcision pouvant tre prise suite lutilisation des mthodes de scoring est
base sur une probabilit et non sur une certitude
Les mthodes statistiques de scoring supposent comme toute autre mthode
statistique que le futur est identique au pass.
Le risque est expliqu par les seules variables disponibles
Il existe un vrai problme de biais de slection dans llaboration dune
mthode de crdit scoring. En effet, les dossiers refuss ne sont pas pris en
considration.
Lapplication dun systme de scoring ncessite un grand nombre de donnes
et de variables statistiques et serait de ce fait impossible raliser sans loutil
informatique.
La mise en place dun systme de scoring dans une entreprise nest pas
toujours facile raliser du fait de la ncessit de son intgration informatique
avec les autres systmes dinformation.
Remarque : dans tous les cas, il convient de se rappeler que la statistique est
juste un outil daide la prise de dcision et ne permet en aucun cas darrter
cette dcision.
Page 8
Chapitre 2
APPROCHE GEOMETRIQUE
Ce chapitre prsente la mthode de scoring la plus intuitive. Il sagit en
effet dune mthode simplement base sur des outils gomtriques et
statistiques.
La rgle daffectation qui se dduit de cette approche gomtrique se
prsente comme un cas particulier important de la mthode danalyse
discriminante de Fisher qui sera examine en dtail plus loin dans ce cours.
1. NOTATION ET POSITION DU PROBLEME
Lobjet de cette section est de placer le problme de classement dans un
cadre gomtrique. Pour ce faire, nous devons au pralable fixer les notations.
1.1 Notations
On considre une population E compose de n individus. On collecte
auprs de ces individus des donnes relatives p variables quantitatives. La
donne relative la variable j chez lindividu i est note xi,j
Lensemble des donnes collectes peut alors tre reprsent par un tableau
ayant la forme suivante :
x1,1 x1,2 x1,j x1,p
x2,1 x2,2 x2,j x2,p

xi,1 xi,2 xi,j xi,p
xn,1 xn,2 xn,j xn,p

o par convention, on a plac les p donnes relatives lindividu i dans la ligne
n i (et donc les n donnes concernant la variable j dans la colonne n j)
Pour la formalisation mathmatique, ce tableau est identifi une matrice
X de n et p dimensions. De mme, on identifie la colonne n j de ce tableau,
reprsentant la variable j, un point de Rn quon note Xj . Pareillement, on
identifie la ligne n i reprsentant lindividu i de ce mme tableau un point
de Rp . Ce point est not X(i)
Page 9
Les points variables Xj forment un nuage de p points dans de Rn. Il en est

de mme en ce qui concerne les points individus qui forment un nuage de n
points de Rp.
, , . , ,
, , . , ,
..
X = . , Xj =
,
,
, ,
.
, , . , ,
,
,
,
,

et X(i) =
,
,
.
.
,
,
Illustration gomtrique : On considre un nuage de 5 individus dcrits par

deux variables ( p=2)
6
4
2
0
-4
-2
-2 0
-4
-6
On observe galement auprs de chacun des n individus son appartenance

lun des m groupes E1, E2,,Ek, ,Em dfinis priori. Un individu appartient
un et un seul groupe. On a ainsi :
et Ek El = k l. Si on note
n1, n2,,nk, ,nm les effectifs respectifs des m groupes considrs, on a ainsi :

Les donnes disponibles concernent aussi les poids pi associs chaque
individu i. Ce poids mesure limportance relative de lindividu dans lanalyse
effectuer. On a par dfinition :

0 1 ! " 1

Un cas particulier important est celui o les poids sont uniformes :

1
1

Page 10
Remarques
Le poids dun groupe est naturellement dfini par la somme des poids des
individus format ce groupe :
# $%& .
Dans le cas uniforme # & Les poids associs aux groupes ne sont

pas uniformes car les effectifs des groupes ne sont pas en gnral gaux.

1.2 Position du problme

Etant donn un nouvel individu dont on ne connait pas le groupe
dappartenance. Soit x =' , , . , , ( ses coordonnes.
Le problme pos consiste prvoir le groupe dappartenance de cet
individu au vu de ses caractristiques dfinies par x.
Il convient de signaler quil sagit dune prvision et non dune
dtermination du groupe dappartenance. Il ya donc un risque de procder un
classement erron.
2 CONCEPTS DE BASE
Utilisant le systme de notation sus prsent nous donnons dans ce qui suit
les concepts statistiques et gomtriques ncessaires pour dfinir la mthode de
classement considre.
2.1 Moyennes arithmtiques et centre de gravit
Pour chaque variable Xj on calcule sa moyenne arithmtique

) " ,

NB : Dans le cas uniforme, cette formule prend la forme habituelle

,
)

Le vecteur g des p moyennes arithmtiques est appel centre de gravit du

nuage des individus : g = () , ) , , ) , , ) (. Ce point dfinit un nouvel
Page 11
individu. Cest lindividu moyen. Dans la suite, on suppose que g = (0,0,,0).

Cette hypothse a lavantage de simplifier les calculs sans modifier les rsultats
de lanalyse.
Remarque : Pour satisfaire cette hypothse en pratique, on commence par
centrer le nuage des individus. On pose cet effet
, * , + *,
o les * , dsignent les donnes initiales.
On calcule galement pour chaque variable Xj sa moyenne arithmtique

dans chaque groupe k
)
-01
&
- . -,/
2&
Cela permet de dfinir un centre de gravit pour le sous nuage associ ce

groupe, soit
gk = ') , ) , , ) , , ) (
Remarque : avec des poids uniformes, on a :
)
0%& ,

Ce point de Rp sidentifie ainsi avec lindividu moyen du groupe k. On le

considre comme le reprsentant de ce groupe.
On a la proprit suivante : La moyenne de la population concide avec
la moyenne pondre des moyennes des groupes, les pondrations tant les
importances numriques des groupes :

) " # )

Il sensuit que :
3
# 3
(= 0 si le nuage est centr)
Page 12
2.2 Matrice de variances et covariances

La variance de la variable j est dfinie par :

4 " ' , + 65 (

soit en dveloppant

4 ' ,
( + 65
Remarque : Avec des donnes centres, on a

4 ,
.
Lorsquen plus les poids sont uniformes, la formule se simplifie

davantage :

,
1
4
7 7

La covariance des variables j et h est donne par :
8,9 " : , + 65 ;' ,9 + )9 (

NB : Avec des poids uniformes, on a :

8,9
, ,9

+ ) )9

ou encore si le nuage est centr :

8,9
, ,9
1

7 79

On note V la matrice de variances et covariances :
4 8, . 8, 8,

8 4 . 8, 8,
,

.

V=
8, 8, . 4 8,
.
8, 8, . 8, 4
Page 13
On peut remarquer quen prsence dun nuage centr et des poids

uniformes, on a :
1
4 77

On sait que cest une matrice symtrique dfinie positive, inversible sauf
sil existe une relation linaire entre les variables. De mme on dfinit pour
chaque groupe k une matrice de variances et covariance spcifique, soit

4 8,
. 8,
8,

4 . 8,
8,
8,

.

Vk=
8 8 . 4 8

,
, ,
.

8, 8, . 8, 4
4
et
(4
-01
&
&
<
.-,/

8,9

'8,9

&
&
2&
+ :) ;
+ :) ; si les poids sont uniformes)
-01 .-,/ .-,=

&
<
-01 - .-,/
0%& , ,9
#
+ ) )9
+ ) )9 si les poids sont uniformes)
Remarque: les moyennes ne sont pas nulles car les sous nuages ne sont pas
centrs.
Soit W la matrice dfinie par la moyenne arithmtique des variances Vk .
Cette matrice est appele matrice des variances et covariances intra groupes:

> " # 4

A signaler que la matrice W est en gnral inversible.

On dfinit galement une autre matrice B appele matrice des variances et
covariances intergroupes. Cest la matrice des variances et covariances calcule
Page 14
au niveau des reprsentants des diffrents groupes. A rappeler que chaque

reprsentant dun groupe deux est caractris par les moyennes des variables
considres dans le groupe considr, c'est--dire le centre de gravit de ce
groupe. Les donnes concernant les reprsentants des groupes peuvent tre
consignes dans une matrice G prenant la forme suivante :
) ) . ) )

) ) . ) )
.
G=
) ) . ) )

.

) ) . ) )
La matrice B est alors dfinie comme suit :
?
?
?
4? 8,
. 8,
8,
?
?
?
?
8, 4 . 8, 8,
..
B=
8? 8? . 4? 8?

,
, ,
.
?
?
?
?
8, 8, . 8, 4

4?
65 (
# ') +
# ') (
et

?

8,9

65 ;' )9 +
,,,(
9 # ) )9
# :) +
car le nuage est centr.

On peut vrifier que :
@
# 3 3 .
Cest une matrice carre de dimension p mais en en gnral de rang

infrieur p. Cette matrice nest donc pas en gnral inversible.
Page 15
On a le rsultat important suivant connu sous le nom de formule de

lanalyse de la variance :
V= W + B.
Cette proprit snonce ainsi : les variances (et covariances) totales (au
niveau de la population) telles que prsents par la matrice V concident avec
la somme des variances (et covariances) intragroupes (au sein des groupes)
donnes par la matrice W et des variances (et covariances) intergroupes (entre
les groupes) fournies par la matrice B.
2.3 Mtrique
Pour dfinir la distance, non ncessairement euclidienne, entre deux
individus e et f, on a besoin dune mtrique M. Il sagit dune matrice
symtrique dfinie positive de dimension p:
d(e,f) = (e-f)M(e-f).
La norme associe cette distance est alors donne par :
|| e || = d(o,e) = eMe
Remarque : Lorsque M =I, matrice identit, on a la distance euclidienne
3. PRINCIPE DE CLASSEMENT
Rappelons quon cherche classer un nouvel individu dans lun des m
groupes sur la base des donnes relatives aux p variables considres telles que
observes chez cet individu.
Lapproche gomtrique, connue sous le nom de rgle de Mahalanobis
Fisher, consiste tout simplement classer cet individu dans le groupe le plus
proche. On sait quun individu et un reprsentant dun groupe sont deux points
de Rp. Le groupe recherch est donc celui pour le quel la distance entre son
centre de gravit et le point individu concern est la plus faible.
La mtrique considre pour calculer cette distance est celle de
Mahalanobis dfinie par linverse de la matrice intra groupes W.
La rgle daffectation prend une formulation particulire lorsquon est en
prsence de deux groupes seulement. Aussi, distingue t- on dans ce qui suit le
cas gnral du cas de deux groupes.
Page 16
3.1 Cas gnral

Soit x = (x1, x2,.., xj,, xp) les coordonnes du nouvel individu. Dsignons
par d(x,gk) le carr de la distance entre x (le nouvel individu) et gk (le centre de
gravit du groupe k). Par dfinition, lon a :
d(x,gk)= (x-gk)W-1(x-gk)
do en dveloppant :
d(x ,gk)= xW-1x + gkW-1gk-2xW-1gk
On note que le premier terme du second membre de lgalit prcdente
(xW-1x) ne dpend pas des groupes. On peut donc ne pas en tenir compte et se
limiter la quantit :
Sk(x) = xW-1gk gkW-1gk
En calculant ces quantits pour k = 1 m et les triant selon lordre
croissant, on identifie le groupe pour le quel cette quantit est la plus grande.
Cest ce groupe qui dfinit le groupe daffectation de lindividu considr.
On peut noter que lexpression prcdente est une fonction linaire des
coordonnes du nouvel individu :
H
AB 'C( DB E "
GI
FBG CG
ce qui constitue un avantage pratique important du fait de la simplicit des

calculs effectuer.
3.2 Cas de deux groupes
Soit x = (x1, x2,.., xj,, xp) les coordonnes du nouvel individu. Cet
individu est ainsi affecter au groupe 1 lorsque
d(x,g1) < d(x,g2)
soit en remplaant,
xW-1x + g1W-1g1-2xW-1g1 < xW-1x + g2W-1g2-2xW-1g2
Do en simplifiant et en factorisant on trouve,
Page 17
(g1-g2)W-1(x- (g1+g2)) > 0

On remarque que le premier membre de cette ingalit est une fonction linaire
de x. En notant cette fonction S, lindividu dont les coordonnes sont donnes
par x est ainsi affecter dans le groupe 1 lorsque :
S(x) > 0 ( et donc affecter au groupe 2 lorsque S(x) < 0).
La fonction S est communment appele fonction de score.
Page 18
Chapitre 3
CLASSIFIEUR BAYESIEN
Le problme de classement dun individu sur la base de ses caractristiques
dans lun de quelques groupes dfinis priori peut tre plac dans un cadre
probabiliste. Il sera ainsi possible dutiliser tous les outils de la thorie de
probabilit dont en particulier les mthodes de choix dans lincertain.
Un avantage important de lapproche probabiliste par rapport aux mthodes
gomtriques prsentes dans le chapitre prcdent est alors de permettre
dapprcier quantitativement les risques de mauvais classement.
1. ELEMENTS DE LA THEORIE DE DECISION
On considre une population E de n individus rpartis entre m groupes E1,
E2,,Ek, ,Em dfinis priori :
et Ek El = k l. Si on note
n1, n2,,nk, ,nm les effectifs respectifs des m groupes considrs, on a ainsi :

Soit un individu e de E, dont on ne connait pas le groupe dappartenance et
quon cherche classer dans lun des m groupes. Cet individu peut tre
considr comme le rsultat dune exprience alatoire de tirage au hasard dun
lment de E.
Vu de cette manire, le problme de classement peut tre plac dans le
cadre de la thorie probabiliste. Lensemble E se prsente ainsi comme un
ensemble de rsultats possibles dune exprience alatoire auquel on peut
adjoindre une tribu et une probabilit P pour former un espace probabilis.
1.1 Etats de la nature :
Pour un individu e dont on ne connait pas le groupe dappartenance, on
dfinit m tats de la nature, c'est--dire des ventualits, concernant son groupe
dappartenance. Ces tats de la nature sont nots : k : lindividu e Ek et on
dsigne par ={1,2,k,,m} lensemble des tats de la nature. Soit T une
application de E dans associant chaque individu son tat de la nature.
On peut considrer T comme une variable qualitative prenant les modalits 1
,2,k,,m et les probabilits priori dappartenance au groupe k : pk =
P(T= k) comme sa loi de probabilit.
NB : T est non observable.
Page 19
1.2 Espace des observations :

Soit x = ( x1, x2,, xj ,,xp) un vecteur de p observations relevs
auprs de lindividu e. On peut considrer x comme une ralisation dun vecteur
alatoire X= ( X1, X2,, Xj ,,Xp). On note
={ x Rp / x ralisation de X). Cest lespace des observations. La variable X
est alors une application de E dans (vrifiant les conditions de mesurabilit).
1.3 Espace des dcisions :
On a affecter un individu e dans lun des m groupes. Cest une dcision.
On note ak la dcision daffecter lindividu e dans le groupe k. On note A
lensemble des dcisions : A={a1,a2,ak,,am}
1.4 Rgle de dcision :
Cest une mthode de classement (on dit aussi classifieur). Formellement,
cest une application de dans A. On note cette application. Techniquement,
cest un procd permettant de prendre une dcision a au vu de la ralisation
x de X : a=(x).
Nb : Comme x rsulte du hasard a=(x) rsulte aussi du hasard. Aussi, dfinit
on la variable alatoire Y =(X) qui prend les valeurs a1,a2,ak,,am avec des
probabilits dfinies par :
P( Y=a) = P(x / a=(x)}=P(-1(a)).
1.5 Fonction de perte :
A chaque rgle de dcision on associe une fonction de perte dfinie par une
application L de (A, ) dans R+ : L(ak, l) 0. On linterprte comme la perte
(ou le cot) supporte en affectant e au groupe k alors quen ralit il appartient
au groupe l. On note que L(ak, k) = 0 pour tout k = 1 m. Dautre part, comme
ak et l rsulte du hasard, la perte encourue z = L(ak, l) rsulte aussi du hasard.
Cest une ralisation dune variable alatoire Z = L(Y,T). Dans la suite, on est
amen calculer la perte moyenne dune rgle de dcision :
E(Z) = Q P J'K L, M N(O'L, N(
" " J'7 , M N(O'R'(, N(
S
Page 20
1.6 Illustration :
E est lensemble des champignons pouvant tre rcolts dans un foret. On
suppose que ces champignons appartiennent deux groupes. E1 : les
champignons combustibles et E2 : les champignons vnneux. On observe sur
les champignons une seule variable alatoire X, prenant les valeurs 3, 5 et 8 (par
exemple leur diamtre exprim en cm). On suppose disposer des lois
conditionnelles de X sachant T= et de la loi marginale de X :
X / T= 1
9/10
1/10
0
3
5
8
X / T=2
0
1/4
3/4
X
3/4
1/8
1/8
ainsi que la loi de T : / P(T=1) = 5/6 et P(T=2) = 1/6.

On cueille un champignon e. Soit deux dcisions a1 : Manger ce
champignon a2 : Ne le pas manger . On suppose que les cots sont comme
suit :
a1
a2
0
1
1
200
0
2
Considrons enfin la rgle de dcision suivante :
(x) = a1 si x =3 et (x) = a2 si x > 3.
Trouvons la loi de Y = (X), la loi du couple (T,Y) et E(Z).
Loi de Y
Y
P(Y=ai)
a1
3/4
a2
1/4
Loi de (T,Y)
1
2
Y
a1
3/4
0
3/4
a2
1/12
1/6
1/4
T
5/6
1/6
1
On calcule E(Z) =1/12

Page 21
2 CLASSIFIEUR DE BAYES
2.1 Dfinition :
Etant donn un espace dtats de la nature , un espace dobservations ,
un espace de dcision A et une fonction de perte L, le classifieur de Bayes est la
rgle de dcision minimisant la perte moyenne parmi toutes les rgles de
dcision possibles.
Soit lensemble de toutes les rgles de dcisions possibles de dans A.
Le classifieur de Bayes * est donc tel que :
E(L(*(X),T)) E(L( (X),T))
2.2 Caractrisation :
Proposition
Soit 0 minimisant E(L( (X),T)/X=x) x alors 0 minimise E(L(
(X),T)).
Preuve :
E(L(0 (X),T)/X=x) E(L((X),T)/X=x) x et

Ex(E(L(0 (X),T)/X=x)) Ex(L((X),T)/X=x)
E(L(0 (X),T)) E(L( (X),T))
La rgle de Bayes est donc telle que :

E(L(*(X),T)/X=x) E(L((X),T)/X=x) x et
Soit donc,

?

O'R '( , N (P'T V /X x( Z O'R'( , N (P'T V /X x(
x et
Or daprs la formule de Bayes,

[& '.(
Do en remplaant,
P(T=k /X=x) = \ &
&]^ & [& '.(
Page 22

?

O'R '( , N ( _ '( Z O'R'( , N ( _ '( x et
Ainsi, tant donn un individu e et xe la ralisation de X chez cet individu.

Notons al* la dcision prise au vue de xe si on applique la rgle de Bayes
(al* =*(xe)) et al la dcision prise au vue de xe si on applique une autre rgle
(al= (xe)). Comme L(ak, k) = 0 k = 1 m, on a ainsi :

" O'*`? , N ( _ '( Z " O'*` , N ( _ '( b c b ?

a`?
a`
Do la rgle pratique suivante, tant donn un individu e de caractristiques x :

On commence par calculer la quantit :

O'*` , N ( _ '( pour chaque groupe l = 1 m.
a`
Le groupe retenir pour laffectation de lindividu e est celui pour le quel cette
quantit est la plus faible.
2.3 Cas particulier important
Les cots varient dune application une autre. Si lon suppose que les
cots sont gaux, la rgle de Bayes prend une formulation assez simple. En
effet, en dveloppant la formule prcdente on trouve:

O'*`? , N` (` _` '( E " O'*`? , N ( _ '(

a`?
a`
Z O'*`? , N`? (`? _`? '( E " O'*` , N ( _ '( b c b ?
Aprs simplification, on obtient:
a`
a`?
` _` '( Z `? _`? '(

Soit aprs division des deux membres par
_ '(,
P'T d /X x( P'T d ? /X x(
Ce qui signifie que le classifieur de Bayes affecte lindividu e au groupe

pour le quel la probabilit dappartenance posteriori est la plus leve.
Page 23
Bien que lhypothse dgalit des cots ne soit pas plausible, cest cette
rgle qui est la plus retenue en pratique. Ainsi, tant donn un individu e et x ses
caractristiques,
On commence par calculer la quantit
Ck(x) = pkfk(x) pour k =1 l.
Le groupe daffectation de e est celui pour le quel la quantit Ck(x) est la
plus leve.
Remarques :
Toute transformation monotone de Ck(x) peut tre considre comme une
fonction donnant le score de e dans Ek. En particulier, la transformation
Logarithme est souvent utilise pour les facilits de calcul quelle permet.
Dans le cas de deux groupes (k=1,2), la rgle daffectation prcdente est
quivalente la suivante : On affecte lindividu e au groupe 1 si :
R(x)= [p1.f1(x)/ p2.f2(x)] > 1
Ou ce qui est quivalent en passant aux logarithmes, si
r(x)=Ln(p1/p2) +L n(f1(x)/f2(x)) > 0
3. MISE EN APPLICATION
Pour la mise en application du classifieur de Bayes, il faut disposer des
probabilits priori pk et des probabilits conditionnelles fk. En pratique, ces
grandeurs sont en gnral inconnues. Il convient en consquence de les estimer
partir de donnes issues dun chantillon.
On peut procder une estimation directe de ces probabilits dans le cas
o X= ( X1, X2,, Xj ,,Xp) est discret et p petit (estimation non
paramtrique)
Rappelons que lon a estimer :
pk = P(e Ek) k = 1 m
fk(x) = P( X=x/ Ek) k = 1 m et x
NB : lensemble est fini .Il est dfini par le produit cartsien
= 1 2 j p
ou j est lespace des observations relatives la variable Xj. Cest un ensemble
fini contenant les modalits de cette variable puisque celle-ci est discrte.
Page 24
On peut utiliser comme mthode destimation la mthode du maximum de

vraisemblance qui conduit estimer ces probabilits par leur quivalent
empirique, soit :

e & o nk est leffectif du groupe Ek et n est leffectif total dans

lchantillon
'.(
_f '( & ou nk(x) est leffectif dans Ek prsentant la modalit x.

&
Remarques importantes :
En pratique, cette mthode nest possible quavec un nombre trs limit de
groupes et de variables. En outre, ces variables doivent prsenter galement un
petit nombre de modalits. Pour fixer les ides, supposons quon est en prsence
de 5 variables prsentant chacune 8 modalits et que le nombre de groupes est 3.
Le cardinal de est alors de 85. Le nombre de quantits _f '( calculer slve
alors 3.85 ce qui est impossible raliser mme avec un ordinateur.
On peut considrer des variables continues condition de les discrtiser en
dfinissant des classes de variation. Mais, se pose alors le problme de
dfinition de ces classes.
Une hypothse a t propose pour rduire le nombre de paramtres estimer.
Elle consiste supposer lindpendance des variables prises en considration.
Sous cette hypothse, on a en effet seulement les probabilits marginales
estimer. La mthode daffectation qui en rsulte porte le nom de classifieur
Bayesien naf.
Annexe : Formule de Bayes
Dsignons par :
pk : Probabilit dappartenance au groupe k . pk = P( e Ek)
Cette probabilit est appele probabilit priori .
fk(x): la densit de probabilit du vecteur X dans le groupe k (Il sagit
dune densit conditionnelle) lorsque X est absolument continue ou la
probabilit de lvnement X=x dans le groupe k lorsque X est discret
(fk(x) = P(X=x/ e Ek).
La formule de Bayes permet dexprimer la probabilit posteriori dappartenir
au groupe k sachant que la variable prend la valeur x :
[ '.(
P(e Ek / X(e) = x) = \ & &
&]^ & [& '.(
Page 25
Chapitre 4
ANALYSE DISCRIMINANTE
DE FISHER
Cette mthode est la plus ancienne des mthodes statistiques de classement.
Remontant aux travaux de Fisher en 1936, elle permet de classer les individus
dune population entre diffrents groupes dfinis priori au vu de donnes
relatives des variables quantitatives.
1. PRESENTATION
Cette mthode se prsente comme une application du classifieur de Bayes
dans le cas o les descripteurs X sont des variables alatoires continues et sont
supposes suivre, conditionnellement chaque groupe Ek , une loi normale de
moyenne k et une matrice de variances et covariances k.
Cest donc une mthode o les probabilits conditionnelles estimer sont
supposes relever de lois de probabilits donnes mais dpendant nanmoins de
paramtres inconnus estimer partir des donnes mises disposition
(estimation paramtrique).
2. MODELISATION
Dans les applications, on distingue en fait entre deux modles danalyse
discriminante selon que lon suppose que les k sont diffrentes dun groupe
un autre (modle htroscdastique) ou que ces matrices sont identiques (modle
homoscdastique).
2.1 Modle htroscdastique
Avec un modle htroscdastique, les densits conditionnelles scrivent,
tant donn x Rp :
fk(x) =(2)(-p/2) (detk)(-1/2) exp(-1/2)(x-k) k-1(x-k)
On en dduit directement les fonctions Ck(x) :
Ck(x) =pk(2)(-p/2) (detk)(-1/2) exp(-1/2)(x-k) k-1(x-k) .
Page 26
Soit, aprs passage aux logarithmes (ce qui ne change pas la rgle
daffectation) :
Sk(x)= Ln(pk ) (1/2)Ln(detk)-(1/2)(x-k) k-1(x-k)
Cette quantit est calculer pour chaque groupe k =1 m. Le groupe
daffectation est alors celui pour le quel cette quantit est la plus leve.
Remarques : La fonction Sk(x) est bien une fonction de x. On lappelle la
fonction de classement ou la fonction discriminante ou encore la fonction de
score. On note quelle est de type quadratique.
2.2 Modle Homoscdastique
Lhomoscdasticit du modle signifie que les k sont supposes identiques
(k = , k = 1 m). En pratique, il convient au pralable de tester cette
hypothse.
La fonction de score se simplifie. En effet, lon a :
Sk(x)= Ln(pk ) (1/2)Ln(det)-(1/2)(x-k) -1(x-k)
soit en dveloppant,
Sk(x)= Ln(pk ) (1/2)Ln(det)-(1/2)[ x -x1-x -1k -k -1x+k -1k]
Les termes ne dpendant pas de k peuvent tre omis car ils ne changent pas
le classement. On peut alors dfinir la fonction de score ainsi :
Sk(x)= Ln pk +k -1x (1/2)(k -1k).
On note que dans ce cas, la fonction de score est linaire ce qui constitue
un avantage pratique important.
Remarques importantes :
Lorsquon suppose en plus que les probabilits priori sont gales, on peut
liminer les termes correspondants dans la fonction de score. On retrouve alors
la rgle gomtrique de Fisher Mahalanobis.
Dans le cas de deux groupes, la rgle prcdente est quivalente la
suivante : On affecte lindividu e au groupe 1 si
r(x)=Ln(p1/p2) +Ln(f1(x)/f2(x)) > 0
Page 27
soit aprs remplacement et simplification :

r(x)=Ln (p1/p2) +(
1- 2)
-1x - (
1- 2)
-1 (
1+ 2) > 0
On note quil sagit dune fonction linaire
3. ESTIMATION
En pratique, on ne connait pas les pk, ni les k, ni les k. On cherche les
estimer.
Leur estimation par leur quivalent empirique (mthode du maximum de
vraisemblance) donne :
jB
jB
j
fB
f
h B , k
h B iB , H
g
lB , k
m
j
jB + I
j +B
o les gk et les Vk sont dfinies comme dans le chapitre prcdent partir
dobservations sur les p variables dans un chantillon de n individus rpartis en
m groupes dfinis priori.
NB : lorsque les effectifs nk sont levs, on peut ne pas tenir compte des facteurs
correctifs dans lestimateur de la variance en posant :
o 4 , o >
Annexes : Loi normale multidimensionnelle.
Soit X= ( X1, X2,, Xj ,,Xp) un vecteur alatoire p dimensions. On note
= (1, 2,, j ,, p) le vecteur des esprances et
4 8, . 8, 8,
8 4 . 8, 8,
,

.
la matrice de variances et covariances.
=
8, 8, . 4 8,
.
8, 8, . 8, 4
On dit que X est un vecteur normal ( X N(,) si :

U Rp, UX
est une variable alatoire relle suivant une loi normale (unidimensionnelle).
Lorsque est inversible, X admet une densit de probabilit ayant la forme
suivante :
f(x) =(2)(-p/2) (det)(-1/2) exp(-1/2)(x-) -1(x-) x Rp.
Page 28
Chapitre 5.
ANALYSE DISCRIMINANTE
LOGISTIQUE
Lanalyse discriminante logistique est une autre mthode de
classement aussi connue que la mthode danalyse discriminante de
Fisher. Tout en reposant sur le principe bayesien de classement, elle se
distingue toutefois de cette dernire en procdant plutt modliser
les probabilits posteriori et non les probabilits conditionnelles.
1. PRESENTATION
1.1 Hypothse de base
Il a t dmontr que dans le cas de deux groupes, la rgle de dcision de
Bayes est telle quon affecte un individu x au groupe 1 si :
O
_ '(
p q 'rst!*! (
_ '(
o f1 et f2 sont les densits du vecteur X respectivement dans les groupes E1 et

E2.
En supposant la normalit et lhomoscdasticit de X, on peut montrer que
cette rgle prend une forme linaire :
uv p r
(c tant une constante)
La linarit dun score constitue un avantage important en pratique du fait

notamment de la facilit de mise en uvre informatique. Nanmoins les
hypothses de normalit et dhomoscdasticit peuvent savrer dans certains
cas peu ralistes et inadaptes.
Cependant, tout en restant dans le cadre Baysien, il peut tre not que la
linarit du score peut tre obtenue sous dautres hypothses concernant les lois
conditionnelles. Ainsi par exemple si on a une seule variable X de type discret
suivant une loi de Bernoulli de paramtres 1 dans le groupe E1 et 2 dans le
groupe E2, la rgle de Bayes scrit :
Page 29
#. '1 + # (.
O .
p r 'rst!*! (
# '1 + # (.
ce qui donne :
wO
#
1 + #
1 + #
+ O
pr
x E O
#
1 + #
1 + #
qui est bien une fonction linaire des observations.

Lanalyse discriminante logistique, nimpose aucune loi particulire
suivre par les descripteurs. Elle se donne comme hypothse de base la linarit
du logarithme du rapport de vraisemblance :
O
_ '(
yv
_ '(
Elle est ainsi plus gnrale que lanalyse discriminante baysienne avec
normalit et homoscdasticit des descripteurs.
1.2 Expression de la probabilit postriori
Lorsque le score est linaire, les probabilits postriori prennent une
forme particulire qui est celle de la loi logistique. En effet, notons p(x)
(respectivement q(x)) la probabilit postriori dappartenance au groupe E1
(respectivement E2) :
_ '(
'( J' 0 \7 (
_ '( E _ '(
Soit, en divisant numrateur et dnominateur par f2(x)p2 et compte tenu de
lhypothse de linarit de logarithme du rapport de vraisemblance :
avec 0 = ln (p1/p2)
'(
. {|}|~
1E
. { |}|~
Un dveloppement similaire conduit :

'(
1E
. { |}|~
Page 30
Ce qui montre que les probabilits postriori prennent la forme de la

fonction de rpartition dune loi logistique (do dailleurs lappellation
logistique) .
Remarques
Poser que la score est linaire quivaut donc supposer que les
probabilits postriori sont logistiques
Lanalyse discriminante logistique consiste estimer ces probabilits
partir des donnes. Elle se distingue ainsi de lanalyse prcdente dont
lobjet est lestimation des lois conditionnelles
On se base toujours sur le principe bayesien : lindividu est affecter au
groupe pour le quel la probabilit postriori dy appartenir est la plus
leve. Cela suppose au pralable que lon dispose dune estimation des j
j=0 p
2. MODELISATION
Lestimation du score passe par lestimation dun modle conomtrique
connu sous lappellation de modle Logit.
Pour simplifier la prsentation, nous considrons dans ce qui suit le cas de
deux groupes (la gnralisation plusieurs groupes peut tre opre assez
directement). Considrons la nouvelle variable alatoire relle Y dfini par :
{Y=1 si lindividu au groupe 1 ; Y= 0, sinon}
On note que la variable Y suit, conditionnellement X =x, suit une loi de
Bernoulli de paramtre p(x) = P(Y= 1/X =x), do :
P(Y=y/X=x) = p(x)y(1-p(x))1-y y {0,1}
'(
O
u v E v
1 + '(
Le modle postule que :
Remarque : On note que cette dernire criture quivaut lhypothse selon

laquelle les probabilits posteriori sont logistiques.
3. ESTIMATION
On utilise la mthode du maximum de vraisemblance pour ses bonnes
proprits asymptotiques.
Soit un chantillon indpendant de n observations :
Page 31
(y1,x1,1,x1,2,,x1,j,,x1,p), (y2,x2,1,x2,2,..,x2,j,..,x2,p), ...,(yi,xi,1,xi,2,,xi,j,,xi,p),...,

(yn,xn,1,xn,2,,xn,j,,xn,p).
La vraisemblance de cet chantillon est par dfinition sa probabilit de
ralisation :
4'L, , v( J'K L , 7 (, , 'K L , 7 (, , 'K L , 7 (]
Soit compte tenu de lindpendance de lchantillon,

4'L, , v( J'K L , 7 (

Ou encore,

4'L, , v( J'K L /7 (J' 7 (

Soit, en passant aux logarithmes :

O4'L, , v( " OJ'K L /7 ( E " O J' 7 (

Do en remplaant,

O4'L, , v( " O' (- '1 + ' ((- E " O J' 7 (

Soit aprs dveloppement et compte tenu du modle (expression de

p(xi)) :
O4'L, , v( "'L u v E v + O1 E

.- { |}|~
( E " O J' 7 (

La maximisation de L passe par lannulation de ses drives premires :

'',,((
y x,
x, .
{
} - ~
=0
La solution de cette quation ne peut pas tre dtermine explicitement. On

utilise cet effet un algorithme de rsolution numrique, le plus connu tant
lalgorithme de Newton Raphson.
Page 32
Chapitre 6
VALIDATION
DUNE METHODE DE SCORING
Une fois un modle ou plusieurs modles de scoring sont estims, il
convient danalyser leurs performances avant de les valider pour tre utiliss
comme outil daide la dcision.
Lanalyse de performances, lissue de la quelle une mthode de scoring
est valide, permet notamment
Damliorer un modle en comparant plusieurs de ses variantes (ajout ou
retrait de variables explicatives, etc.)
De choisir entre plusieurs types de modles candidats
Lanalyse des performances dun modle gagnerait tre conduite sur un
jeu de donnes diffrent de celui qui a t utilis pour lestimation. On doit en
effet, lorsque cela est possible, distinguer entre lchantillon dapprentissage et
lchantillon de test ou de validation. Ce dernier doit ncessairement contenir les
valeurs relles de la variable cible (appartenance aux groupes). Dune manire
gnrale, il sagit de comparer entre les valeurs relles de la variable cible avec
celles prdites par le modle.
1. CONCEPTS DE BASE
1.1 Positifs et ngatifs
Soit une population partitionne en deux sous groupes G1 et G2. On appelle
(par convention) les positifs les individus de G1 et les ngatifs les individus de
G2.
On dispose par ailleurs dune fonction de score (issue dun modle) note S
et dun seuil s dfinies tels que :
On affecte lindividu prsentant lobservation x au groupe G1 si S(x) > s .
Autrement dit, on considre cet individu comme positif.
Sinon, on laffecte au groupe G2 , on le considre donc comme ngatif
On appelle :
Faux positif, un individu ngatif considr par la mthode de score
comme positif
Faux ngatif, un individu positif considr par la mthode de score
comme ngatif
Page 33
1.2 Spcificit
On appelle coefficient de spcificit et on note 1- la probabilit suivante :
1- = Pr (S(x) < s / x G2)
Cest donc la probabilit de bien dtecter un ngatif ou encore cest la
proportion des ngatifs dans la population pouvant tre dtect par la mthode.
La quantit = Pr (S(x) s / x G2) dsigne donc la probabilit de
considrer un individu comme positif alors quil est ngatif (faux positif). Pour
une mthode de score, cest un premier type de risque derreur daffectation.
1.3 Sensibilit
On appelle coefficient de sensibilit et on note 1- la probabilit suivante :
1- = Pr (S(x) > s / x G1)
Cest donc la probabilit de bien dtecter un positif ou encore cest la
proportion des positifs dans la population pouvant tre dtect par la mthode.
La quantit = Pr (S(x) s / x G1) dsigne par consquent la
probabilit de considrer un individu comme ngatif alors quil est positif (faux
ngatif). Il sagit pour une mthode de score dun deuxime type de risque
derreur daffectation
Remarques
On peut aussi considrer la quantit = Pr (S(x) > s ) qui est la probabilit de
considrer un individu comme positif. Cest la proportion dindividus supposs
tre intresss par un nouveau produit dans une compagne marketing par
exemple.
Le meilleur modle (et donc la meilleure fonction de score) est celui
qui minimise les deux types de risque daffectation (les quantits et ) .
Les coefficients et changent lorsque le seuil s change. On les exprime
comme des fonctions de s : (s) et (s). Le seuil s est dtermin lextrieur du
modle notamment par des considrations dordre conomique.
Page 34
G2
G1
1-
1-
S(x)
NB : En augmentant s, on rduit la probabilit de tomber sur des faux positifs

() mais on augmente la probabilit davoir des faux ngatifs (). A noter aussi
que le modle le plus performant est celui pour le quel les deux distributions
sont spares. En revanche, lorsque les deux distributions sont confondues, le
modle correspondant est le moins performant.
2. PRINCIPAUX OUTILS DE MESURE DE PERFORMANCE
Plusieurs outils de mesure de performance sont proposs par la littrature
statistique. On prsente dans ce qui suit trois de ces outils qui sont les plus
connus : la matrice de confusion, la courbe ROC et la courbe LIFT.
2.1 Matrice de confusion
On lappelle aussi tableau de classement. Elle prend la forme suivante :
Considrs positifs
Considrs ngatifs
Total
Positifs
n11
n21
n.1
Ngatifs
n12
n22
n.2
Total
n1.
n2..
n
Ces rsultats sont issus dun traitement de lchantillon de validation. A

partir de ce tableau, on calcule :
Le taux derreur de classement donn par : MC= (n12+n21) /n
Le taux de biens classs donn par : BC= (n11 + n22)/n
Remarques :
Ces taux doivent tre interprts en tenant compte des fluctuations
dchantillonnage
Il nya pas de rfrence servant de base pour la comparaison.
Page 35
2.2. La courbe ROC

Lappellation ROC vient des abrviations du nom anglais donn cette
courbe : ( Receiver operating caracteristics).
2.2.1 Dfinition
La courbe ROC est dfini par la reprsentation graphique de la proportion
(1-(s)) des positifs dtects par la mthode en fonction de la proportion des
faux positifs (s) lorsque s varie.
On peut noter daprs le graphique ci-dessus, que :
Lorsque (s) = 0, 1-(s) = 0
Lorsque (s) = 1 , 1-(s) = 1.
1-(s) et (s) voluent dans le mme sens.
Dune manire gnrale, la courbe ROC a cette allure
1-(s)
1
(s)
1
En pratique , la courbe ROC tant construite partir des donnes de

lchantillon de validation, les quantits 1-(s) et (s) sont remplaces par
leur estimations issues de ces donnes, soit respectivement la proportion des
faux positifs dans lensemble des ngatifs et la proportion des individus
considrs positifs dans lensemble des positifs.:
2.2.2 Utilisation
On peut noter que :
Lorsque les deux distributions de S(X) (dans les deux groupes) sont bien
distinctes, la courbe ROC est horizontale. En effet, lorsque (s) passe de 0 1
1-(s) prend toujours la valeur 1. (Modle le plus performant)
Lorsque les deux distributions de S(x) sont confondues, la courbe ROC
concide avec la premire bissectrice. (Modle le moins performant) . Ces
Page 36
remarques conduisent considrer la surface sous la courbe ROC (AUC)

comme indicateur synthtique de la performance dun modle :
AUC 1 modle trs performant
AUC 1/2 modle non performant
Cet indicateur permet ainsi de choisir entre modles: On retient le modle
ayant le AUC le plus lev.
La surface AUC peut tre calcule en utilisant la mthode de trapzes une
fois que la courbe ROC est trace .Mais on pratique, on utilise la mthode des
paires concordantes. On dmontre en effet que : AUC= P(S1>S2) o S1 et S2
sont respectivement les scores de deux individus tirs dune manire
indpendante dans le groupe des positifs puis dans le groupe des ngatifs.
Dans les applications, cette probabilit est estime par la proportion des
paires concordantes. Si on note n1 et n2 le nombre dindividus dans le groupe
des positifs et dans le groupe des ngatifs. Le nombre de paires slve n1n2.
Parmi ces paires, celles o le score du positif dpasse celle du ngatif sont
appeles paires concordantes.
2.3. La courbe LIFT
Cette courbe est trs utilise en marketing. Elle peut servir aussi mesurer
la performance dune compagne de promotion dun nouveau produit. Elle est
alors dtermine partir des donnes de la population.
2.3.1 Dfinition
La courbe LIFT est dfini par la reprsentation graphique de la proportion
(1-(s)) des positifs dtects par la mthode en fonction de la proportion des
individus considrs positifs par la mthode (s) lorsque s varie.
On peut noter que :
Suite une rduction de s, (s) augmente. Cette augmentation se dcompose
en une augmentation de vrais positifs et en une augmentation des faux positifs
Lidal est lorsque lon enregistre que des augmentations des vrais positifs
suite une augmentation de (s) ( les distributions sont alors bien spares).
Cette situation est reprsente par un LIFT idal.
Lorsquon enregistre autant de vrais positifs que de faux positifs suite une
augmentation de (s), la mthode est non performante et est quivalente un
Page 37
choix alatoire. Cette situation est reprsente par un LIFT concidant avec la
premire bissectrice (LIFT alatoire)
Dune manire gnrale, la courbe LIFT a lallure suivante :
1
1-(s)
LIFT estim
Lift idal
LIFT alatoire
(s)
1
2.3.2 Utilisation
Notons p1 la proportion des positifs et donc (1-p1) la proportion des
ngatifs. La probabilit scrit alors :
(s) = (1-) p1+ (1-p1)
On peut dmontrer que la surface sous la courbe LIFT note AUL est
donne par :
AUL = p1/2 + (1-p1) AUC
Cette surface peut tre utilise comme une mesure de la performance dun
modle. On lui prfre la quantit Ki donne par :
Ki =
(surface entre lift estim et lift alatoire)

(Surface entre lift idal et lift alatoire)
En remplaant on trouve :
Ki = 2 AUC -1
Page 38
3. ILLUSTRATION
Les donnes de lchantillon de validation, une fois quon a calcul le score
pour chaque individu, se prsentent ainsi par ordre dcroissant du score :
identifiant Groupe
positif
positif
positif
ngatif
positif
ngatif
positif
ngatif
ngatif
ngatif
1
2
3
4
5
6
7
8
9
10
Score
1
0.9
0.85
0.7
0.6
0.55
0.45
0.3
0.2
0.1
(s)
(s)
0
0
0
0.2
0.2
0.4
0.4
0.6
0.8
1
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1-
(s)
0.2
0.4
0.6
0.6
0.8
0.8
1
1
1
1
3.1 Matrice de confusion

Pour un seuil s fix 0.4, la matrice de confusion se prsente ainsi :
prvu Positifs Ngatifs

Rel
Positif
Ngatif
Total
5
2
7
0
3
3
Total
5
5
10
On en dduit :
BC= 8/10 et MC= 2/10 ,
Page 39
3.2 La courbe ROC

La courbe ROC prend la forme suivante pour les donnes considres :
1,2
1
0,8
0,6
0,4
0,2
0
0
0,5
1,5
On en dduit directement,
AUC = 0.88
3.3 La courbe LIFT
En portant les points, on obtient :
1,2
1
0,8
0,6
0,4
0,2
0
0
0,2
0,4
0,6
0,8
1,2
On en dduit :
Ki = 0.76
Page 40
Bibliographie
Analyse discriminante : application au risque et scoring financier. Mireille
Bardos
Probabilits, analyse de donnes et Statistiques. Gilbert Saporta
Data mining et Scorig. Stphane Tuffery
Page 41

Cours Scoring

Transféré par

Droits d'auteur :

Formats disponibles

Vous aimerez peut-être aussi

Cours Scoring

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Scoring

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE DE CARTHAGE

ECOLE SUPERIEURE DE STATISTIQUE

Cours de mthodes de scoring

Prpar par Hassen MATHLOUTHI

Cours de mthodes de scoring- Hassen MATHLOUTHI

Cours de mthodes de scoring- Hassen MATHLOUTHI

Cours de mthodes de scoring- Hassen MATHLOUTHI

Cours de mthodes de scoring- Hassen MATHLOUTHI

1.2.1 Score de risque

Utiliser la moiti des donnes de lchantillon (donnes indiques par la base

Analyse prliminaire des donnes issues de lchantillon choisi

3.1 Principaux avantages

Cours de mthodes de scoring- Hassen MATHLOUTHI

xn,1 xn,2 xn,j xn,p

Cours de mthodes de scoring- Hassen MATHLOUTHI

Les points variables Xj forment un nuage de p points dans de Rn. Il en est

Illustration gomtrique : On considre un nuage de 5 individus dcrits par

On observe galement auprs de chacun des n individus son appartenance

Un cas particulier important est celui o les poids sont uniformes :

Cours de mthodes de scoring- Hassen MATHLOUTHI

1.2 Position du problme

NB : Dans le cas uniforme, cette formule prend la forme habituelle

Le vecteur g des p moyennes arithmtiques est appel centre de gravit du

individu. Cest lindividu moyen. Dans la suite, on suppose que g = (0,0,,0).

o les * , dsignent les donnes initiales.

On calcule galement pour chaque variable Xj sa moyenne arithmtique

Cela permet de dfinir un centre de gravit pour le sous nuage associ ce

Ce point de Rp sidentifie ainsi avec lindividu moyen du groupe k. On le

(= 0 si le nuage est centr)

Cours de mthodes de scoring- Hassen MATHLOUTHI

2.2 Matrice de variances et covariances

4  "  ' , + 65 (

Remarque : Avec des donnes centres, on a

Lorsquen plus les poids sont uniformes, la formule se simplifie

La covariance des variables j et h est donne par :

8 ,9  "  : , + 65 ;' ,9 + )9 (

NB : Avec des poids uniformes, on a :

ou encore si le nuage est centr :

On note V la matrice de variances et covariances :

4 8, . 8, 8,

Cours de mthodes de scoring- Hassen MATHLOUTHI

On peut remarquer quen prsence dun nuage centr et des poids

+ :)  ; si les poids sont uniformes)

-01 .-,/ .-,=

+ )  )9 si les poids sont uniformes)

A signaler que la matrice W est en gnral inversible.

au niveau des reprsentants des diffrents groupes. A rappeler que chaque

La matrice B est alors dfinie comme suit :

car le nuage est centr.

Cest une matrice carre de dimension p mais en en gnral de rang

Cours de mthodes de scoring- Hassen MATHLOUTHI

On a le rsultat important suivant connu sous le nom de formule de

3.1 Cas gnral

ce qui constitue un avantage pratique important du fait de la simplicit des

(g1-g2)W-1(x- (g1+g2)) > 0

Cours de mthodes de scoring- Hassen MATHLOUTHI

1.2 Espace des observations :

Cours de mthodes de scoring- Hassen MATHLOUTHI

ainsi que la loi de T : / P(T=1) = 5/6 et P(T=2) = 1/6.

4 " ' , + 65 (

8,9 " : , + 65 ;' ,9 + )9 (

4 8, . 8, 8,

+ :) ; si les poids sont uniformes)

+ ) )9 si les poids sont uniformes)

" O'`? , N ( _ '( Z " O'` , N ( _ '( b c b ?

O'`? , N` (` _` '( E " O'`? , N ( _ '(

Z O'`? , N`? (`? _`? '( E " O'` , N ( _ '( b c b ?

` _` '( Z `? _`? '(

4'L, , v( J'K L /7 (J' 7 (

O4'L, , v( " OJ'K L /7 ( E " O J' 7 (

O4'L, , v( " O' (- '1 + ' ((- E " O J' 7 (

O4'L, , v( "'L u v E v + O1 E