Vous êtes sur la page 1sur 22

Construction partir dune rgression logistique

Ricco RAKOTOMALALA

Universit Lumire Lyon 2

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

PLAN
1.

Position du problme Grille de score ?

2.

Construction partir des coefficients de la rgression logistique

3.

Processus daffectation via le score

4.

Traitement des variables explicatives quantitatives

5.

Grille de score partir du couplage AFCM et ADL (DISQUAL)

6.

Bibliographie

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Construire une grille de notation des individus


indiquant leur degr de positivit (propension tre positif)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Contexte du scoring
Contexte : apprentissage supervis,
une variable cible Y binaire {+, - }
des descripteurs tous qualitatifs (cods 0/1, codage disjonctif complet)
Exemple : apprcier les chances dacceptation dune demande de financement
(un crdit) dun achat effectue par un client [oui = +, non = -]
Motif_AppMenager Motif_Mobilier Motif_HiFi
Assurance_oui Assurance_non Acceptation
0
0
1
1
0 oui
0
1
0
0
1 non
0
1
0
0
1 non
0
1
0
1
0 oui
0
0
1
1
0 non
0
1
0
1
0 non
0
0
1
0
1 non
0
0
1
1
0 oui
0
0
1
1
0 oui
0
0
1
1
0 oui

Motif : {App. Mnager, Mobilier, Hi Fi}

Assurance : {oui, non}

Variable cible : Y =
Acceptation {+, -}

On dispose de n = 944 observations


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Grille de score = grille de notation


Permettant dapprcier les chances du client de se voir octroyer un crdit

La grille de notation doit tre calibre, par ex. de 0 100.


Motif_AppMenager
Motif_Mobilier
Motif_HiFi
Assurance_oui
Assurance_non

Note
20
0
7
80
0

Ex. 1 : client effectuant une demande pour motif = mobilier et ne prenant pas
dassurance assurance = non se voit attribuer la note 0 + 0 = 0 il a un
minimum de chances de voir accepte sa demande de crdit (pire cas).
Ex. 2 : client effectuant une demande pour motif = appareil mnager et prenant
une assurance assurance = oui se voit attribuer la note 20 + 80 = 100 il
maximise ses chances de voir accepte sa demande crdit (meilleur cas).

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Point de dpart : rsultats de la rgression logistique [Equation LOGIT]


Acceptation = oui est la modalit positive

Attribute
constant

Coef.
1.12037

Motif = App.Mnager
est la modalit de rfrence

M otif_M obilier

-0.50059

M otif_HiFi

-0.32038

Assurance = oui est la

Assurance_non

-1.98367

modalit de rfrence

(1) EXP(Coef) = Odds-ratio surcroit de chances dtre positif


Par rapport ceux qui prennent une assurance, ceux qui nen prennent pas ont 7.26 [ 1/exp(-1.98)] fois

plus de chances dessuyer un refus que de voir leur demande accepte.

(2) Calcul de la probabilit dtre positif (1re version du score )


X : (Motif = mobilier, Assurance = non)
LOGIT = 1.12037 + (-0.50059) + (-1.98367) = -1.36389
P(Acceptation = oui / X) = 1/(1+ exp(-LOGIT)) = 0.204

NB. Le pire cas nquivaut pas


une probabilit nulle !

On dispose dj dun systme dvaluation et de notation, mais il est


peu intuitif, totalement abscons pour un non spcialiste
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Comment faire la transition ?

Coefficients de la

Grille de score

rgression logistique
Attribute
constant

(Notation calibre 0 100, ou 0 1000, etc.)

Coef.

Motif_AppMenager
Motif_Mobilier
Motif_HiFi
Assurance_oui
Assurance_non

1.12037

M otif_M obilier

-0.50059

M otif_HiFi

-0.32038

Assurance_non

-1.98367

Note
20
0
7
80
0

Accessible aux non-spcialistes


Directement exploitable en dploiement
La grille est invariante par rapport au choix

de la modalit de rfrence
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

A partir des coefficients de la rgression logistique

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Rcriture du LOGIT : caler la note minimale 0


Attribute
constant
Motif_AppMenager
Motif_Mobilier
Motif_HiFi
Assurance_oui
Assurance_non

Coef.
1.12037
0.00000
-0.50059
-0.32038
0.00000
-1.98367

Etape 2 : Dtection des valeurs


min des coefficients par variable

(la constante est mise de ct)

Attribute
Motif_AppMenager
Motif_Mobilier
Motif_HiFi
Assurance_oui
Assurance_non

Coef.
0.00000
-0.50059
-0.32038
0.00000
-1.98367

Minmotif = -0.50059
Minassurance = -1.98367

Etape 1 : faire apparatre


les modalits de
rfrence

Etape 3 : Correction par variable pour


rendre positifs tous les coefficients

Coef + |Minvariable|

Attribute
Motif_AppMenager
Motif_Mobilier
Motif_HiFi
Assurance_oui
Assurance_non

Coef.
0.50059
0.00000
0.18021
1.98367
0.00000

Les points attribus seront toujours positifs


Le minimum des points est gal 0
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Mise lchelle : caler la note maximale 100 (ou 1000, ou 10000, etc.)
Etape 4 : identifier le maximum des points
Attribute
Motif_AppMenager
Motif_Mobilier
Motif_HiFi
Assurance_oui
Assurance_non

Coef.
0.50059
0.00000
0.18021
1.98367
0.00000

(attention si des coefs. sont > 0, maxvariable est diffrent de |minvariable|)

Maxmotif = 0.50059

MAXpoints =

0.50059 + 1.98367

= 2.48426

Maxassurance = 1.98367

Etape 5 : Calculer le

Etape 6 : Multiplier les points modalits

facteur de correction

par le facteur de correction


0.50059 x 40.25342 20

100

MAX points
100
2.48426
40 .25342

Motif_AppMenager
Motif_Mobilier
Motif_HiFi
Assurance_oui
Assurance_non

Score
20
0
7
80
0

Les notes par modalit sont arrondies pour faciliter la lecture


Le score est calibr, il est compris entre 0 et 100

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

10

Reproduire le processus daffectation bas sur le LOGIT


Calculer la valeur seuil du SCORE

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

11

Rgle daffectation base sur le LOGIT

Pour un individu classer,


on sappuie sur le LOGIT

Comment dterminer la
valeur seuil si on
sappuie sur le score ?

a0 Y ( )
a1 x1 ( ) a2 x2 ( )

a0 Y ( )

seuil Y ( )
SCORE ( )

seuil Y ( )

Il faut transformer la constante a0 du LOGIT en


respectant le schma de constitution du score.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

12

Calcul du seuil daffectation


1. Chaque variable a t corrige de |Minvariable|
2. Somme des corrections : S = |Minvariable|
3. Seuil daffectation avant calibrage : C = S - a0
4. Seuil daffectation aprs mise lchelle du score : SEUIL = x C

Attribute
constant
Motif_AppMenager
Motif_Mobilier
Motif_HiFi
Assurance_oui
Assurance_non

Coef.
1.12037
0.00000
-0.50059
-0.32038
0.00000
-1.98367

(Minmotif = -0.50059 ; Minassurance = -1.98367)

S = 0.50059 + 1.98367 = 2.48426

On reproduit lidentique le
comportement de la rgression
logistique avec la rgle de dcision :

54 .9 Y ( )
SCORE ( )

54 .9 Y ( )

C = 2.48426 1.12037 = 1.36389


SEUIL = 40.25342 x 1.36389 = 54.9
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

13

Discrtisation (dcoupage en classes) des variables quantitatives

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

14

Transformation des variables quantitatives en indicatrices (1)

Un arbre de dcision permet de


rpondre ces spcifications

Etape 1 : dcoupage en classes


Comment choisir le nombre de classes ?
Comment choisir les bornes de dcoupage ?
Dcoupage en fonction de la variable cible Y !

3 intervalles avec les bornes (2030 et 3137.5)

NB. La mthode MDLPC (Fayyad & Irani, 1993) disponible dans de nombreux logiciels
(Tanagra, Weka, R [package discretization], etc.) est un arbre de dcision avec une
rgle darrt spcifique la discrtisation.

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

15

Transformation des variables quantitatives en indicatrices (2)

[3137.5 ; +[

[2030 ; 3137.5[

Etape 2 : codage disjonctif complet partir des


intervalles. Attention (1), codage non imbriqu
parce quon ne sait pas si leffet est monotone ; (2)
le premier intervalle sert de modalit de rfrence.

Rgression logistique
Attribute

Coef.

constant

1.59696

REV.A : [0 ; 2030[

0.00000

REV.B : [2030 ; 3137.5[

-1.72488

REV.C : [3137.5 ; +00[

0.02628

Motif_AppMenager

0.00000

Motif_Mobilier
Motif_HiFi
Assurance_oui
Assurance_non

-0.27986
-0.10055
0.00000
-2.07249

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

Revenu.Menage
2264
2181
4265
4431
3008
3042
4237
8454
3797
5193

REV.B

REV.C
1
1
0
0
1
1
0
0
0
0

0
0
1
1
0
0
1
1
1
1

Grille de score
Attribute
REV.A : [0 ; 2030[
REV.B : [2030 ; 3137.5[
REV.C : [3137.5 ; +00[
Moti f_AppMena ger
Moti f_Mobi l i er
Moti f_Hi Fi
As s ura nce_oui
As s ura nce_non

Score
42
0
43
7
0
4
51
0

16

Couplage AFCM (analyse factorielle des correspondances multiples) et

ADL (analyse discriminante linaire)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

17

La mthode DISQUAL (Saporta, 1975)

Calcul en 3 tapes :
(1) AFCM sur les descripteurs
(catgoriels ou discrtiss)
(2) ADL sur une slection (*) des
facteurs de lAFCM
(3) Reconstitution de la fonction
de classement sur les
indicatrices originelles

(*) Il est possible de les prendre tous


(*) En ne slectionnant que q premiers les plus pertinents, on peut obtenir des rsultats
plus stables (on a une meilleure rgularisation, cest une forme de nettoyage des donnes)

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

18

DISQUAL sur acceptation de crdit


Coefficients
Appliqus aux indicatrices des variables actives

Attribute = Value

AFCM : Coefficients des fonctions

Motif = AppMenager
Motif = Mobilier

Axis_1

Axis_2

Axis_3

0.9750

-1.3746

-0.9750

-0.4900

-0.3314

0.4900

0.2617

0.7349

-0.2617

permettant dobtenir les coordonnes

Motif = HiFi

factorielles des individus

Assurance = oui

-0.1633

0.0000

-0.1633

Assurance = non

1.5308

0.0000

1.5308

Attribute

Coef.

ADL : Fonction SCORE (obtenue par

M CA_1_Axis_1

-0.4750

diffrenciation des fonctions de

M CA_1_Axis_2

-0.0402

classement [oui non]) dfinie sur

M CA_1_Axis_3

-0.7749

les facteurs

Fonction SCORE dfinie sur les


indicatrices des variables originelles

constant

0.6071

A ttri bute = V a l ue

Coef.

Constant

0 .6 0 7 1

Motif = AppMenager

0 .3 4 7 8

Motif = Mobilier

-0 .1 3 3 6

Motif = HiFi

0 .0 4 8 9

Assurance = oui

0 .2 0 4 1

Assurance = non

-1 .9 1 3 3

Ex. aMotif=AppMenager = -0.4750 x (0.9750) + (-0.0402) x (-1.3746) + (-0.7749) x (-0.9750) = 0.3478


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

19

Grille de score via DISQUAL

Grille de score
Attribute = Value

Note (/100)

Moti f = AppMena ger


Moti f = Mobi l i er
Moti f = Hi Fi
As s ura nce = oui
As s ura nce = non

19
0
7
81
0

Au final, la grille de score est trs proche de celle de la


rgression logistique ce nest pas tonnant ce sont l

deux classifieurs linaires.


Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

20

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

21

G. Saporta, Probabilits, Analyse de donnes et Statistique , Technip,


2006 ; pp. 462 467, section 18.4.3 Un exemple de credit
scoring .

J.P. Nakache, J. Confais, Statistique explicative applique , Technip,


2003 ; pp. 58 60, section 2.2.2 SCORE : construction dun score .

Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/

22