Académique Documents
Professionnel Documents
Culture Documents
Tuffery - Master Rennes 2013-2014 - Data Mining - Presentation PDF
Tuffery - Master Rennes 2013-2014 - Data Mining - Presentation PDF
Stphane TUFFERY
Universit Rennes 1
Master 2 Ingnierie conomique et financire
7 fvrier 2014
07/02/2014
Prsentation de lintervenant
Responsable de lquipe statistique dans un groupe
bancaire franais
Enseigne lENSAI et lUniversit Catholique de
lOuest (Angers)
Docteur en Mathmatiques
Auteur de :
Data Mining et Statistique Dcisionnelle,
ditions Technip, 2005, 4e dition 2012,
prface de Gilbert Saporta
Data Mining and Statistics for Decision
Making, ditions Wiley, mars 2011
tude de cas en Statistique Dcisionnelle,
ditions Technip, 2009
Computational Actuarial Science with R
(ouvrage collectif), ditions Chapman &
Hall, 2014
07/02/2014
Plan
Quest-ce que le data mining ?
Quest-ce que le Big Data ?
quoi sert le data mining ?
quoi sert le Big Data ?
La rforme de Ble et le ratio de solvabilit
Llaboration dun modle de scoring
------------------------------------------------------------------------------------------------------------
07/02/2014
La fouille de donnes
Le data mining est lensemble des :
mthodes scientifiques
destines lexploration et lanalyse
de (souvent) grandes bases de donnes informatiques
en vue de dtecter dans ces donnes des profils-type, des
comportements rcurrents, des rgles, des liens, des tendances
inconnues (non fixes a priori), des structures particulires
restituant de faon concise lessentiel de linformation utile
pour laide la dcision
carte de Kohonen
Source : Lebart-Morineau-Piron, Statistique exploratoire multidimensionnelle, page 10
07/02/2014
Mthode descriptive :
pas de variable expliquer privilgie
dcrire de faon simple une ralit complexe en la rsumant
Complexit du problme !
Le nombre de partitions (classes non recouvrantes) de n objets
1 kn
est le nombre de Bell : Bn =
e k =1 k!
Exemple : pour n = 4 objets, on a Bn = 15, avec
1 partition 1 classe (abcd)
7 partitions 2 classes (ab,cd), (ac,bd), (ad,bc), (a,bcd), (b,acd), (c,bad),
(d,abc)
6 partitions 3 classes (a,b,cd), (a,c,bd), (a,d,bc), (b,c,ad), (b,d,ac), (c,d,ab)
1 partition 4 classes (a,b,c,d)
Classement et prdiction
Ce sont des mthodes prdictives
on parle aussi dapprentissage supervis (rseaux de neurones)
10
Score de pr-acceptation
+
Apptence
Risque
Score dattrition
prdire le dpart du client vers un concurrent
Et aussi :
En mdecine : diagnostic (bonne sant : oui / non) en fonction du
dossier du patient et des analyses mdicales
Courriels : spam (oui / non) en fonction des caractristiques du
message (frquence des mots)
07/02/2014
11
En gris : mthodes
classiques
sous-famille
analyse factorielle
(projection sur un
espace de
dimension
infrieure)
analyse typologique
(regroupement en
classes homognes)
analyse typologique
+ rduction dimens.
07/02/2014
mthode
analyse en composantes principales ACP
(variables continues)
analyse factorielle des correspondances
AFC (2 variables qualitatives)
analyse des correspondances multiples
ACM (+ de 2 var. qualitatives)
mthodes de partitionnement (centres
mobiles, k-means, nues dynamiques)
mthodes hirarchiques (ascendantes,
descendantes)
classification neuronale (cartes de
Kohonen)
classification relationnelle (variables
qualitatives)
dtection dassociations
modles
combinatoires
modles base de dtection de liens
rgles logiques Stphane Tuffry - Usage rserv lUniversit Rennes 1
12
famille
sous-famille
mthodes
prdictives
modles base
de rgles logiques
modles base
de fonctions
mathmatiques
arbres de
dcision
rseaux de
neurones
En gris : mthodes
classiques
07/02/2014
prdiction sans
modle
mthode
13
14
07/02/2014
15
16
17
07/02/2014
18
07/02/2014
19
07/02/2014
20
21
22
23
24
07/02/2014
25
07/02/2014
26
Essor d :
dveloppement des nouvelles technologies
nouvelles attentes de qualit de service des clients
pression mondiale pour une plus grande rentabilit
surtout : ratio de solvabilit Ble 2
07/02/2014
27
28
Besoin de dcisionnel d :
concurrence des nouveaux entrants (bancassurance)
bases clients des assureurs traditionnels mal organises :
compartimentes par agent gnral
ou structures par contrat et non par client
07/02/2014
29
Problme du churn :
cot dacquisition moyen en tlphonie mobile : 250 euros
plus dun million dutilisateurs changent chaque danne
doprateur en France
les lois facilitant le changement doprateur
la portabilit du numro facilite le churn
07/02/2014
30
e-commerce
personnalisation des pages du site web de lentreprise, en
fonction du profil de chaque internaute
optimisation de la navigation sur un site web
Grande distribution
analyse du ticket de caisse
dtermination des meilleures implantations (gomarketing)
07/02/2014
31
Autres exemples
De linfiniment petit (gnomique) linfiniment grand
(astrophysique pour le classement en toile ou galaxie)
Du plus quotidien (reconnaissance de lcriture manuscrite sur
les enveloppes) au moins quotidien (aide au pilotage
aronautique)
Du plus ouvert (e-commerce) au plus scuritaire (dtection de
la fraude dans la tlphonie mobile ou les cartes bancaires)
Du plus industriel (contrle qualit pour la recherche des
facteurs expliquant les dfauts de la production) au plus
thorique (sciences humaines, biologie)
Du plus alimentaire (agronomie et agroalimentaire) au plus
divertissant (prvisions daudience TV)
07/02/2014
32
07/02/2014
33
34
Risque financier
Ce que lon dit dune entreprise, son image chez ses partenaires, les
analystes financiers ou le grand public, sa rputation, son image en
termes de qualit, dinnovation, de respect social et environnemental
ces lments peuvent concourir sa sant financire moyen/long
terme et peuvent tre intgrs dans les analyses
Risque de fraude
Les donnes de golocalisation des dtenteurs de smartphones
peuvent tre compares aux informations relatives au terminal de
paiement pour sassurer quelles sont cohrentes
07/02/2014
35
36
37
38
07/02/2014
39
40
07/02/2014
41
March : risque que la valeur dun actif (dune dette) dtenu(e) par une
institution financire varie en raison de lvolution des prix sur les marchs
financiers
Modles conomtriques
42
07/02/2014
43
44
45
Fonds propres :
Renforcement de la qualit et du niveau des fonds propres
Mise en place dun coussin de conservation aliment dans les priodes
favorables
Surcharge systmique pour les tablissements les plus importants
Instauration dun ratio deffet de levier (ratio fonds propres / total
des actifs non pondrs ) > 3%
07/02/2014
46
Le risque de crdit
Les modles de scoring permettent dattribuer une probabilit de
dfaut (PD) de paiement toute entit note, sur un horizon donn
La perte encourue par la banque dpend de deux autres facteurs :
EAD (Exposure At Default) : montant du crdit expos si lemprunteur passe
en dfaut (encours bilan + CCF x encours hors-bilan)
CCF (Credit Conversion Factor) : part de lencours hors-bilan qui sera
utilise par lemprunteur au moment du dfaut
LGD (Loss Given Default) : taux de perte (y compris frais de recouvrement)
subi par la banque (aprs activation des ventuelles garanties) en cas de
dfaut de lemprunteur
47
07/02/2014
48
07/02/2014
Nature du risque
Pondration
Souverain
0%
Banques
20 %
Immobilier
50 %
Autres crdits
100 %
49
AAA
AA-
A+
A-
BBB+
BBB-
BB+
B-
Infrieur
B-
Non
not
Souverains
0%
20 %
50 %
100%
150%
100%
Banques
20%
50%
50%
100%
150%
50%
Entreprises
20%
50%
100%
jusqu
BB- :
100%
<BB - :
150%
100%
Retail
Immobilier
35 %
Retail Autres
75 %
07/02/2014
50
51
0.6
0.4
0.2
RW
07/02/2014
0.0
> rw = function(pd,lgd,rho) {
+ fpd <- pnorm(qnorm(pd)*sqrt(1/(1-rho)) + qnorm(0.999)*sqrt(rho/(1-rho)))
+ rw <- 12.5*lgd*(fpd-pd)
+ return(rw)
+}
> rpd <- seq(0,0.1,by=.001)
> plot(rpd,rw(rpd,lgd,rho),type="l",xlab="PD",ylab="RW")
0.8
0.00
0.02
0.04
0.06
PD
0.08
52
0.10
10
07/02/2014
53
Risques oprationnels :
matrice lignes de mtier x types de risque
07/02/2014
54
55
07/02/2014
56
Gouvernance du risque
Les outils ne suffisent pas : il faut gouverner leur utilisation, leur suivi et leur
volution
07/02/2014
57
07/02/2014
58
59
Biais de slection
En risque : certaines demandes sont refuses et on ne peut donc pas
mesurer la variable expliquer
certaines populations ont t exclues de la modlisation et on leur
applique pourtant le modle
il existe des mthodes dinfrence des refuss , mais dont aucune nest
totalement satisfaisante
et parfois aucune trace nest conserve des demandes refuses !
60
Taille de lchantillon
taux
d'erreur
mauvaise
gnralisation
donnes de test
t
donnes apprentissage
bonne
gnralisation
taille de l'chantillon
d'apprentissage
Thorme de Vapnik :
R < Remp
h (log(2n / h) + 1) log( / 4)
+
n
07/02/2014
taille suffisante
61
62
Il y a les donnes :
du systme dinformation (SI) de lentreprise
stockes dans lentreprise, hors du SI (fichiers Excel...)
achetes ou rcupres lextrieur de lentreprise
provenant dInternet et des rseaux sociaux
calcules partir des donnes prcdentes (indicateurs, ratios,
volutions au cours du temps)
07/02/2014
63
64
Scoring prnom
P
a
s
c
a
l
07/02/2014
65
Donnes godmographiques
Donnes conomiques
nombre dentreprises, population active, chmage, commerces et
services de proximit, habitudes de consommation
Donnes sociodmographiques
population, richesse, ge et nombre denfants moyens, structures
familiales, niveau socioprofessionnel
Donnes rsidentielles
anciennet, type et confort des logements, proportion de
locataires et propritaires
Donnes concurrentielles
implantation de lentreprise, implantation de ses concurrents, parts
de march, taux de pntration
66
ge
PCS
58
27
46
32
cadre
ouvrier
technicien
employ
situation
nb
montant
famille
achats achats
mari
2
40
clibataire
3
30
clibataire
3
75
mari
1
50
variable expliquer
observe anne n
variable
explicative m
variables explicatives
observes anne n-1
chantillon
apprentissage
test
test
apprentissage
n
client
1
2
1000
rpartition
alatoire
des clients
entre les 2
chantillons
PREDICTION
f
07/02/2014
67
:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
24 mois
12 mois
aujourdhui
observation des
observation de la
variables explicatives
variable expliquer
Application du modle
:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
12 mois
aujourdhui
+ 12 mois
observation des
prdiction de la
variables explicatives
variable expliquer
68
Pr-segmentation
Segmentation (classification) de la population :
en groupes forcment distincts selon les donnes disponibles
(clients / prospects) : homognit du point de vue des variables
explicatives
ou en groupes statistiquement pertinents vis--vis des objectifs
de ltude : homognit du point de vue de la variable
expliquer
ou selon certaines caractristiques sociodmographiques (ge,
profession) si elles correspondent des rgles mtiers (offres
marketing spcifiques)
69
Hommes
avec achat
50
25
75
TOTAL
1 000
500
1 500
taux d'achat
5,00%
5,00%
5,00%
courriel
tlphone
TOTAL
sans achat
450
900
1 350
Femmes
avec achat
50
100
150
TOTAL
500
1 000
1 500
taux d'achat
10,00%
10,00%
10,00%
courriel
tlphone
TOTAL
Tous clients
sans achat avec achat
1 400
100
1 375
125
2 775
225
TOTAL
1 500
1 500
3 000
taux d'achat
6,67%
8,33%
7,50%
courriel
tlphone
TOTAL
07/02/2014
70
Explication :
un individu pris au hasard ne rpond pas mieux au tlphone
mais les femmes achtent plus et on a privilgi le tlphone pour les
contacter
liaison entre les variables sexe et canal de vente
71
valeurs extrmes
voir si valeurs aberrantes liminer
Variables continues
dtecter la non-monotonie ou la non-linarit justifiant la discrtisation
tester la normalit des variables (surtout si petits effectifs) et les
transformer pour augmenter la normalit
ventuellement discrtiser : dcouper la variable en tranches en fonction
de la variable expliquer
et isoler les valeurs manquantes ou aberrantes
07/02/2014
72
07/02/2014
73
Normalisation : transformations
Log (V)
transformation la plus courante pour corriger un coefficient dasymtrie > 0
Si V 0, on prend Log (1 + V)
exp(V)
V3
V2
asymtrie gauche
fort
moyen
V
pas de
correction
log(V)
-1/V
-1/V2
asymtrie droite
moyen
fort
74
Normalisation : un exemple
Revenus :
Log(1+revenus) :
Racine(revenus) :
Asymtrie = 2,38
Asymtrie = - 2,03
Asymtrie = 0,64
Aplatissement = 11,72
Aplatissement = 12,03
Aplatissement = 1,76
(Loi normale
asymtrie
= aplatissement
Stphane: Tuffry
- Usage rserv
lUniversit Rennes(
1 3) = 0)
75
Utilit de la normalisation
Une des hypothses de lanalyse discriminante linaire :
multinormalit de X/Gi et galit des matrices de covariances
07/02/2014
76
clients sans
apptence
clients avec
apptence
variable explicative Y
07/02/2014
77
Pourquoi discrtiser ?
Apprhender des liaisons non linaires (de degr >1), voire non
monotones, entre les variables continues et la variable expliquer
par une analyse des correspondances multiples, une rgression
logistique ou une analyse discriminante DISQUAL
78
Exemple de discrtisation
On commence par
dcouper la variable
explicative en dciles, et
regarder quelle valeur
correspond chaque dcile
Par exemple , le 2e dcile
est 25 ans
07/02/2014
85 24.0000000 25.0000000
72 34.0000000 35.0000000
98 40.0000000 44.0000000
96 53.0000000 75.0000000
79
Exemple de discrtisation
dAge(Rang
pour la
variable Age)
FREQUENCE
Pourcentage
Pct en ligne
Cible
2 Total
63
42
6.30 4.20
60.00 40.00
105
10.50
47
38
4.70 3.80
55.29 44.71
85
8.50
74
27
7.40 2.70
73.27 26.73
101
10.10
79
41
7.90 4.10
65.83 34.17
120
12.00
72
33
7.20 3.30
68.57 31.43
105
10.50
55
17
5.50 1.70
76.39 23.61
72
7.20
89
24
8.90 2.40
78.76 21.24
113
11.30
70
28
7.00 2.80
71.43 28.57
98
9.80
84
21
8.40 2.10
80.00 20.00
105
10.50
67
29
6.70 2.90
69.79 30.21
96
9.60
700
300 801000
70.00 30.00 100.00
81
Cible
OK
KO Total
Pas d'pargne
151
32
15.10 3.20
82.51 17.49
183
18.30
< 100
386 217
38.60 21.70
64.01 35.99
603
60.30
[100-500 euros[
69
34
6.90 3.40
66.99 33.01
103
10.30
[500-1000 euros[
52
11
5.20 1.10
82.54 17.46
63
6.30
42
6
4.20 0.60
87.50 12.50
48
4.80
Total
700 300
1000
70.00 30.00 100.00
82
83
07/02/2014
84
85
07/02/2014
86
avant imputation
imputation
par
moyenne
ou
rgression
6
5
4
3
2
1
0
0
6
5
xi
imputation
par
rgression
+ rsidu
alatoire
yi
xi
0
0
87
Var1
Var2
Var3
6557
80.79
0.04
1108
13.65
-0.075471 0.595276
353
4.35
0.160265
91
1.12
0.000916
0.05
07/02/2014
Frq Pourcentage
Var1
Var2
12.217310 0.245615
Var3
3.102462
0.166667
88
89
07/02/2014
90
07/02/2014
91
Remarque :
Dans une procdure pas pas, le 1er prdicteur peut occulter un
autre prdicteur plus intressant
07/02/2014
92
Sur-apprentissage en rgression
93
Sur-apprentissage en classement
(C) Modle trop
complexe
94
taux
d'erreur
donnes de test
mauvaise
gnralisation
bonne
gnralisation
donnes apprentissage
complexit du modle
(A)
(C)
Thorme de Vapnik :
R < Remp +
07/02/2014
h (log(2n / h) + 1) log( / 4)
n
Stphane Tuffry - Usage rserv lUniversit Rennes 1
95
donnes de test
et d'application
donnes apprentissage
laguer ici
profondeur arbre
(nb de feuilles)
96
97
Tests non-paramtriques
ne supposent pas que les variables suivent une loi particulire
se fondent souvent sur les rangs des valeurs des variables plutt
que sur les valeurs elles-mmes
peu sensibles aux valeurs aberrantes
ex : test de Wilcoxon-Mann-Whitney, test de Kruskal-Wallis
07/02/2014
98
2 chantillons
test T de Student
ANOVA
normalit htroscdasticit
test T de Welch
Welch - ANOVA
Kruskal Wallis
test de la mdiane
test de la mdiane
test de Jonckheere-Terpstra
(chantillons ordonns)
moins puissant
(*) Ces tests supportent mieux la non-normalit que lhtroscdasticit.
(**) Ces tests travaillant sur les rangs et non sur les valeurs elles-mmes,
ils sont plus robustes et sappliquent galement des variables ordinales
(***) ne pas comparer toutes les paires par des tests T on dtecte tort des
diffrences significatives (au seuil de 95 % : dans 27 % des cas pour 4 moyennes gales)
07/02/2014
99
V_Cramer
Variable
0.35174 Comptes
0.24838 Historique_credit
0.20499 Duree_credit
0.19000 Epargne
0.17354 Objet_credit
0.15809 Montant_credit
0.15401 Biens
0.13553 Anciennete_emploi
0.13491 Statut_domicile
10
0.12794 Age
11
0.11331 Autres_credits
12
0.09801 Situation_familiale
13
0.08152 Garanties
14
0.07401 Taux_effort
15
0.05168 Nb_credits
16
0.04342 Type_emploi
17
0.03647 Telephone
18
0.02737 Anciennete_domicile
0,3
0,25
0,2
0,15
0,1
0,05
07/02/2014
Ag
tre
e
s_
cr
tu
ed
at
io
it s
n_
fa
m
ilia
le
G
ar
an
t ie
Ta
s
ux
_e
ff o
Nb
rt
_c
re
di
Ty
ts
pe
_e
m
pl
oi
An
Te
cie
le
p
nn
ho
et
ne
e_
do
Nb
m
ici
_p
le
er
s_
ch
ar
ge
Si
Au
Hi
s
Co
m
pt
to
es
riq
ue
_c
re
Du
di
t
re
e_
cr
ed
it
Ep
ar
gn
O
e
bj
et
_c
M
re
on
di
ta
t
nt
_c
re
di
t
An
cie
Bi
nn
en
et
s
e_
em
St
at
pl
ut
oi
_d
om
ici
le
100
0.00301 Nb_pers_charge
Pourquoi le V de Cramer ?
Classe 1
Classe 2
Classe 1
Ensemble
Classe 2
Ensemble
Effectifs observs :
Effectifs observs :
A
55
45
100
550
450
1000
20
30
50
200
300
500
Total
75
75
150
Total
750
750
1500
50
50
100
500
500
1000
25
25
50
250
250
500
Total
75
75
150
Total
750
750
1500
Probabilit du = 0,08326454
Probabilit du = 4,3205.10-8
V de Cramer = 0,14142136
V de Cramer = 0,14142136
101
Le V de Cramer
V de Cramer =
2
2
max
07/02/2014
102
07/02/2014
Variable Nb occurrences
V25
7
V26
7
V15
6
V12
5
V29
5
V31
5
V10
4
V20
4
V06
2
V16
2
V32
2
V37
2
V11
1
V21
1
V23
1
V27
1
V34
1
V35
1
60 o
V
n
0
50 s e5 V V
t
0
V V
1
a
9
0 0
4
40 n
1 3 V
t
1 V
V
3 0
30
0 V V
2 4 1 2 V V V
V V
1 1
V V
8 2
2 0
20
9 7
3 2
4 8
0 V V V V V V
6 8
V V
7 2 2 1 1 2 3
V V V V V V V V V V
1 2
5 6 5
10
2 9 1 0 0 0 1 3 3 1 2 2 2 3 3
6 6 2 7 1 1 3 7 4 5
seuil
seuil
103
Cluster
Variable
Own
Cluster
Next
Closest
1-R**2
Ratio
Cluster 1
nbpoints
0.6546
0.0011
0.3458
nb points fidlit
nbproduits
0.6189
0.0183
0.3882
nb produits
nbachats
0.5950
0.0007
0.4053
nb achats
revenus
0.4551
0.0234
0.5580
revenus du client
abonnement
0.2537
0.0042
0.7495
utilcredit
0.2312
0.0002
0.7689
rglements crdit
age
0.6033
0.0000
0.3967
ge
relation
0.6461
0.0336
0.3662
evolconsom
0.2151
0.0027
0.7870
volution consommation
Cluster 2
Variable
Label
104
La modlisation
07/02/2014
105
valeur prdite
valeur relle
A
1800
200
300
1700
TOTAL
TOTAL
4000
106
107
Grille de score
Passage de coefficients ( Estimation ) des pondrations dont la
somme est comprise entre 0 et 100
Variable
Modalit
Age
> 25 ans
Age
25 ans
Autres_credits
Nb points
Paramtre
Intercept
-3.1995
0.3967
65.0626
<.0001
Comptes
1.0772
0.4254
6.4109
0.0113
Autres_credits
Crdits extrieurs
Comptes
CC < 0 euros
2.0129
0.2730
54.3578
<.0001
Comptes
Pas de compte
Comptes
CC [0-200 euros[
1.5001
0.2690
31.1067
<.0001
Comptes
Pas de compte
Comptes
CC 200 euros
13
1.0794
0.3710
8.4629
0.0036
Comptes
CC [0-200 euros[
19
0.4519
0.2385
3.5888
0.0582
Comptes
CC < 0 euros
25
Duree_credit
> 36 mois
1.4424
0.3479
17.1937
<.0001
Duree_credit
15 mois
Duree_credit
16-36 mois
1.0232
0.2197
21.6955
<.0001
Duree_credit
16-36 mois
13
Duree_credit
<= 15 mois
Duree_credit
<= 25 ans
0.6288
0.2454
6.5675
0.0104
> 36 mois
18
Age
Age
> 25 ans
Epargne
Epargne
0.6415
0.2366
7.3501
0.0067
Epargne
Epargne
Garanties
Avec garant
-1.7210
0.5598
9.4522
0.0021
Garanties
Avec garant
Garanties
Sans garant
Garanties
Sans garant
21
Autres_credits
-0.5359
0.2439
4.8276
0.0280
Historique_credit
Autres_credits
Crdits extrieurs
Historique_credit
07/02/2014
Historique_credit
Crdits en1 impay
Stphane Tuffry - Usage
rserv lUniversit Rennes
108
13
Exemples de notations
Note dun jeune de moins de 25 ans, qui demande pour la
premire fois un crdit dans ltablissement et qui nen a
pas ailleurs, sans impay, avec un compte dont le solde
moyen est lgrement positif (mais < 200 ), avec un peu
dpargne (< 500 ), sans garant, qui demande un crdit sur
36 mois :
8 + 0 + 19 + 13 + 8 + 21 + 0 = 69 points
109
FREQUENCE
Pct en ligne
Rang pour
N
la variable
nbpoints Obs Minimum Maximum
0
07/02/2014
104
Cible
OK
KO Total
99
95.19
5
4.81
104
89
93.68
6
6.32
95
100
93.46
7
6.54
107
6.0000000 29.0000000
95 33.0000000 37.0000000
101
19
84.17 15.83
120
71
27
72.45 27.55
98
98 49.0000000 54.0000000
60
33
64.52 35.48
93
93 55.0000000 60.0000000
81
81 61.0000000 65.0000000
48
33
59.26 40.74
60
44
57.69 42.31
104
38
54
41.30 58.70
92
34
72
32.08 67.92
106
92 70.0000000 74.0000000
Seuils
de taux
Total
700
300
110
1000
8,69% dimpays
octroi du crdit avec un minimum
de formalits
Cible
OK
KO Total
37
3.70
8.69
426
42.60
376
37.60
72 126
7.20 12.60
36.36 63.64
198
19.80
91.31
63.56 36.44
risque fort
70 points
Total
07/02/2014
700 300
1000
70.00 30.00 100.00
Stphane Tuffry - Usage rserv lUniversit Rennes 1
111
112
5,61
7,64
80%
10,46
70%
17,27
50,3
60%
50%
26,8
40%
22,37
30%
20%
17,45
32,23
10%
5,67
3,41
0,8
0%
% clients
Score 1
07/02/2014
Score 2
% impays
Score 3
Score 4
Score 5
Score 6
113
10
0,10%
0,22%
0,67%
0,86%
1,38%
2,15%
3,23%
9,37%
21,08%
44,76%
114
Sensibilit et spcificit
Pour un score devant discriminer un groupe A (les positifs;
ex : les risqus) par rapport un autre groupe B (les
ngatifs ; ex : les non risqus), on dfinit 2 fonctions du seuil
de sparation s du score :
sensibilit = (s) = Prob(score s / A) = probabilit de bien
dtecter un positif
spcificit = (s) = Prob(score < s / B) = probabilit de bien
dtecter un ngatif
115
1,0
Courbe ROC
,8
Source de la courbe
,5
Ligne de rfrence
arbre de dcision
,3
analys discriminante
La courbe ROC
0,0
0,0
rgress. logistique
,3
,5
,8
1,0
116
Classe
Score
Classe
0,90
11
0,40
0,80
12
0,39
0,70
13
0,38
0,65
14
0,37
0,60
15
0,35
0,55
16
1,000
N
0,30
0,50
17
0,25
0,45
18
0,44
19
10
0,42
20
,900
Score
0,20
0,15
0,10
,800
0,37
0,15
0,10
,900
1,000
0,25
0,40
,700
True positive rate
0,50
,600
0,42
,500
,400
,300
,200
0,70
,100
,000
,000
07/02/2014
,100
,200
,300
,400
,500
,600
False positive
Stphane Tuffry - Usage rserv lUniversit
Rennesrate
1
,700
,800
117
prdiction parfaite
seuil s maximum :
tous classs en -
prdiction nulle
118
0
0
1
1
45
16
Pourcentage global
12
27
Pourcentage
correct
78,9
62,8
72,0
119
_step_ = 7
0. 9
0. 8
0. 7
_step_ = 1
0. 6
0. 5
0. 4
0. 3
0. 2
0. 1
0. 0
0. 0
0. 1
0. 2
0. 3
0. 4
0. 5
0. 6
0. 7
0. 8
0. 9
1. 0
1 - Spci f i ci t
07/02/2014
120
07/02/2014
121
122
La robustesse
tre le moins sensible possible aux fluctuations alatoires de
certaines variables et aux valeurs manquantes
ne pas dpendre de lchantillon dapprentissage utilis et bien
se gnraliser dautres chantillons
La concision
les rgles du modle doivent tre les plus simples et les moins
nombreuses possible
07/02/2014
123
124
1 quantitative n quantitatives
(covariable)
(covariables)
1 qualitative
(facteur)
n qualitatives
(facteurs)
mlange
ANOVA, arbres
de dcision,
rseaux de
neurones
ANCOVA,
arbres de
dcision,
rseaux de
neurones
MANCOVA,
rseaux de
neurones
rgression
logistique,
arbres, rseaux
de neurones
expliquer
1 quantitative
n quantitatives
(reprsentent des
quantits )
1 qualitative
nominale ou
binaire
1 discrte
(comptage)
1 quantitative
asymtrique
1 qualitative
ordinale
n quantitatives
ou07/02/2014
qualitatives
rg. linaire
simple,
rgression
robuste, arbres
de dcision
rgression
PLS2
ADL,
rgression
logistique,
arbres de
dcision
MANOVA
MANOVA,
rseaux de
neurones
ADL, rg. logistique, rgression
rgression
reg. logistique PLS, logistique,
logistique,
arbres, rseaux de
DISQUAL,
DISQUAL,
neurones, SVM
arbres
arbres, rseaux
de neurones
modle linaire gnralis
(rgression de Poisson, modle log-linaire)
modle linaire gnralis
(rgressions gamma et log-normale)
rgression logistique ordinale
(au moins 3 niveaux)
125
126
127
0
0
0
1
0 1
0
1
0
0
1
1
? 0
1
1
0
1
0
0
0
0
1 10 1
0
1 1 11
?
00 00
+
1
1
+ ? 00
+
1
1
00 11
0
0
0
0
1 10 1
0
1 1 11
?
00 00
+
1
1
+ ? 00
+
1
1
00 11
Analyse discriminante
Rseau de neurones
Arbre de dcision
128
129
Lagrgation de modles
07/02/2014
130
i =1
131
Dilemme Biais-Variance
Plus un modle est complexe, plus son biais diminue mais plus sa
variance augmente
Nous devons trouver le bon rglage (trade-off) entre biais et variance,
entre ajustement aux donnes dapprentissage (biais) et capacit de
gnralisation (variance)
Dans quelques cas simples, la complexit dun modle est gale au
nombre p de paramtres
Dans certaines situations, on ne peut pas diminuer le nombre de
paramtres car les utilisateurs veulent voire apparatre simultanment
des critres mme sils sont fortement corrls
Mdecine, avec des mesures physiologiques, des rsultats danalyses
Banque, avec des critres qualitatifs saisis sur les entreprises
132
133
Ridge plot
volution des coefficients en fonction de la pnalisation
07/02/2014
134
135
136
Bagging 1/2
En moyennant des classifieurs (par exemple des arbres) sur B
chantillons bootstrap, on obtient un classifieur :
dont le biais na pas diminu
dont la variance a diminu dautant plus que la corrlation entre les
classifieurs est faible
137
Bagging 2/2
Le classifieur de base est le mme chaque itration : arbre de
dcision, rseau de neurones
La corrlation entre les classifieurs est diminue par :
le mcanisme de bootstrap
laugmentation de la complexit
138
vite de voir apparatre trop souvent les mmes variables les plus
discriminantes
Chaque arbre lmentaire est moins performant mais lagrgation
conduit un modle agrg plus performant : laugmentation du biais
est plus que compense par la diminution de la variance
R : packages randomForest (sur arbre CART) et party (sur arbre Ctree)
07/02/2014
139
140
07/02/2014
141
142
143
144
07/02/2014
145
146
Algorithme Arcing
1) Initialiser les poids des N individus de lchantillon
dapprentissage : pi = 1/N, i = 1, 2, , N
2) Rpter pour m = 1 M
dans lchantillon dapprentissage, tirer avec remise N individus chacun
selon la probabilit pi
ajuster le classifieur fm(x) {-1,+1} sur lchantillon ainsi tir
sur lchantillon dapprentissage initial :
calculer le taux derreur m pondr des observations mal classes par fm(x) et
calculer m = ln((1-m)/m)
si m < 0,5, multiplier le poids pi de chaque observation mal classe par exp(m)
pour i = 1, 2, , N (sinon : interrompre lalgorithme ou rinitialiser les poids)
normaliser les poids pi pour que leur somme soit 1
147
148
2) Rpter pour m = 1 M
calculer la probabilit pm(x) = P(Y = 1|x) sur lchantillon
dapprentissage pondr par les poids pi
149
FORTS ALATOIRES
Idem bagging
chaque itration,
lapprentissage se fait sur un
Idem bagging
chantillon bootstrap
diffrent
chaque itration,
chaque itration,
lapprentissage se fait sur un
lapprentissage se fait sur
sous-ensemble alatoire de
lensemble des prdicteurs
prdicteurs
chaque itration, le modle
produit doit aussi tre
chaque itration, le
modle produit doit tre
performant sur lensemble des
performant sur lensemble observations, mais lest moins
des observations
que le bagging, puisque tous les
prdicteurs ne sont pas utiliss
Dans lagrgation finale,
tous les modles ont le
Idem bagging
mme poids
07/02/2014
BOOSTING
Le boosting est un mcanisme
adaptatif et gnralement (sauf
larcing) dterministe
Gnralement (sauf larcing),
chaque itration, lapprentissage
se fait sur lchantillon initial
complet
chaque itration,
lapprentissage se fait sur
lensemble des prdicteurs
chaque itration, le modle
produit doit tre performant
sur certaines observations ; un
modle performant sur certains
outliers sera moins performant
sur les autres observations
Dans lagrgation finale, les
modles sont gnralement
pondrs selon leur derreur
150
FORTS ALATOIRES
BOOSTING
Idem
Idem
Idem bagging
Idem bagging
Algorithme squentiel ne
pouvant tre paralllis
Idem bagging
Risque de sur-apprentissage si le
nombre ditrations est grand
Possibilit de parallliser
lalgorithme
Pas de sur-apprentissage :
suprieur au boosting en
prsence de bruit
Le bagging est le plus simple
mettre en uvre mais est
gnralement moins
discriminant que les forts
alatoires et le boosting
07/02/2014
151
07/02/2014
152
153
De nouvelles problmatiques
Les donnes fonctionnelles sont des donnes qui ne sont pas
ponctuelles mais sont continues, comme des courbes ou des
images
Ces donnes se sont multiplies avec les progrs technologiques qui
permettent la collecte et le stockage dobservations de plus en plus
fines, captant en continu les informations sur un objet tudi
(mtorologique, environnemental, mdical, alimentaire)
Au lieu de discriminer des individus au vu de quelques caractristiques
des instants choisis, on na pas da priori sur le moment et la dure
des diffrences entre deux courbes dvolution
154
p >> n
La rgression en grande dimension pose le problme
classique de slection des variables
On rencontre aussi, par exemple en bio-statistique
(squenage de lADN) ou en chimiomtrie (statistique
applique aux donnes chimiques), des situations o le
nombre de variables est suprieur, voire trs suprieur, au
nombre dindividus (on parle de tableaux plats), et o les
mthodes classiques de rgression ne sappliquent pas et
cdent la place des mthodes telles que la rgression
Lasso ou PLS
Le nombre de variables tudies peut varier entre 104 et
108, alors que le nombre d'observations est de quelques
centaines
07/02/2014
155
07/02/2014
156
157
158
159
160
07/02/2014
161
T26
T1245
T156
T2356
T145
07/02/2014
162
Les lments dune rgle {A = xA, B = xB, ...} {Z = xZ} sont les items
Exemple :
>
163
164
Exemples :
lift (C B) = 5/6 (rgle inutile)
lift (B E) = 5/4 (rgle utile)
07/02/2014
165
et
Prob (NON rsultat) = 1 - Prob (rsultat)
do Prob (NON rsultat) < confiance (rgle inverse)
166
Algorithme Apriori
Cest lalgorithme le plus rpandu (Agrawal et al.)
Il fonctionne en deux tapes :
il commence par rechercher les sous-ensembles ditems ayant une
probabilit dapparition (support) suprieure un certain seuil s
1e passe : limination des items moins frquents que s
2e passe : constitution des combinaisons de deux items parmi les
prcdents, et limination des combinaisons moins frquentes que s
etc : les ensembles frquents de taille n qui nous intressent sont ceux
provenant densembles de taille n 1 eux-mmes frquents
167
Mise en uvre
En pratique, les rgles demeurent trs nombreuses, et la plupart des
logiciels permettent de stocker ces rgles dans un fichier, dans lequel
il est possible de filtrer les rgles Condition Rsultat en de dun
certain indice de support, et de les trier selon leur support, leur
confiance ou leur lift
On est gnralement plus svre sur le seuil de confiance que de
support, surtout si lon recherche des rgles rares, et un exemple
courant de filtre sera 75 % pour la confiance et 5 % pour le support
(et bien sr 1 pour le lift)
Mme avec ces filtres, le nombre de rgles peut vite atteindre
plusieurs millions pour seulement quelques centaines ditems et
quelques milliers dobservations
Certains logiciels permettent dajouter un filtre sur le contenu des
rgles, pour ne conserver que celles qui contiennent un item donn
dans leur rsultat ou leurs conditions
Les logiciels permettent aussi de fixer une limite la taille des rgles :
on dpasse rarement 10 items
07/02/2014
168
Taxinomie : dfinition
Les produits peuvent tre dfinies avec un niveau plus ou
moins fin de dtail
On peut par exemple considrer :
les produits dpargne bancaire, financire
parmi les produits dpargne bancaire, les comptes de chques,
les livrets
parmi les livrets, les livrets A, les Codevi, les LEP
07/02/2014
169
Taxinomie : utilisation
Le niveau le plus fin permet dentreprendre des actions
commerciales plus prcises
Mais travailler au niveau le plus fin multiplie les rgles, parmi
lesquelles un grand nombre nauront quun faible support et
seront peut-tre limines
07/02/2014
170
Taxinomie : intrt
Les articles les plus rares et les plus chers (exemple :
micro-informatique ou HIFI dans un grand magasin) seront
codifis au niveau le plus fin
Les articles les plus courants (exemple : produits
alimentaires) seront codifis un niveau plus gnral
On regroupera par exemple tous les yaourts, fromages
blancs, flancs en produits laitiers , tout en distinguant
un tlviseur dun magntoscope ou dun camscope
Lintrt de cette faon de procder est dobtenir des
rgles plus pertinentes, dans lesquelles les articles les plus
courants ne dissimulent pas, par leur frquence, les articles
les moins courants
07/02/2014
171
172
173
Conclusion
07/02/2014
174
Perspectives professionnelles
Finance
Rglementations Ble II (et Ble III)
volution des marchs boursiers
Marketing
Dont marketing direct et sur le web
tude des prfrences et des comportements des consommateurs
Revenue management
Assurance (scoring et actuariat)
Industrie
Contrle qualit
Industrie pharmaceutique, sant
Tests cliniques, pharmacovigilance, pidmiologie
Mdecine
Analyses de survie, causes, prvention et traitement des maladies
Environnement et Mtorologie
tudes sur le climat, la pollution
Recherche scientifique
07/02/2014
175
07/02/2014
176
Quelques liens
Site de la Socit Franaise de Statistique : www.sfds.asso.fr
Site de Gilbert Saporta (contenu riche, avec de nombreux cours) :
http://cedric.cnam.fr/~saporta/
Site de Philippe Besse (trs complet sur les statistiques et le data mining) :
www.math.univ-toulouse.fr/~besse/
Site du livre The Elements of Statistical Learning de Hastie, Tibshirani et
Friedman : http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Un livre complmentaire : http://www-bcf.usc.edu/~gareth/ISL/index.html
StatNotes Online Textbook (statistiques) :
www2.chass.ncsu.edu/garson/pa765/statnote.htm
Statistique avec R : http://zoonek2.free.fr/UNIX/48_R/all.html
Donnes relles : http://www.umass.edu/statdata/statdata/index.htm
Site dOlivier Decourt (spcialiste de SAS) : www.od-datamining.com/
Blog dArthur Charpentier : http://freakonometrics.blog.free.fr/
07/02/2014
177