Académique Documents
Professionnel Documents
Culture Documents
Stéphane TUFFERY
Université Rennes 1
Master 2 Ingénierie économique et financière
Octobre 2011
carte de Kohonen
taux mauvaise
d'erreur généralisation
données de test
et d'application
t
données apprentissage
bonne
généralisation
taille de l'échantillon
Théorème de Vapnik :
taille suffisante
h (log( 2n / h) 1) log( / 4)
R Remp
n
14/10/2011 © Stéphane Tufféry - Usage réservé à l’Université Rennes 1 34
Représentativité de l’échantillon d’étude
Hypothèse fondamentale :
l’échantillon d’étude est représentatif de la population à
laquelle sera appliqué le modèle
N’implique pas un échantillonnage aléatoire simple :
événement à prédire rare stratification non
proportionnelle de l’échantillon sur la variable à expliquer
parfois : 50 % de positifs et 50 % de négatifs
nécessaire quand on utilise CART pour modéliser 3 %
d’acheteurs, sinon CART prédit que personne n’est
acheteur excellent taux d’erreur = 3 % !
change la constante du logit de la régression logistique
intéressant en cas d’hétéroscédasticité dans une analyse
discriminante linéaire
P
a
s
c
a
l
PREDICTION
f
14/10/2011 © Stéphane Tufféry - Usage réservé à l’Université Rennes 1 40
Sélection des périodes d’observation
Élaboration du modèle
:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:--:
– 24 mois – 12 mois aujourd’hui
observation des observation de la
variables explicatives variable à expliquer
Application du modèle
:---:---:---:---:---:---:---:---:---:---:---:---:---:---:---:---:---:--
- 18 mois – 6 mois aujourd
?
observation des
:--:--:--:--:--:--:--:--:--:--:--:-- observation de la:
:--:--:--:--:--:--:--:--:--:--:--:--
– 12 mois aujourd’hui + 12 mois
variables explicatives variable cible
observation des prédiction de la
variables explicatives variable à expliquer
Hommes
sans achat avec achat TOTAL taux d'achat
courriel 950 50 1 000 5,00%
téléphone 475 25 500 5,00%
TOTAL 1 425 75 1 500 5,00%
Femmes
sans achat avec achat TOTAL taux d'achat
courriel 450 50 500 10,00%
téléphone 900 100 1 000 10,00%
TOTAL 1 350 150 1 500 10,00%
patrimoine - âge
P
C
R
2
0
crédit conso-5 - CB
0 5 10
0 0
0 1 2
xi
3
0
xi
0 1 2 3 0 1 2 3
2 X . X 3 0.04 0 . 0.166667
5 . . X 91 1.12 . . 0.000916
6 O O O 4 0.05 . . .
clients sans
appétence
clients avec
appétence
variable explicative Y
14/10/2011 © Stéphane Tufféry - Usage réservé à l’Université Rennes 1 58
Pourquoi discrétiser ?
Appréhender des liaisons non linéaires (de degré >1),
voire non monotones, entre les variables continues
par une ACM, une régression logistique ou une analyse
discriminante DISQUAL
Neutraliser les valeurs extrêmes (« outliers »)
qui sont dans la 1ère et la dernière tranches
Gérer les valeurs manquantes (imputation toujours
délicate)
rassemblées dans une tranche supplémentaire spécifique
Gérer les ratios dont le numérateur et le dénominateur
peuvent être tous deux > 0 ou < 0
Traiter simultanément des données quantitatives et
qualitatives
14/10/2011 © Stéphane Tufféry - Usage réservé à l’Université Rennes 1 59
Exemple de discrétisation
Analysis Variable : Age
On commence par
Rang pour
découper la variable la variable N
explicative en déciles, et Age Obs Minimum Maximum
à regarder à quelle valeur 0 105 19.0000000 23.0000000
Exemple de discrétisation
pour la
variable Age) Cible
FREQUENCE
Pourcentage
Pct en ligne 1 2 Total
un seuil à 25 ans. 4 72 33
7.20 3.30
105
10.50
68.57 31.43
8 84 21 105
Le découpage de l’âge en deux 8.40 2.10
80.00 20.00
10.50
d’épargne »
70.00 30.00 100.00
(A) Modèle trop simp le (B) B on modèle (C) Modèle trop complexe
mauvaise
taux généralisation
d'erreur données de test
et d'application
bonne
généralisation
données apprentissage
taille du modèle
(A) (B) arrêter ici (C)
Théorème de Vapnik :
h (log( 2n / h) 1) log( / 4)
R Remp
n
14/10/2011 © Stéphane Tufféry - Usage réservé à l’Université Rennes 1 70
Rappel sur les tests
Tests paramétriques
supposent que les variables suivent une loi
particulière (normalité, homoscédasticité)
ex : test de Student, ANOVA
Tests non-paramétriques
ne supposent pas que les variables suivent une loi
particulière
se fondent souvent sur les rangs des valeurs des variables
plutôt que sur les valeurs elles-mêmes
peu sensibles aux valeurs aberrantes
ex : test de Wilcoxon-Mann-Whitney, test de Kruskal-Wallis
Exemple du r de Pearson et du de Spearman :
r > présence de valeurs extrêmes ?
> r liaison non linéaire non détectée par Pearson ?
ex : x = 1, 2, 3… et y = e1, e2, e3…
14/10/2011 © Stéphane Tufféry - Usage réservé à l’Université Rennes 1 71
Liaison entre une variable continue et
une variable de classe
(échantillons ordonnés)
moins puissant
(*) Ces tests supportent mieux la non-normalité que l’hétéroscédasticité.
(**) Ces tests travaillant sur les rangs et non sur les valeurs elles-mêmes,
ils sont plus robustes et s’appliquent également à des variables ordinales
(***) ne pas comparer toutes les paires par des tests T on détecte à tort des
différences significatives (au seuil de 95 % : dans 27 % des cas pour 4 moyennes égales)
14/10/2011 © Stéphane Tufféry - Usage réservé à l’Université Rennes 1 72
Tableau ANOVA et statistique F
Z 1.7146
5 0.17354 Objet_credit
Ici les variables sont 6 0.15809 Montant_credit
qualitatives et la liaison 7 0.15401 Biens
0,4
9 0.13491 Statut_domicile
0,35 10 0.12794 Age
0,3
11 0.11331 Autres_credits
0,25
e
oi
e
it
e
oi
le
t
ts
es
ts
s
t
it
le
le
di
di
on
ed
ffo
gn
en
Ag
t ie
ed
pl
pl
ilia
di
ici
di
ici
ar
re
pt
re
ph
em
m
re
cr
an
_e
Bi
ar
cr
ch
om
m
m
_c
_c
0.04342 Type_emploi
cr
16
_e
e_
_c
Ep
do
le
ux
ar
fa
Co
s_
e_
s_
et
ue
nt
_d
Te
pe
re
Nb
G
n_
e_
Ta
ta
bj
er
tre
et
riq
ut
Du
Ty
O
on
io
_p
et
nn
at
Au
to
at
nn
M
Nb
St
cie
s
tu
Hi
0.03647 Telephone
cie
17
Si
An
An
18 0.02737 Anciennete_domicile
14/10/2011 © Stéphane Tufféry - Usage réservé à l’Université Rennes 1 0.00301 Nb_pers_charge
83
19
Pourquoi le V de Cramer ?
Classe 1 Classe 2 Ensemble Classe 1 Classe 2 Ensemble
2
V de Cramer =
max
2
V18 18 V16 2
t
a
0
9
1
V V
0 0
seuil
40 n 4
1 3 V
V22 18 V32 2 t 1 V
V
V19 16 V37 2
seuil
3 0
30 0 V V
V17 15 V11 1 2 4 1 2 V V V
1 1 V V
8 2 2 0 V V
V24 14 V21 1 20 9 7
4 8
3 2
0 V V V V V V
V08 13 V23 1 6 8 V V
7 2 2 1 1 2 3 V V V V V V V V V V
10 5 6 1 2
V36 12 V27 1 5 2 9 1
0 0
0 1 3 3 1 2 2 2 3 3
6 6 2 7 1 1 3 7 4 5
V28 11 V34 1
0
V07 10 V35 1
Intérêt du « bootstrap
aggregating » (bagging) avec
des méthodes relativement
peu robustes comme les
arbres de décision
14/10/2011 © Stéphane Tufféry - Usage réservé à l’Université Rennes 1 93
Élagage d’un arbre de décision
taux
d'erreur données de test
et d'application
données apprentissage
profondeur arbre
élaguer ici (nb de feuilles)
Historique_credit Crédits sans retard 1 0.4519 0.2385 3.5888 0.0582 Comptes CC < 0 euros 25
Historique_credit Jamais aucun crédit 0 0 . . . Duree_credit ≤ 15 mois 0
Duree_credit > 36 mois 1 1.4424 0.3479 17.1937 <.0001
Duree_credit 16-36 mois 13
Duree_credit 16-36 mois 1 1.0232 0.2197 21.6955 <.0001
pour la variable
nbpoints) Cible
Analysis Variable : nbpoints
FREQUENCE
Rang pour Pct en ligne OK KO Total
la variable N 0 99 5 104
95.19 4.81
nbpoints Obs Minimum Maximum 89 6 95
1
93.68 6.32
0 104 6.0000000 29.0000000
2 100 7 107
1 95 33.0000000 37.0000000 93.46 6.54
3 101 19 120
2 107 39.0000000 42.0000000 84.17 15.83
100% 5,61
90% 7,64
80% 10,46
50,3
70% 17,27
60%
50%
26,8
40% 22,37
30%
20% 17,45
32,23
10% 5,67
0% 3,41
0,8
% clients % impayés
50,00%
45,00%
40,00%
35,00%
30,00%
25,00%
20,00%
15,00%
10,00%
5,00%
0,00%
1 2 3 4 5 6 7 8 9 10
taux souscription 0,10% 0,22% 0,67% 0,86% 1,38% 2,15% 3,23% 9,37% 21,08% 44,76%
Courbe ROC ,8
Source de la courbe
,5
Ligne de référence
arbre de décision
,3
analys discriminante
La courbe ROC
0,0 régress. logistique
sur l’axe Y : sensibilité = (s) 0,0 ,3 ,5 ,8 1,0
1 P 0,90 11 P 0,40
2 P 0,80 12 N 0,39
3 N 0,70 13 P 0,38
4 P 0,65 14 P 0,37
5 P 0,60 15 N 0,35
6 P 0,55 16 1,000
N 0,30
7 P 0,50 17 N 0,25 0,37 0,15 0,10
,900
8 N 0,45 18 P 0,20
9 N 0,44 19 N 0,15 0,25
,800
10 N 0,42 20 N 0,10
0,40
,700
0,50
True positive rate
,600
0,42
,500
,400
,300
,200
0,70
,100
,000
,000 ,100 ,200 ,300 ,400 ,500 ,600 ,700 ,800 ,900 1,000
seuil s minimum :
prédiction parfaite
taux de vrais positifs tous classés en +
seuil s maximum :
prédiction nulle
tous classés en -
Prévu
CHD Pourcentage
Observé 0 1 correct
CHD 0 45 12 78,9
1 16 27 62,8
Pourcentage global 72,0
a. La valeur de césure est ,500
prédit0.900
1 0 57 1 total
0 42 58.0 2.3 100.0 0.0 42.4
Observé
1.000
0 57 0 43 57.0 0.0 100.0 . 43.0
_step_ = 7
0. 9
0. 8
0. 7
_step_ = 1
0. 6
0. 5
0. 4
0. 3
0. 0 0. 1 0. 2 0. 3 0. 4 0. 5 0. 6 0. 7 0. 8 0. 9 1. 0
1 - Spéci f i ci t é
2 0 1490 1384443.0 1490 1384443 711 1038858 273648 785742 273648 0.74169
14/10/2011 © Stéphane Tufféry - Usage réservé à l’Université Rennes 1 112
Utilisation de l’AUC
Le modèle est d'autant meilleur que l’AUC est plus
proche de 1
Si l'AUC = 0,5 : modèle pas meilleur qu'une notation
aléatoire. Il existe un intervalle de confiance sur
l’AUC et un test associé :
Ai re sous la courbe
% d'individus répondants
80
ciblage par scoring
sous la courbe ROC 70
60
ciblage idéal
1 00 1 0 0 1 0 0
0 0 1 0 1 0 0 1 10 1 0 0 1 10 1
0 1 0 1 1 11 0 1 1 11
0 0 ? 00 00 ? 00 00
1 1 ? 0 +
1 1
+ ? 00 +
1 1
+ ? 00
1 1 0 1 +
1 1 00 11 +
1 1 00 11
b 1
0,760
0,740
Aire sous la courbe ROC
0,720
0,700
0,680
0,660
0,640
0,620
1 10 19 28 37 46 55 64 73 82 91 100
Nombre d'échantillons bootstrap
0,760
0,750
Aire sous la courbe ROC
0,740
0,730
0,720
0,710
0,700
1 10 19 28 37 46 55 64 73 82 91 100
Nombre d'échantillons bootstrap
AUC validation CHAID (leaf = 50) AUC validation logit AUC validation ADL
Exemple :
> Si riz et vin blanc, alors poisson