Académique Documents
Professionnel Documents
Culture Documents
analyse discriminante :
comparaisons théoriques et
pratiques
Gilbert Saporta
Conservatoire National des Arts et Métiers
saporta@cnam.fr
http://cedric.cnam.fr/~saporta
1
Bibliographie
Bardos: « Analyse discriminante », Dunod, 2001
Celeux, Nakache :« Analyse discriminante sur variables
qualitatives» Polytechnica ,1994
Droesbeke, Lejeune, Saporta (éditeurs): « Modèles
statistiques pour données qualitatives » Technip, 2005
Hastie, Tibshirani, Friedman : « The Elements of Statistical
Learning », Springer-Verlag, 2001
Hosmer, Lemeshow : «Applied logistic regression», Wiley,
2000
Nakache, Confais: « Statistique explicative appliquée »,
Technip, 2003
Thomas, Edelman,Crook: « Credit scoring and its
applications », SIAM, 2002
2
Plan
I L’analyse discriminante
II La régression logistique
III Prédicteurs qualitatifs et scoring
IV Comparaison
3
Objet d’étude
Observations multidimensionnelles réparties en k
groupes définis a priori. K=2 le plus souvent
Exemples d’application :
Pronostic des infarctus (J.P. Nakache)
• 2 groupes : décès, survie (variables médicales)
Iris de Fisher :
• 3 espèces : 4 variables (longueur et largeur des pétales et sépales)
Risque des demandeurs de crédit
• 2 groupes : bons, mauvais (variables qualitatives)
Autres :
• Publipostage, reclassement dans une typologie.
4
Quelques dates :
Analyse discriminante
Mahalanobis (crâniologie) 1927
Fisher (biométrie) 1936
Régression logistique
Berkson (biostatistique) 1944
Cox 1958
Mc Fadden (économétrie) 1973
5
I : L’analyse discriminante
1. Aspect géomètrique:
- Réduction de dimension, axes et
variables discriminantes.
- Cas de 2 groupes.
- Méthodes géométriques de classement.
2. AD probabiliste
6
Représentation des données
1 2 ... k 1 2 j p
1 0 1 ... 0 X 11 X 12 X 1j X 1p
2 1 0 ... 0
...
i 0 0 ... 1 X i1 X i2 X ij X ip
n 1 0 ... 0 X n1 X n2 X nj X np
indicatrices des groupes variables explicatives
7
Réduction de dimension. Recherche d’axes et
de variables discriminantes.
gk
Vk
V = W + B variance totale
8
Axes discriminants : deux
objectifs
g2 9
Simultanéité impossible
min u 'Wu Wu u min i
max u ' Bu Bu u max i
V W B
Compromis : u V u u W u u B u
min max
u B u u B u
max ou
u V u u W u
V -1 Bu u W -1 Bu u
10
a) V 1 Bu u
Bu Vu
Bu (W B)u
1- Bu Wu
b) W Bu
-1
u u
1-
ACP du nuage des gi avec :
Métrique V-1
Métrique W-1 Mahalanobis
11
Nombre d’axes discriminants
12
Iris setosa Iris versicolor Iris virginica
13
14
15
Cas de deux groupes
g1 et g2 sont sur une une droite : 1 seul axe discriminant :
e
a ( g1 g2 )
d1 -d2
Test (de Student) de comparaison de 2 moyennes : T=
sd
Fisher (1936)
Trouver u1, , u 2 , ..., u p tel que T maximal.
Solution : u proportionnel à W -1 g1 -g 2
n1n 2
Nota : W -1
g1 -g2 =α V -1
g1 -g 2 avec : α=1+ D 2p
n n-2
17
Distance de MAHALANOBIS
Dp
g2
g1
2. p quelconque : D p2 g1 g 2 'W 1 g1 g 2
D p2 g1 g 2 W 1/ 2 W 1/ 2 g1 g 2
W 1/2 X
Standardisation de chaque composante xj
Décorrélation...
18
Équivalence régression
a si G1
Y
b si G 2
Régression : y X e ˆ X ' X 1 X ' y
2
D
n
Si a= et b= -
n1
n
n2
y 0 alors ˆ V 1 g1 g 2 R2 p
n n 2
D p2
n1n2
n(n 2) R 2
D 2
p
n1n2 1 R 2
19
Équivalence régression
MAIS : Modèle linéaire usuel non valide :
y / x ~N x ; 2 I
en discriminante c’est l’inverse que l’on suppose :
x / y ~N i ;
20
Conséquences
Pas de test,
pas d’erreurs standard sur les
coefficients
MAIS possibilité d’utiliser les méthodes de
pas à pas en régression.
Aussi une source de malentendus…
21
Obs C PRONO FRCAR INCAR INSYS PRDIA PAPUL PVENT REPUL
1 2 SURVIE 90 1.71 19.0 16 19.5 16.0 912
2 1 DECES 90 1.68 18.7 24 31.0 14.0 1476
3 1 DECES 120 1.40 11.7 23 29.0 8.0 1657
4 2 SURVIE 82 1.79 21.8 14 17.5 10.0 782
5 1 DECES 80 1.58 19.7 21 28.0 18.5 1418
6 1 DECES 80 1.13 14.1 18 23.5 9.0 1664
7 2 SURVIE 94 2.04 21.7 23 27.0 10.0 1059
8 2 SURVIE 80 1.19 14.9 16 21.0 16.5 1412
9 2 SURVIE 78 2.16 27.7 15 20.5 11.5 759
10 2 SURVIE 100 2.28 22.8 16 23.0 4.0 807
11 2 SURVIE 90 2.79 31.0 16 25.0 8.0 717
12 2 SURVIE 86 2.70 31.4 15 23.0 9.5 681
13 2 SURVIE 80 2.61 32.6 8 15.0 1.0 460
14 2 SURVIE 61 2.84 47.3 11 17.0 12.0 479
15 2 SURVIE 99 3.12 31.8 15 20.0 11.0 513
16 2 SURVIE 92 2.47 26.8 12 19.0 11.0 615
17 2 SURVIE 96 1.88 19.6 12 19.0 3.0 809
18 2 SURVIE 86 1.70 19.8 10 14.0 10.5 659
19 2 SURVIE 125 3.37 26.9 18 28.0 6.0 665
20 2 SURVIE 80 2.01 25.0 15 20.0 6.0 796
22
SPAD
23
Méthodes géométriques de
y
1 classement
x' . . . xp
1
2 Échantillon d’apprentissage
.
.
.
e
g1 e classé dans le groupe i tel que:
G1
g2
G2 d(e ; gi) minimal
g3 G3
24
pour deux groupes
25
Interprétation géométrique
Projection sur la droite des centres avec la
métrique W-1
Dualité axe-frontière plane
frontière
axe discriminant
26
Analyse discriminante
probabiliste.
p j p ro b a b ilité a p r io r i d ’a p p a rte n ir a u g ro u p e j
f j ( x ) lo i d e s x i d a n s le g ro u p e j
p j f j (x)
F o rm u le d e B a y e s : P ( G j / x ) k
p j f j (x)
j 1
P ro b lè m e : e s tim e r le s f j (x )
27
La règle bayésienne
naïve dans le cadre normal
f j x densité d'une N j ; j
1 1
f j x exp - x j j 1 x j
2 j
1/ 2
p/2
2
max p j f j x attribuer x au groupe le plus
probable a posteriori
1 1
max Ln p j x j j x j Ln
1
j
2 2
règle quadratique
28
La règle bayésienne
Hypothèse simplificatrice : 1 2 ... =
On attribue x au groupe j tel que :
1 1
max Ln p j x 1 x j 1 j x 1 j
2 2
indépendant
du groupe
1
donc : max Ln p j j j x j
1 1
2
a j
Règle linéaire équivalente à la règle géométrique si équiprobabilité, après estimation
de j par g j et de par W.
29
Analyse discriminante probabiliste:
cas de deux groupes
Affecter au groupe 1 si : p1 f1 x p2 f 2 x
fi x
1/ 2
1
2
p/2
exp 1/
2 x
i
'
-1
x i
-1 x 1/ 2 1 -1 1 Log p1 2 -1 x 1/ 2 2 -1 2 Log p 2
1
30
Fonction de score et probabilité
p1 2
Règle :affecter au groupe 1 si S(x)>0
Probabilité d’appartenance au groupe 1 :
p1e
1/ 2 x 1 1 x 1
P G1 / x
p1e
1/ 2 x 1 1 x 1 p e1/ 2 x 2 1 x 2
2
1
1/2 x 1 1 x 1 1/2 x 2 1 x 2
1/ p 1 p2 / p1e 31
Probabilité a posteriori
Log 1/p-1 S x
-S x
1/p=1+e
S x
1 e
p S x
S x
Fonction logistique du score
e 1 1 e
32
S(x)
From Classified
Obs PRONO into PRONO DECES SURVIE
35
II.1 Le modèle logistique simple
Réponse dichotomique : Y = 0 / 1
Variable explicative : X
Objectif : Modéliser
0 1x
e Probabilité d'une maladie cardiaque
( x ) 0 1x
en fonction de l'age
1 e
1.0
.8
ou .6
.4
Prob(Y=1 / X)
( x ) .2
Log( ) 0 1x
1 ( x )
0.0
10 20 30 40 50 60 70
AGE
38
II.2 Odds-Ratio
Si X binaire (sujet exposé X=1, non exposé
X=0)
e 0 1 e 0
P (Y 1 / X 1) P (Y 1 / X 0)
1 e 0 1 1 e 0
P (Y 1/ X 1) / P(Y 0 / X 1)
OR e 1
P(Y 1/ X 0) / P(Y 0 / X 0)
39
Odds-Ratio
Mesure l’évolution du rapport des chances
d’apparition de l’événement Y=1 contre Y=0
(la cote des parieurs) lorsque X passe de x à
x+1.
Formule générale:
( x 1) /(1 ( x 1))
OR e 1
( x) /(1 ( x))
40
II.3Interprétation économètrique
41
Modèle d’utilité
pour le ménage i de caractéristiques xi (âge, sexe,
revenu, CSP...), la possession du bien procure un
niveau d’utilité U(1,xi), la non possession U(0,xi).
42
Modèle d’utilité (suite)
Zi = xi + i
πi = P(Yi=1|xi)= P(Zi > 0)=P(xi > -i) = F(xi)
F fonction de répartition de -i
Choix de F:
Logistique :modèle logit, régression logistique
Normal: modèle probit
43
II.4 Estimation des paramètres
X Y
x
1y1 ( x i ) P ( Y 1 / X xi )
x
i y
i e0 1x i
0 1x i
x
nyn 1 e
yi = 1 si caractère présent,
0 sinon
44
Vraisemblance (conditionnelle!)
Probabilité d’observer les données
[(x1,y1), …, (xi,yi), …, (xn,yn)]
n n
1 yi
Prob( Y y i / X x i ) ( x i ) (1 ( x i ))yi
i 1 i 1
45
maximum de vraisemblance
ˆ et maximisent
ˆ L( 0 , 1 ) L(β)
0 1
Maximisation de la log-vraisemblance
n
( ) log L(β) yi log i ( x) (1 yi ) log(1 i ( x))
i 1
( ) n
( yi i ( x)) 0
0 i 1
( ) n
Estimateurs obtenus
1par
des
i 1
( yi i ( x)) numériques:
xi procédures 0 pas
d’expression analytique
46
Précision (asymptotique) des estimateurs
La matrice
V (ˆ ) Cov (ˆ , ˆ )
V(ˆ ) 0 0 1
ˆ ˆ ˆ
Cov(0 , 1 ) V(1 )
1
Log L()
2
est estimée par la matrice
2
ˆ
47
1
ˆ ( )
2
V ( )
2
ˆ
1
n n
ˆi (1 ˆ i ) xiˆi (1 ˆi )
n
i 1 i 1
n
xiˆi (1 ˆi ) xi ˆi (1 ˆi )
2
i 1 i 1
1
1 x
1 1 (1 1 )
ˆ ˆ
0 1 x1
1 xn 0 ˆ n (1 ˆ n ) 1 xn
( X VX ) 1.
48
Régression logistique
multiple
Généralisation à p variables explicatives X1,
…, Xp.
0 1 x1 ... p x p
e
( x ) P(Y 1/ X x ) 0 1 x1 ... p x p
1 e
49
The LOGISTIC Procedure
Standard
Parameter DF Estimate Error Chi-Square Pr > ChiSq
50
II.5 Tests sur les paramètres
51
Test de Wald
55
Tests
56
III Discrimination sur variables
qualitatives et scoring
Y variable de groupe
X1 , X 2 , ... , X p Variables explicatives à m1 , m 2 , ... , m p modalités
Exemples
Solvabilité d'emprunteurs auprès de banques
bon payeur
Y:
mauvais payeur
X1: sexe, X 2 : catégorie professionnelle etc.
Risque en assurance automobile
bon conducteur (pas d'accidents)
Y:
mauvais conducteur
X1: sexe, X 2 : tranche d'âge, X 3: véhicule sportif ou non ...
Reclassement dans une typologie
Y numéro de groupe
57
Un peu de (pré)histoire
Fisher (1940)
Un seul prédicteur
Equations de l’AFC
« Scores » were introduced
58
59
60
Cas général p prédicteurs
Quantification optimale:
Donner des scores partiels aux catégories pour
maximiser la distance de Mahalanobis dans Rp
Une analyse discriminante où les variables
qualitatives sont remplacées par des
indicatrices 0 1 0 1 0
1 0 0 0 1
0 0 1 1 0
=X
61
X n’est pas de plein rang: rank(X)=mi-p
Solution classique: éliminer une indicatrice par
prédicteur
Disqual (Saporta, 1975):
• ADL effectuée sur une sélection de facteurs de l’ACM
de X. Analogue de la régression sur composantes
principales
62
DISQUAL
1ère étape
Analyse des correspondances du tableau des prédicteurs.
Profession Logement z1 . . . zk
P1 P2 P3 P4 Prop. Loc.
1
11 0 0 0 0 1
2
20 1 0 0 1 0
.
. . Z=
.
X . . ...
.
. .
. .
n
k variables
n numériques : garder les coordonnées factorielles
les plusvariables
discriminantes
indicatrices
63
2ème étape :
k
Analyse discriminante linéaire (Fisher). Score s dj z j
j 1
65
Example assurance (SPAD)
66
ACM
67
ADL de Fisher sur les composantes
FACTEURS CORRELATIONS COEFFICIENTS
..............................................................................
1 F 1 0.719 6.9064
2 F 2 0.055 0.7149
3 F 3 -0.078 -0.8211
4 F 4 -0.030 -0.4615
5 F 5 0.083 1.2581
6 F 6 0.064 1.0274
7 F 7 -0.001 0.2169
8 F 8 0.090 1.3133
9 F 9 -0.074 -1.1383
10 F 10 -0.150 -3.3193
11 F 11 -0.056 -1.4830
CONSTANTE 0.093575
..............................................................................
R2 = 0.57923 F = 91.35686
D2 = 5.49176 T2 = 1018.69159
..............................................................................
68
scores normalisés
Echelle de 0 à 1000
Transformation linéaire du score et du seuil
69
Grille de score
+---------------------------------------------------------------------------- +
| | COEFFICIENTS | TRANSFORMED |
| CATEGORIES | DISCRIMINANT | COEFFICIENTS |
| | FUNCTION | (SCORE) |
+----------------------------------------------------------------------------+
| 2 . Use type |
| USE1 - Profess. | -4.577 | 0.00 |
| USE2 - private | 0.919 | 53.93 |
+---------------------------------------------------------------------------- +
| 4 . Gender |
| MALE - male | 0.220 | 24.10 |
| FEMA - female | -0.065 | 21.30 |
| OTHE - companies | -2.236 | 0.00 |
+---------------------------------------------------------------------------- +
| 5 . Language |
| FREN – French | -0.955 | 0.00 |
| FLEM - flemish | 2.789 | 36.73 |
+------------------------------------------------------ ----------------------+
| 24 . Birth date |
| BD1 - 1890-1949 BD | 0.285 | 116.78 |
| BD2 - 1950-1973 BD | -11.616 | 0.00 |
| BD? - ???BD | 7.064 | 183.30 |
+---------------------------------------------------------------------------- +
| 25 . Region |
| REG1 - Brussels | -6.785 | 0.00 |
| REG2 – Other regions | 3.369 | 99.64 |
+------------------------------------------------------------ ----------------+
| 26 . Level of bonus-malus |
| BM01 - B-M 1 (-1) | 17.522 | 341.41 |
| BM02 - Others B-M (-1) | -17.271 | 0.00 |
+---------------------------------------------------------------------------- +
| 27 . Duration of contract |
| C<86 - <86 contracts | 2.209 | 50.27 |
| C>87 - others contracts | -2.913 | 0.00 |
+---------------------------------------------------------------------------- +
| 28 . Horsepower |
| HP1 - 10-39 HP | 6.211 | 75.83 |
| HP2 - >40 HP | -1.516 | 0.00 |
+---------------------------------------------------------------------------- +
| 29 . year of vehicle construction |
| YVC1 - 1933-1989 YVC | 3.515 | 134.80 |
| YVC2 - 1990-1991 YVC | -10.222 | 0.00 |
+---------------------------------------------------------------------------- +
70
Scoring et régression logistique
71
CATEGORIES COEFFICIENTS LOGISTIC
REGRESSION
use type
profess 0.00
private 0.7060
Insuree type
male 0.4797
female 0.4868
companies 0.00
language
french -0.1236
flemish 0.00
birth cohort
1890-1949 -0.3596
1950-1973 -1.6155
unknown 0.00
region
Brussels -0.8585
Other regions 0.00
level of bonus-malus
B-M + 0.00
other B-M (-1) -2.4313
year of subscription
<86 contracts 0.4932
others 0.00
horsepower
10-39 HP 0.7305
40-349 HP 0.00
year of vehicle construction
1933-1989 1.3362
1990-1991 0.00
Intercept -0.2498
72
IV Comparaison logistique-
discriminante
Avantages proclamés de la logistique:
Interprétabilité des coefficients (odds-ratios)
Erreurs standard calculables
Modélisation des probabilités
Hypothèses plus générales qu’en AD gaussienne
Maximum de vraisemblance au lieu de moindres
carrés (régression linéaire de Y sur les Xj)
Prise en charge facile des X qualitatifs (logiciels)
73
Mais:
Erreurs standard asymptotiques , bootstrap en AD
Non convergence en cas de séparation parfaite.
Fisher existe toujours
74
Querelle largement idéologique (modélisation
versus analyse des données)
L’AD est aussi un modèle, mais sur les lois des X/Y,
la logistique sur les lois de Y/X
En pratique différences peu nettes: fonctions
de score souvent très proches
« It is generally felt that logistic regression is a safer,
more robust bet than the LDA model, relying on fewer
assumptions . It is our experience that the models give
very similar results , even when LDA is used in
inappropriately, such as with qualitative variables. »
Hastie and al.(2001)
75
Variable N Mean Std Dev Sum Minimum Maximum
scorfish 101 1.00000 1.47644 101.00000 -2.42806 4.21377
scorlog 101 -0.22423 3.68078 -22.64725 -8.76376 7.86074
scorfish scorlog
scorfish 1.00000 0.99881
76
Usages souvent différents: AD pour classer, logistique
pour modéliser (facteurs de risque)
Logistique aussi utilisée en scoring
Si l’objectif est de classer:
On ne fait plus de la science mais de l’aide à la décision
Mieux vaut essayer les deux méthodes.
Mais comment les comparer?
Le vrai critère de choix est la performance en généralisation
77
Qualité d’une règle de
classement
Tableau de classement :
On classe des observations dont le groupe est connu :
groupe prédit
1 2
groupe 1 n11 n12
réel 2 n 21 n 22
n11 n 22
Pourcentage de bien classés :
n
79
Seuil et probabilités a posteriori
80
Qualité d’un score
Qu’il soit obtenu par Fisher ou logistique:
Comparaison des distributions du score sur les
deux groupes
fonctions de répartition
81
Courbe ROC
82
Courbe ROC
83
Courbe ROC
84
Courbe ROC invariante pour toute transformation
monotone croissante
Surface sous la courbe: mesure de performance
permettant de comparer (partiellement) des modèles
s
AUC (1 ( s )) d ( s ) P ( X 1 X 2 )
s
c nc n1n2
nc statistique de Wilcoxon-Mann-Whitney
U+W= n1n2+0.5n1(n1+1) AUC=U/n1n2
85
Exemple infarctus proc logistic
Pairs 2550
Percent Concordant 94.3
Percent Discordant 5.7
Percent Tied 0.0
Somers' D 0.886
Gamma 0.886
Tau-a 0.447
c 0.943
86
Infarctus: comparaison
Fisher et logistique
Courbe ROC
1.00
.75
.50
SCORLOG
0.00 SCORFISH
0.00 .25 .50 .75 1.00
1 - Spécificité
87
Assurance
88
Zone sous la courbe
Variable(s) de Zone
résultats
SCDISQUA tests .934
SCLOGIST .933
89
Lift chart
% of the target
90
Surface sous la courbe de lift
Surface:
L (1 )d p1 (1 ) (1 p1 )
p1 (1 ) d (1 ) (1 p1 ) (1 ) d
p1
(1 p1 ) AUC
2
91
Coefficient Ki (Kxen)
1
L
2 p1 2(1 p1 ) AUC 1
Ki 2 AUC 1
1 p1 1 p1
2
93
Les 3 échantillons
Apprentissage: pour estimer les paramètres
des modèles
Test : pour choisir le meilleur modèle
Validation : pour estimer la performance sur
des données futures
Nécessité de faire plusieurs tirages
95