Académique Documents
Professionnel Documents
Culture Documents
DISCRIMINANTE
Pierre-Louis GONZALEZ
1
ANALYSE DISCRIMINANTE
Prdire une variable qualitative k classes
laide de p prdicteurs
Deux aspects
Descriptif: Quelles sont les combinaisons linaires de
variables qui permettent de sparer le mieux
possible les k catgories ?
Dcisionnel: Un nouvel individu se prsente pour lequel
on connat les valeurs des prdicteurs.
Dcider dans quelle catgorie il faut laffecter
2
ANALYSE DISCRIMINANTE
Ensemble des mthodes utilises pour prdire une variable
qualitative k catgories laide de p prdicteurs.
EXEMPLES
Mdecine Connaissant les symptmes prsents par un patient,
peut-on porter un diagnostic sur sa maladie ?
Finance
A partir des bilans dune socit, est-il possible
destimer son risque de faillite 2 ans ou 3 ans
(scoring financier) ?
Au moment dune demande de prt par un client,
peut-on prvoir en fonction des caractristiques du
client, le risque de contentieux (credit scoring) ?3
Ptrole
Au vu des analyses des carottes issues dun forage, est-il possible de
prsumer de lexistence dune nappe de ptrole ?
Tldtection
A partir de mesures par satellite des ondes rflchies ou absorbes
par le sol dans diffrentes longueurs donde, peut-on reconstituer
automatiquement la nature du terrain tudi (fort, sable, ville, mer...) ?
Marketing direct
Connaissant les caractristiques dun client, peut-on prvoir
sa rponse une offre de produit par courrier ?
tude de textes
Interprtation dune typologie
4
Quelques dates:
Mahalanobis 1927
Hotelling 1931
Fisher 1936
Rao 1950
Anderson 1951
Vapnik 1998
MTHODES GOMTRIQUES
LINAIRES
A.C.P. sur le nuage des centres de gravit
des groupes munis de diffrentes mtriques
Recherche des meilleures
fonctions discriminantes
g (X 1 , X 2 ... X p )
NON LINAIRES
- quadratique
- cration de nouvelles variables
mthode linaire
- dcoupage en variables qualitatives et
application dune mthode sur
variables qualitatives
MTHODES PROBABILISTES
PARAMTRIQUE
- modle gaussien
- maximum de vraisemblance
avec autre modle paramtrique
Estimation directe des
probabilits dappartenance
aux groupes dfinis par Y
SEMI PARAMETRIQUE
- rgression logistique
NON PARAMTRIQUE
- Estimation de densit :
- Fonctions orthogonales
- Noyaux de Parzen
- K plus proches voisins
7
Autres approches
I. MTHODES GOMTRIQUES
1.
Donnes - Notations
V1 ,V2 ...V.k
g = centre de gravit de E
V = matrice de variance de E
n individus ei affects des poids
x x
x x
x
x x
x
x
x
E1
x x
x x
x x
x x xx
x
p1 , p2 ... pn
rangs dans une matrice diagonale D
E2
x
x x x
x
x
x x
x
Ek
9
Notations matricielles
1
2
tableau de
donnes
1
1
1
2 .......... k
0 .......... 0
0 .......... 0
A
n
2 .......... p
0 ......... 1
D q = ADA
( ADA ) ( ADX )
1
10
poids de la classe j
ei E
pi
j
Centres de gravit
1
gj =
qj
pi e i
g=
pour ei E j
qj g j
j =1
Vj =
1
qj
e i E j
)(
pi e i g j e i g j
11
B=
)(
q
g
g
g
g
j j
j
j =1
W=
q jV j
j =1
12
En rgle gnrale
W inversible
B non inversible (k centres de gravit dans un
sous-espace de dimension k-1 de Rp)
Variance totale =
13
corrlation totale
corrlation intra-classes
corrlation inter-classes
14
2.
x
x
x
x
x
x
axe 1
Axe 1
x
x
Axe 2
Laxe 1 possde un bon pouvoir discriminant
Laxe 2 ne permet pas de sparer en projection les 2 groupes.
15
a = axe discriminant
u = facteur associ
u = Ma
X u = variable discriminante
Linertie du nuage des g j projets sur a doit tre maximale.
La matrice dinertie du nuage des g est MBM, linertie du nuage projet
sur a est a' MBMa si a est M-norm 1.
Il faut aussi quen projection sur a , chaque sous-nuage reste bien group
donc que a' MVJ M a soit faible pour j = 1, 2 ... k.
On cherchera donc minimiser :
k
q j a' MV j M a
j =1
Critre
La relation V = B + W entrane que MVM = MBM + MWM
donc : a' MVM a = a' MBM a + a' MWM a
max
a
a' MBM a
a' MVM a
( MBM )
M 1V 1 BM a = a
17
u = Ma
1
On a alors : V B u = u
BV 1 a = a
1
V B u = u
On a toujours 0 1 1 car 1 est la quantit maximiser.
18
Cas particuliers
Cas 1 = 1
x
x
x
x
Cas 1 = 0
Le meilleur axe ne permet pas de sparer les centres de gravit g i , cest le
cas o ils sont confondus.
Les nuages sont donc concentriques et aucune sparation linaire nest
possible.
x
x
x x
x
Groupe 1
x
x
x
x x
x x
x
x
x x
x x
x
g1 = g 2
x x
Groupe 2
x
x
La distance au centre permet ici de sparer les groupes, mais il sagit dune
fonction quadratique des variables.
20
Autres proprits
La valeur propre est une mesure pessimiste du pouvoir discriminant dun axe.
x
x
x
x
x
x
x x
x x x
Le nombre des valeurs propres non nulles, donc daxes discriminants est
gal k 1 dans le cas habituel o n > p > k et o les variables ne
sont pas lies par des relations linaires.
21
ou u = W 1 g g
1
2
W 1 (g 1 g 2 )
a = g1 g 2
u = V 1 (g 1 g 2 )
22
23
Fonction 2
3,3
2,3
1,3
0,3
-0,7
-1,7
-2,7
-10
-6
-2
10
Fonction 1
24
Fonction 2
9
5
1
-3
-7
-11
-14
-10
-6
-2
Fonction 1
25
26
d 2 (e ; g i ) = (e g i )W 1 (e g i )
27
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Temprature
3064
3000
3155
3085
3245
3267
3080
2974
3038
3318
3317
3182
2998
3221
3019
3022
3094
3009
3227
3308
3212
3361
3061
3478
3126
3458
3252
3052
3270
3198
2904
3247
3083
3043
Soleil
1201
1053
1133
970
1258
1386
966
1189
1103
1310
1362
1171
1102
1424
1230
1285
1329
1210
1331
1366
1289
1444
1175
1317
1248
1508
1361
1186
1399
1259
1164
1277
1195
1208
Chaleur
10
11
19
4
36
35
13
12
14
29
25
28
9
21
16
9
11
15
21
24
17
25
12
42
11
43
26
14
24
20
6
19
5
14
Pluie
361
338
393
467
294
225
417
488
677
427
326
326
349
382
275
303
339
536
414
282
302
253
261
259
315
286
346
443
306
367
311
375
441
371
Qualit
2
3
2
3
1
1
3
3
3
2
1
3
3
1
2
2
2
3
2
1
2
1
2
1
2
1
2
3
1
1
3
1
3
3
28
Analyse pralable
Temprature
3600
3500
Report
3400
Temprature
Mean
3306.36
3140.91
3037.33
3157.88
N
11
11
12
34
Std. Deviation
92.06
100.05
69.34
141.18
Measures of Association
Temprature * Qualit
Eta
.799
3300
3200
3100
Temprature
Qualit
1
2
3
Total
3000
2900
2800
N=
Eta Squared
.639
11
11
12
Bon
Moyen
Mdiocre
Qualit
Rapport de corrlation = 2 =
Temprature * Qualit
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
420067.4
237722.1
657789.5
df
2
31
33
Mean Square
210033.704
7668.456
F
27.389
Sig.
.000
29
Soleil
1600
Report
1500
Soleil
Qualit
Bon
Moyen
Mdiocre
Total
1400
Mean
1363.64
1262.91
1126.42
1247.32
Std. Deviation
80.31
71.94
88.39
126.62
11
11
12
34
1300
1200
1100
Soleil
1000
Measures of Association
Soleil * Qualit
Eta
.786
900
N=
Eta Squared
.618
11
11
12
Bon
Moyen
Mdiocre
Qualit
ANOVA Table
Soleil * Qualit
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
326909.1
202192.4
529101.4
df
2
31
33
Mean Square
163454.535
6522.335
F
25.061
Sig.
.000
30
50
Chaleur
40
Report
30
Chaleur
Mean
28.55
16.45
12.08
18.82
N
11
11
12
34
Std. Deviation
8.80
6.73
6.30
10.02
20
10
Chaleur
Qualit
Bon
Moyen
Mdiocre
Total
12
0
N=
11
11
12
Bon
Moyen
Mdiocre
Measures of Association
Qualit
Chaleur * Qualit
Eta
.705
Eta Squared
.497
ANOVA Table
Chaleur * Qualit
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
1646.570
1664.371
3310.941
df
2
31
33
Mean Square
823.285
53.689
F
15.334
Sig.
.000
31
Pluie
800
700
Report
600
Pluie
Qualit
Bon
Moyen
Mdiocre
Total
Mean
305.00
339.64
430.33
360.44
Std. Deviation
52.29
54.99
104.85
91.40
11
11
12
34
500
400
300
Pluie
200
100
N=
Measures of Association
11
11
12
Bon
Moyen
Mdiocre
Qualit
Pluie * Qualit
Eta
.594
Eta Squared
.353
ANOVA Table
Pluie * Qualit
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
97191.170
178499.2
275690.4
df
2
31
33
Mean Square
48595.585
5758.039
F
8.440
Sig.
.001
32
33
34
35
g1
37
38
39
de ce coefficient de corrlation.
40
41
8.2.
W
Analyse de variance et mtrique____
F=
Variance inter / k 1
Variance intra / n k
42
u' B u
u'W u
La solution est donne par lquation :
W 1 B u = u
avec maximal
43
1
1
Les vecteurs propres de W B sont les mmes que ceux de V B
avec =
1+
ou de W 1 comme mtrique
est indiffrente.
44
(n1a
+ n2 b = 0)
IMPORTANT
On prendra garde au fait que les hypothses habituelles de la
rgression ne sont pas vrifies, bien au contraire :
Ici Y est non alatoire
X lest.
46
Y : variable de groupe
47
Exemples
Solvabilit demprunteurs auprs de banques
bon payeur
1 : sexe
mauvais payeur
2 : catgorie professionnelle
1 : sexe
mauvais conducteur
2 : tranche dge
Y : classes
48
Caractristiques du problme
Grand nombre de prdicteurs qualitatifs
chantillons volumineux
Mthodes
classiques
inadaptes
D I S Q UA L
Mthode de discrimination fonde sur lanalyse factorielle
49
Prdicteurs qualitatifs
Estimer P (Y = y 1 = x1 2 = x 2 ...)
Approche multinomiale irraliste
mi
i =1
cases !
Approche modle
Log-linaire, linaire, on nglige certaines interactions.
Ex :
n P (Y = y 1 = i , 2 = j , 3 = k )
= 0 + i + j + k + ij + ik
50
1re tape
X = X 1 X 2 ... X p
)
51
2me tape
52
3me tape
53
LANALYSE DISCRIMINANTE
MTHODES DCISIONNELLES
54
MTHODES PROBABILISTES
1. La rgle baysienne
k groupes en proportion p1, p2 ... pk
f j (x) .
55
Observation
(x1 , x2 ... x p )
probabilit quelle provienne du groupe j
formule de Bayes
P (G j x ) =
P x G j P (G j )
P (x G j )P (G j )
k
j =1
P (G j x ) =
p j f j (x)
k
p j f j (x)
j =1
56
Rgle baysienne
Affecter x au groupe qui a la probabilit a posteriori maximale.
chercher le maximum de p j f j ( x )
Il est ncessaire de connatre ou destimer f j ( x )
mthodes non paramtriques
mthodes paramtriques : cas gaussien p-dimensionnel,
discrimination logistique.
57
distribus selon
( , j )
Hypothse de travail
Densit:
f j (x) =
(2 )
p/2
(det j )
1/ 2
exp x j 1
x
j
j
2
58
2-1.
Cas gnral
Rgle baysienne :
max p j f j ( x )
n
Vj
n1
j par g j
59
2-2.
Si
1 = 2 = ... ,
Alors
(x ) (x ) = (x, )
1
= distance de Mahalanobis
de x
En dveloppant, en liminant
do en divisant par -2
x' 1 x , on obtient :
1
60
n
W :
nk
1
p j exp 2 x , j
61
2-3.
1
1
1
1
1
1
x
'
'
Log
p
x
'
'
'
Log
p
+
>
+
1
2
2
2
1
1
2
1 2
2
p2
1
1
(
)
(
)
(
)
x' 1 2 > 1 + 2 1 2 + Log
2
p
1
62
Soit
s ( x ) = x' 1 ( 1 2 )
n
W.
n2
p
1
(
1 + 2 ) 1 ( 1 2 ) Log 2
2
p1
63
Proprit
S ( x ) est lie simplement la probabilit a posteriori dappartenance
au groupe 1.
Dmonstration :
p1 f1 ( x )
P (G1 x ) =
=P
p1 f1 ( x ) + p2 f 2 ( x )
p2 f 2 ( x )
1
=1+
P
p1 f1 ( x )
p2
1
1
1
exp (x 2 ) (x 2 ) + (x 1 ) 1 (x 1 )
=1+
2
p1
2
64
p2
1 2
1
1 2
1=
exp (x , 1 ) (x , 2 )
P
p1
2
2
1 = S ( x )
P
1
e s( x )
P=
=
s( x )
1+ e
1 + e s( x )
do Log
Remarque : Lorsque p1 = p2 =
P=
1
2
1
2 x , 1 2 x , 2
1+ e 2
)]
65
2-4.
ni
2 p 2 + 3 p 1
1
1
n
(
)
(
)
1
n
k
Log
W
n
1
Log
V
i
i
6( p + 1)(k 1) ni 1 n k
nk
ni 1
2
suit approximativement une loi p ( p +1)(k 1)
2
66
67
68
Soit un ensemble de
2
lapport de toutes les variables p = 0
69
b. Plus de 2 groupes :
On utilise le de Wilks
Sous H 0 : 1 = 2 = ... = k
W
W
1
=
=
=
V
W + B W 1 B + I
suit la loi de Wilks de paramtres ( p, n k , k 1)
n 1, n k , k 1 d.d.l.
70
sont identiques :
B tant de rang 1, on a :
1
=
1 + D 2p
n1n2
(n1 + n2 )(n1 + n2 2)
1
=1
1+
= valeu r p ro p re d e W 1 B
= valeu r p ro p re d e V -1 B
=
1
71
= (1 i)
Wilks:
i =1
Plus le
Trace de Pilla =
Trace(V 1B) = i
i =1
Trace de Hotelling-Lawley
k 1
i
Trace(W 1B) =
= i
i =1 1 i
i =1
k 1
nk
k 1
p p
1 que lon compare un F(k 1,n k p )
p +1
75
S ( x ) = x' 1 ( 1 2 ) ( 1 + 2 ) 1 ( 1 2 ) > 0
2
P S ( x ) > 0 x N p ( 2 , )
76
E ( S ( x )) = '2 1 ( 1 2 )
1
(
1 + 2 ) 1 ( 1 2 )
2
1
= ( 1 2 ) 1 ( 1 2 )
2
1 2
= p
2
1
( u
V ( S ( x )) = ( ) 1
1
2
)
=
2
p
1
S ( x ) suit N 2p ; p si x G2
77
1 2
1 2
S(x) + p 0 + p
2
2
P (1 2 ) = P
>
p
p
P (1 2) = P U >
2
o U suit N
(0
;1
3-2.
Mthode de resubstitution
Critre usuel
79
3-3.
il permet dlaborer
les rgles de classement
chantillon test
estimation du taux
derreur
80
81
- mthode du noyau
- mthode des k plus proches voisins.
82
r, j (X ) = y
( y x )V j1 ( y x ) r 2
}
83
{z / zV j1 z r 2 }
I j ( y x)
yG j
n j vr ( j )
85
86
5. La rgression logistique
p f (x)
1
Log 1 = Log 2 2
= S(x)
p1 f1 ( x )
87
Donc :
Log
(*)
Log
f
f
2
1
p
f2 (x)
= Log 1 + + ' x
p2
f1 ( x )
(x )
=
(x )
+ ' x
1
= 2
..
.
p
88
Hypothse de travail
Log
f
f
2
1
(x )
=
(x )
+ ' x
1
= 2
..
.
p
p1 f1 ( x )
p1 f1 ( x )
p2 f 2 ( x )
=
P (G1 x ) =
p1 f1 ( x )
p1 f1 ( x ) + p2 f 2 ( x )
1+
p2 f 2 ( x )
89
p1
+ 0 + ' x
exp Log
p2
P (G1 x ) =
p
1 + exp Log 1 + 0 + ' x
p2
1
P (G2 x ) =
p1
1 + exp Log
+ 0 + ' x
p2
(1)
(2)
On montre que les expressions (1) et (2) sont conserves pour la famille de
distributions :
f i ( x ) = c i exp (x i ) 1 ( x i ) h( x )
2
90
mthode gnrale
91
L = f1 ( x i ) f 2 ( x i )
iG1
iG2
avec : f ( x ) = p1 f1 ( x ) + p2 f 2 ( x )
P (G1 x ) f ( x )
(
)
f
x
=
1
p1
On a
f 2 ( x ) = P (G2 x ) f ( x )
p2
Do L =
soit : L =
P (G1 x i ) P (G2 x i )
n1 + n2
iG2
i =1
f (xi )
p1
+
+
Log
x
exp
'
i
0
max
p2
1
iG1
iG2
p1
p1
+ 0 + ' x i
+ 0 + ' x i
1 + exp Log
1 + exp Log
p2
p2
P (G1 x )
p1
Log
= Log
+ 0 + ' x
P (G2 x )
p2
p
On affectera au groupe 1 si Log 1 + 0 + ' x > 0
p2
93
94
Sites INTERNET
Le site de la Socit Franaise de Statistique : www.sfds.asso.fr
Laide en ligne du logiciel SAS : http://support.sas.com/documentation/online.doc
Le site de Statsoft sur la statistique et le data mining : www.statsoft.com
Liste de mthodes de segmentation : www.recursivepartitioning.com/classification_trees
97