Analyse Discriminante Nov2010

LANALYSE
DISCRIMINANTE
Pierre-Louis GONZALEZ
1
ANALYSE DISCRIMINANTE
Prdire une variable qualitative k classes
laide de p prdicteurs
Deux aspects
Descriptif: Quelles sont les combinaisons linaires de
variables qui permettent de sparer le mieux
possible les k catgories ?
Dcisionnel: Un nouvel individu se prsente pour lequel
on connat les valeurs des prdicteurs.
Dcider dans quelle catgorie il faut laffecter
2
ANALYSE DISCRIMINANTE
Ensemble des mthodes utilises pour prdire une variable
qualitative k catgories laide de p prdicteurs.
EXEMPLES
Mdecine Connaissant les symptmes prsents par un patient,
peut-on porter un diagnostic sur sa maladie ?
Finance
A partir des bilans dune socit, est-il possible
destimer son risque de faillite 2 ans ou 3 ans
(scoring financier) ?
Au moment dune demande de prt par un client,
peut-on prvoir en fonction des caractristiques du
client, le risque de contentieux (credit scoring) ?3
Ptrole
Au vu des analyses des carottes issues dun forage, est-il possible de
prsumer de lexistence dune nappe de ptrole ?
Tldtection
A partir de mesures par satellite des ondes rflchies ou absorbes
par le sol dans diffrentes longueurs donde, peut-on reconstituer
automatiquement la nature du terrain tudi (fort, sable, ville, mer...) ?
Marketing direct
Connaissant les caractristiques dun client, peut-on prvoir
sa rponse une offre de produit par courrier ?
tude de textes
Interprtation dune typologie
4
Quelques dates:
Mahalanobis 1927
Hotelling 1931
Fisher 1936
Rao 1950
Anderson 1951
Vapnik 1998
MTHODES GOMTRIQUES
LINAIRES
A.C.P. sur le nuage des centres de gravit
des groupes munis de diffrentes mtriques
Recherche des meilleures
fonctions discriminantes
g (X 1 , X 2 ... X p )
NON LINAIRES
- quadratique
- cration de nouvelles variables
f (X 1 , X 2 ... X p ) et application dune
mthode linaire
- dcoupage en variables qualitatives et
application dune mthode sur
variables qualitatives
MTHODES PROBABILISTES
PARAMTRIQUE
- modle gaussien
- maximum de vraisemblance
avec autre modle paramtrique
Estimation directe des
probabilits dappartenance
aux groupes dfinis par Y
SEMI PARAMETRIQUE
- rgression logistique
NON PARAMTRIQUE
- Estimation de densit :
- Fonctions orthogonales
- Noyaux de Parzen
- K plus proches voisins
7
Autres approches
Mthodes de type boite noire induisant le

minimum derreurs de classement
Rseaux de neurones
SVM (Support Vecteur Machine )
I. MTHODES GOMTRIQUES
1.
Donnes - Notations
Les n individus e i de lchantillon constituent un nuage E, de Rp partag

en k sous-nuages : E1 , E 2 ... E k de centres de gravit g1 , g 2 ... g k
de matrices de variances
V1 ,V2 ...V.k
g = centre de gravit de E
V = matrice de variance de E
n individus ei affects des poids
x x
x x
x
x x
x
x
x
E1
x x
x x
x x
x x xx
x
p1 , p2 ... pn
rangs dans une matrice diagonale D
E2
x
x x x
x
x
x x
x
Ek
9
Notations matricielles
1
2
tableau de
donnes
1
1
1
2 .......... k
0 .......... 0
0 .......... 0
A
n
2 .......... p
0 ......... 1
Matrice des indicatrices de la variable qualitative prdire
Matrice des prdicteurs
D q = ADA
matrice diagonale des poids q j des sous-nuages.
( ADA ) ( ADX )
1
ses lignes sont les coordonnes des k

centres de gravit g 1 , g 2 ... g k
10
poids de la classe j
ei E
pi
j
Centres de gravit
1
gj =
qj
pi e i
g=
pour ei E j
qj g j
j =1
Matrice de variance-covariances de la classe Ej
Vj =
1
qj
e i E j
)(
pi e i g j e i g j
11
Matrice de variance interclasse : matrice de variance B des k centres

de gravit affects des poids q j :
B=
)(
q
g
g
g
g
j j
j
j =1
Matrice de variance intra-classe :
W=
q jV j
j =1
12
En rgle gnrale
W inversible
B non inversible (k centres de gravit dans un
sous-espace de dimension k-1 de Rp)
Variance totale =
Moyenne des variances + Variance des moyennes
13
En analyse discriminante, on considre trois types de matrices

de variances-covariances et donc trois types de corrlations.
corrlation totale
corrlation intra-classes
corrlation inter-classes
14
2.
Lanalyse factorielle discriminante (A.F.D.)
Elle consiste chercher de nouvelles variables (les variables discriminantes)

correspondant des directions de Rp qui sparent le mieux possible en
projection les k groupes dobservations.
axe 2
x
x
x
x
x
x
x
x
x
axe 1
Axe 1
x
x
Axe 2
Laxe 1 possde un bon pouvoir discriminant
Laxe 2 ne permet pas de sparer en projection les 2 groupes.
15
Supposons Rp muni dune mtrique M (calcul des distances)
a = axe discriminant
u = facteur associ
u = Ma
X u = variable discriminante
Linertie du nuage des g j projets sur a doit tre maximale.
La matrice dinertie du nuage des g est MBM, linertie du nuage projet
sur a est a' MBMa si a est M-norm 1.
Il faut aussi quen projection sur a , chaque sous-nuage reste bien group
donc que a' MVJ M a soit faible pour j = 1, 2 ... k.
On cherchera donc minimiser :
k
q j a' MV j M a
j =1
soit a' MWM a

16
Critre
La relation V = B + W entrane que MVM = MBM + MWM
donc : a' MVM a = a' MBM a + a' MWM a
Maximiser le rapport de linertie inter-classe linertie totale
max
a
a' MBM a
a' MVM a
Ce maximum est atteint si a est vecteur propre de ( MVM )
( MBM )
associ sa plus grande valeur propre 1
M 1V 1 BM a = a
17
A laxe discriminant a est alors associ le facteur discriminant u tel que :
u = Ma
1
On a alors : V B u = u
Les facteurs discriminants, donc les variables discriminantes X u

sont indpendantes de la mtrique M.
On choisira par commodit M = V 1
BV 1 a = a
1
V B u = u
On a toujours 0 1 1 car 1 est la quantit maximiser.
18
Cas particuliers
Cas 1 = 1
x
x
x
x
En projection sur a les dispersions intra-classes sont nulles. Les k nuages

sont donc chacun dans un hyperplan orthogonal a .
Il y a discrimination parfaite si les centres de gravit se projettent en des
points diffrents.
19
Cas 1 = 0
Le meilleur axe ne permet pas de sparer les centres de gravit g i , cest le
cas o ils sont confondus.
Les nuages sont donc concentriques et aucune sparation linaire nest
possible.
x
x
x x
x
Groupe 1
x
x
x
x x
x x
x
x
x x
x x
x
g1 = g 2
x x
Groupe 2
x
x
Il se peut cependant quil existe

une possibilit de discrimination
non linaire.
La distance au centre permet ici de sparer les groupes, mais il sagit dune
fonction quadratique des variables.
20
Autres proprits
La valeur propre est une mesure pessimiste du pouvoir discriminant dun axe.
x
x
x
x
x
x
x x
x x x
< 1 mais les groupes sont bien spars
Le nombre des valeurs propres non nulles, donc daxes discriminants est
gal k 1 dans le cas habituel o n > p > k et o les variables ne
sont pas lies par des relations linaires.
21
Remarque: Le cas de deux groupes

Il ny a quune seule variable discriminante puisque k 1 = 1 .
Laxe discriminant est alors ncessairement la droite reliant les deux
centres de gravit g 2 et g1 :
Le facteur discriminant u vaut donc :
ou u = W 1 g g
1
2
W 1 (g 1 g 2 )
a = g1 g 2
u = V 1 (g 1 g 2 )
qui lui est proportionnel
est la fonction de Fisher (1936).
22
3. Exemples: Les iris de Fisher
23
Les iris de Fisher

Graphique des fonctions discriminantes
species
1
2
3
Centrodes
Fonction 2
3,3
2,3
1,3
0,3
-0,7
-1,7
-2,7
-10
-6
-2
10
Fonction 1
24
Discrimination entre divers spiritueux

laide de dosages molculaires
Graphique des fonctions discriminantes
QUAL1
arm
bra
cog
rhu
wh
Centrodes
Fonction 2
9
5
1
-3
-7
-11
-14
-10
-6
-2
Fonction 1
25
4. Une A.C.P. particulire

Daprs les quations prcdentes, lanalyse factorielle discriminante
nest autre que lA.C.P. du nuage des k centres de gravit avec la
mtrique V 1 .
On en dduit que les variables discriminantes sont non corrles
deux deux.
Dans le cas o il existe plusieurs axes discriminants (k > 2) on peut
utiliser les reprsentations graphiques usuelles de lA.C.P. : cercle des
corrlations...
26
5. Rgles gomtriques daffectation

Ayant trouv la meilleure reprsentation de la sparation en k groupes
des n individus, on peut alors chercher affecter une observation e
lun des groupes.
La rgle naturelle consiste calculer les distances de lobservation
classer chacun des k centres de gravit et affecter selon la distance
la plus faible. Mtrique utiliser ?
Rgle de Mahalanobis Fisher
On utilise W 1
d 2 (e ; g i ) = (e g i )W 1 (e g i )
27
6. Exemple: Qualit des vins de Bordeaux

Les donnes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
Temprature
3064
3000
3155
3085
3245
3267
3080
2974
3038
3318
3317
3182
2998
3221
3019
3022
3094
3009
3227
3308
3212
3361
3061
3478
3126
3458
3252
3052
3270
3198
2904
3247
3083
3043
Soleil
1201
1053
1133
970
1258
1386
966
1189
1103
1310
1362
1171
1102
1424
1230
1285
1329
1210
1331
1366
1289
1444
1175
1317
1248
1508
1361
1186
1399
1259
1164
1277
1195
1208
Chaleur
10
11
19
4
36
35
13
12
14
29
25
28
9
21
16
9
11
15
21
24
17
25
12
42
11
43
26
14
24
20
6
19
5
14
Pluie
361
338
393
467
294
225
417
488
677
427
326
326
349
382
275
303
339
536
414
282
302
253
261
259
315
286
346
443
306
367
311
375
441
371
Qualit
2
3
2
3
1
1
3
3
3
2
1
3
3
1
2
2
2
3
2
1
2
1
2
1
2
1
2
3
1
1
3
1
3
3
28
Analyse pralable
Temprature
3600
3500
Report
3400
Temprature
Mean
3306.36
3140.91
3037.33
3157.88
N
11
11
12
34
Std. Deviation
92.06
100.05
69.34
141.18
Measures of Association
Temprature * Qualit
Eta
.799
3300
3200
3100
Temprature
Qualit
1
2
3
Total
3000
2900
2800
N=
Eta Squared
.639
11
11
12
Bon
Moyen
Mdiocre
Qualit
Rapport de corrlation = 2 =
Between Groups Sum of Squares

Total Sum of Squares
ANOVA Table
Temprature * Qualit
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
420067.4
237722.1
657789.5
df
2
31
33
Mean Square
210033.704
7668.456
F
27.389
Sig.
.000
29
Soleil
1600
Report
1500
Soleil
Qualit
Bon
Moyen
Mdiocre
Total
1400
Mean
1363.64
1262.91
1126.42
1247.32
Std. Deviation
80.31
71.94
88.39
126.62
11
11
12
34
1300
1200
1100
Soleil
1000
Soleil * Qualit
Eta
.786
900
N=
Eta Squared
.618
11
11
12
Bon
Moyen
Mdiocre
Qualit
ANOVA Table
Soleil * Qualit
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
326909.1
202192.4
529101.4
df
2
31
33
Mean Square
163454.535
6522.335
F
25.061
Sig.
.000
30
50
Chaleur
40
Report
30
Chaleur
Mean
28.55
16.45
12.08
18.82
N
11
11
12
34
Std. Deviation
8.80
6.73
6.30
10.02
20
10
Chaleur
Qualit
Bon
Moyen
Mdiocre
Total
12
0
N=
11
11
12
Bon
Moyen
Mdiocre
Qualit
Chaleur * Qualit
Eta
.705
Eta Squared
.497
ANOVA Table
Chaleur * Qualit
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
1646.570
1664.371
3310.941
df
2
31
33
Mean Square
823.285
53.689
F
15.334
Sig.
.000
31
Pluie
800
700
Report
600
Pluie
Qualit
Bon
Moyen
Mdiocre
Total
Mean
305.00
339.64
430.33
360.44
Std. Deviation
52.29
54.99
104.85
91.40
11
11
12
34
500
400
300
Pluie
200
100
N=
11
11
12
Bon
Moyen
Mdiocre
Qualit
Pluie * Qualit
Eta
.594
Eta Squared
.353
ANOVA Table
Pluie * Qualit
Between Groups
Within Groups
Total
(Combined)
Sum of
Squares
97191.170
178499.2
275690.4
df
2
31
33
Mean Square
48595.585
5758.039
F
8.440
Sig.
.001
32
Qualit des vins de Bordeaux
33
34
Qualit des vins de Bordeaux:

Pourcentage de bien classs
Tableau de classement
Observ
Groupe Prvu
qualit
qualite
Taille
1
2
3
-------------------------------------------------------------------1
11
9
2
0
( 81,82%)
( 18,18%)
( 0,00%)
2
11
2
8
1
( 18,18%)
( 72,73%)
( 9,09%)
3
12
0
2
10
( 0,00%)
( 16,67%)
( 83,33%)
-------------------------------------------------------------------Pourcentage d'observations bien classes: 79,41%
35

Fonctions discriminantes
Coefficients des fonctions discriminantes pour qualit

Coefficients standardiss
----------------------------------------------1
2
stemp
0,750126
-0,00405015
insol
0,547064
-0,430399
chaleur
-0,198237
0,935229
hpluies
-0,445097
0,468536
----------------------------------------------36
7. Insuffisance des rgles gomtriques

Lutilisation de la rgle prcdente conduit des affectations incorrectes
lorsque les dispersions des groupes sont trs diffrentes entre elles : rien
ne justifie alors lusage de la mme mtrique pour les diffrents groupes.
g1
e plus proche de g1 que de

g 2 au sens habituel.
g2
Pourtant, il est plus naturel

daffecter e la deuxime
classe qu la premire dont
le pouvoir dattraction est moindre.
37
Solution : mtriques locales M i

1
Dans la plupart des cas, on choisit M i proportionnel Vi .
La question de loptimalit dune rgle de dcision gomtrique
ne peut cependant tre rsolue sans rfrence un

modle probabiliste.
38
8. Remarques concernant la prsentation de lanalyse

discriminante dans les logiciels amricains
8.1. Par ses liens avec lanalyse canonique, les auteurs de langue
anglaise utilisent le terme : ANALYSE DISCRIMINANTE
CANONIQUE .
On cherche la combinaison linaire des variables qui a le plus
grand coefficient de corrlation multiple avec la variable de
classe.
39
Ce coefficient de corrlation est appel premire corrlation

canonique.
1
La valeur propre 1 (quation V B u = 1 u ) est gale au carr
de ce coefficient de corrlation.
La variable dfinie par la combinaison linaire est appele la premire

composante canonique ou premire variable canonique.
40
La deuxime variable canonique rpond deux critres :
- ne pas tre corrle avec la premire,

- avoir le plus grand coefficient de corrlation multiple possible avec
la variable de classe.
Ce processus peut tre rpt jusquau moment o le nombre de variables

canoniques est gal au nombre de variables de dpart ou au nombre de
classes moins 1 sil est plus petit.
41
8.2.
W
Analyse de variance et mtrique____
Sil ny avait quune seule variable explicative, on mesurerait

lefficacit de son pouvoir sparateur sur la variable de groupe au
moyen dune analyse de variance ordinaire 1 facteur :
F=
Variance inter / k 1
Variance intra / n k
42
Comme il y a p variables, on peut rechercher la combinaison linaire

dfinie par des coefficients u donnant la valeur maximale pour la statistique
de test, ce qui revient maximiser :
u' B u
u'W u
La solution est donne par lquation :
W 1 B u = u
avec maximal
43
1
1
Les vecteurs propres de W B sont les mmes que ceux de V B
avec =
1+
Les logiciels amricains fournissent cette valeur propre :

si : 0 1
on a en revanche : 0
A ce point prs, lutilisation de V 1
ou de W 1 comme mtrique
est indiffrente.
44
9. Analyse canonique discriminante et rgression

Lanalyse canonique discriminante, se rduit dans le cas de deux groupes
une rgression multiple.
En effet aprs avoir centr, lespace engendr par les deux indicatrices de
la variable des groupes est de dimension 1.
Il suffit donc de dfinir une variable centre Y ne prenant que les deux
valeurs a et b sur les groupes 1 et 2.
(n1a
+ n2 b = 0)
On obtiendra alors un vecteur des coefficients de rgression proportionnel

la fonction de Fisher pour un choix quelconque de a.
45
IMPORTANT
On prendra garde au fait que les hypothses habituelles de la
rgression ne sont pas vrifies, bien au contraire :
Ici Y est non alatoire
X lest.
Ne pas utiliser, autrement qu titre indicatif, les statistiques

usuelles fournies par un programme de rgression.
46
10. Analyse discriminante sur variables

qualitatives
Y : variable de groupe
1 , 2 , ... p variables explicatives m1 , m 2 , ... m p modalits.
47
Exemples
Solvabilit demprunteurs auprs de banques
bon payeur
1 : sexe
mauvais payeur
2 : catgorie professionnelle
Risque en assurance automobile

bon conducteur
1 : sexe
mauvais conducteur
2 : tranche dge
3 : vhicule sportif ou non
Reclassement dans une typologie
Y : classes
48
Caractristiques du problme
Grand nombre de prdicteurs qualitatifs
chantillons volumineux
Mthodes
classiques
inadaptes
Analyse discriminante classiques : variables quantitatives

Modle log linaire : trop de variables
D I S Q UA L
Mthode de discrimination fonde sur lanalyse factorielle
49
Prdicteurs qualitatifs
Estimer P (Y = y 1 = x1 2 = x 2 ...)
Approche multinomiale irraliste
P estim par la frquence

k
mi
i =1
cases !
Approche modle
Log-linaire, linaire, on nglige certaines interactions.
Ex :
n P (Y = y 1 = i , 2 = j , 3 = k )
= 0 + i + j + k + ij + ik
50
Une mthode de discrimination sur variables qualitatives :

la mthode DISQUAL
Les p prdicteurs sont p variables qualitatives 1 2 ... p
m1 m 2 ... m p modalits.
1re tape
A.C.M. des variables 1 2 ... m
Analyse des correspondances du tableau disjonctif
X = X 1 X 2 ... X p
)
51
2me tape
On remplace les p variables qualitatives par les q coordonnes

sur les axes factoriels
analyse discriminante sur ces q variables numriques

Z1 Z2 ... Zq
Facteur discriminant d = combinaison linaire des

Zj qui sont des combinaisons linaires des indicatrices.
52
3me tape
Expression de d comme combinaison linaire des indicatrices
attribuer chaque catgorie de chaque variable une valeur

numrique ou score.
Ceci revient donc transformer chaque variable qualitative

en une variable discrte m valeurs (associes chaque
modalit).
53
LANALYSE DISCRIMINANTE
MTHODES DCISIONNELLES
54
MTHODES PROBABILISTES
1. La rgle baysienne
k groupes en proportion p1, p2 ... pk
La distribution de probabilit du vecteur observation x = x1 , ... x p

est donne pour chaque groupe j par une densit (ou une loi discrte)
f j (x) .
55
Observation
(x1 , x2 ... x p )
probabilit quelle provienne du groupe j
formule de Bayes
P (G j x ) =
P x G j P (G j )
P (x G j )P (G j )
k
j =1
P (G j x ) =
p j f j (x)
k
p j f j (x)
j =1
56
Rgle baysienne
Affecter x au groupe qui a la probabilit a posteriori maximale.
chercher le maximum de p j f j ( x )
Il est ncessaire de connatre ou destimer f j ( x )
mthodes non paramtriques
mthodes paramtriques : cas gaussien p-dimensionnel,
discrimination logistique.
57
2. Le modle normal multidimensionnel

Hypothse de travail
distribus selon
( , j )
pour chaque groupe
Hypothse de travail
Densit:
f j (x) =
(2 )
p/2
(det j )
1/ 2
exp x j 1
x
j
j
2
58
2-1.
Cas gnral
Rgle baysienne :
max p j f j ( x )
devient par passage aux logarithmes
(de lexpression 2 Log p j f j ) :
min : x j j 1 x j 2 Log p j + Log (det j )

Lorsque les j sont diffrents, cette rgle est donc quadratique il faut
comparer k fonctions quadratiques de x
j est en gnral estim par
n
Vj
n1
j par g j
59
2-2.
Si
Cas dgalit des matrices de variance covariance
1 = 2 = ... ,
Alors
la rgle devient linaire car :
log (det j ) = constante
(x ) (x ) = (x, )
1
= distance de Mahalanobis
de x
En dveloppant, en liminant
do en divisant par -2
x' 1 x , on obtient :
1
max x' -1 j - ' j 1 j + log p j

2
60
Si est estim par
n
W :
nk
rgle Baysienne rgle gomtrique (si galit des p j )

La rgle gomtrique est alors optimale.
La probabilit a posteriori dappartenance au groupe j est proportionnelle :
1
p j exp 2 x , j
61
2-3.
Cas de deux groupes avec galit de 1 et___

2
On affectera x au groupe 1 si :
1
1

1
1
1
1
x
'
'
Log
p
x
'
'
'
Log
p
+
>
+
1
2
2
2
1
1
2
1 2

2
p2
1
1
(
)
(
)
(
)
x' 1 2 > 1 + 2 1 2 + Log
2
p
1
62
Si p1 = p2 = 0,5 , on retrouve la rgle de Fisher en estimant par
Soit
s ( x ) = x' 1 ( 1 2 )
n
W.
n2
p
1
(
1 + 2 ) 1 ( 1 2 ) Log 2
2
p1
On affectera x au groupe 1 si s ( x ) > 0

au groupe 2 si s ( x ) < 0
s ( x ) appele score ou statistique dAnderson.
63
Proprit
S ( x ) est lie simplement la probabilit a posteriori dappartenance
au groupe 1.
Dmonstration :
p1 f1 ( x )
P (G1 x ) =
=P
p1 f1 ( x ) + p2 f 2 ( x )
p2 f 2 ( x )
1
=1+
P
p1 f1 ( x )
p2
1
1
1
exp (x 2 ) (x 2 ) + (x 1 ) 1 (x 1 )
=1+
2
p1
2
64
p2
1 2
1
1 2
1=
exp (x , 1 ) (x , 2 )
P
p1
2
2
1 = S ( x )
P
1
e s( x )
P=
=
s( x )
1+ e
1 + e s( x )
do Log
P fonction logistique du score
Remarque : Lorsque p1 = p2 =
P=
1
2
1
2 x , 1 2 x , 2
1+ e 2
)]
65
2-4.
A propos de certains tests :
Test dgalit des matrices i : test de Box
Si lhypothse 1 = 2 = ... = k est vraie, la quantit :
ni
2 p 2 + 3 p 1
1
1
n
(
)
(
)
1
n
k
Log
W
n
1
Log
V
i
i
6( p + 1)(k 1) ni 1 n k
nk
ni 1
2
suit approximativement une loi p ( p +1)(k 1)
2
66
Si on rejette lhypothse dgalit, doit-on utiliser les rgles quadratiques ?

Ce nest pas sr :
Test de Box pas parfaitement fiable

Rgle quadratique estimation de chaque j (donc de plus de
paramtres).
Lorsque les chantillons sont de petite taille, les fonctions obtenues
sont trs peu robustes.
il vaut mieux choisir une rgle linaire.
67
Nombre de paramtres estimer

Exemple:
Avec p = 10 variables
Avec k= 4 groupes
Lanalyse discriminante linaire demande lestimation de 95
paramtres et lanalyse discriminante quadratique lestimation de
260 paramtres
68
2.5. Qualit de la discrimination

a. Cas de 2 groupes
A variables parmi les p composantes de x

2
2
Supposons que p = l : en dautres termes les ( p A ) autres
Soit un ensemble de
variables napportent aucune information pour sparer les deux

populations, alors :
(n1 + n2 p 1) n1n2 (D 2p Dl2 )

= F ( p l , n1 + n2 p 1)
2
( p l )(n1 + n2 )(n1 + n2 2) + n1n2 Dl
On peut ainsi tester :
lapport dune nouvelle variable en prenant A = p 1
2
lapport de toutes les variables p = 0
69
b. Plus de 2 groupes :
On utilise le de Wilks
Sous H 0 : 1 = 2 = ... = k
W
W
1
=
=
=
V
W + B W 1 B + I
suit la loi de Wilks de paramtres ( p, n k , k 1)
Justification : nV, nW, nB suivent des lois de Wishart
n 1, n k , k 1 d.d.l.
70
c. Remarque dans le cas de deux groupes
Le test de Wilks et le test de la distance de Mahalanobis H 0 2p = 0
sont identiques :
B tant de rang 1, on a :
1
=
1 + D 2p
n1n2
(n1 + n2 )(n1 + n2 2)
1
=1
1+
= valeu r p ro p re d e W 1 B
= valeu r p ro p re d e V -1 B
=
1
71
d. Paramtres usuels fournis par les logiciels

k 1
= (1 i)
Wilks:
i =1
= corrlation canonique au carr
Plus le
(Wilks) est faible, meilleure est la discrimination

k
Trace de Pilla =
Trace(V 1B) = i
i =1
Trace de Hotelling-Lawley
k 1
i
Trace(W 1B) =
= i
i =1 1 i
i =1
k 1
Plus grande valeur propre de Roy : 1

72
2.6. Slection de variables pas pas

En discriminante k groupes, on utilise souvent le test de variation
de mesur par :
nk
k 1
p p
1 que lon compare un F(k 1,n k p )
p +1
La plupart des logiciels prsentent des techniques de slection

ascendante,descendante ou mixte des variables. SAS propose la
procdure STEPDISC.
73
Slection ascendante (option Forward)

A ltape initiale aucune variable nest prsente.
A chaque tape on fait entrer la variable qui contribue le plus au pouvoir
discriminant du modle, mesur par le lambda de Wilks.
La slection sarrte quand aucune des variables non slectionnes ne
convient au sens du seuil de probabilit choisi pour le F de Fisher.
Slection descendante (option Backward)

On dmarre avec le modle complet (construit avec toutes les variables)
A chaque tape, la variable contribuant le moins au pouvoir discriminant du
modle est limine.
La slection sarrte quand on ne peut plus liminer de variables tant donn
le seuil de probabilit choisi pour le F de Fisher.
74
Slection mixte (option Stepwise)

On dmarre comme dans la procdure ascendante.
Ds quune variable entre dans le modle, on vrifie compte tenu de cette
entre si lune des variables dj prsentes est susceptible dtre limine.
La slection sarrte quand on ne plus ajouter ou liminer de variables.
75
3. Mesures defficacit des rgles de classement

Critre usuel
Probabilit de bien classer une observation quelconque.

Les diverses mthodes sont compares en fonction de
leurs taux derreur.
3.1 Taux derreur thorique pour deux groupes avec 1 = 2 et

distribution normale
Quand p1 = p2 , on affecte lindividu au groupe 1 si :
S ( x ) = x' 1 ( 1 2 ) ( 1 + 2 ) 1 ( 1 2 ) > 0
2
La probabilit derreur de classement est donc :
P S ( x ) > 0 x N p ( 2 , )
76
La loi de S ( x ) est une loi de Gauss une dimension comme combinaison

linaire des composantes de x .
E ( S ( x )) = '2 1 ( 1 2 )
1
(
1 + 2 ) 1 ( 1 2 )
2
1
= ( 1 2 ) 1 ( 1 2 )
2
1 2
= p
2
1
( u
V ( S ( x )) = ( ) 1
1
2
)
=
2
p
1
S ( x ) suit N 2p ; p si x G2
77
La probabilit de classer dans le groupe 1 une observation du groupe 2 est :
1 2
1 2
S(x) + p 0 + p
2
2
P (1 2 ) = P
>
p
p
P (1 2) = P U >
2
o U suit N
(0
;1
Elle est gale P (2 1) .

Cette relation donne une interprtation concrte la distance de Mahalanobis.
Remarque
Estimations biaises sous-estimation du taux derreur.

78
3-2.
Mthode de resubstitution
Raffectation des observations selon les fonctions discriminantes trouves.

Inconvnient
On sous-estime le taux derreur.
Critre usuel
79
3-3.
chantillon dapprentissage; chantillon test

chantillon
partage
chantillon de base
ou dapprentissage
il permet dlaborer
les rgles de classement
chantillon test
estimation du taux
derreur
80
3.4 Validation croise
Pour i = 1 n, on construit la rgle de dcision sur la base prive de son

ime lment et on affecte ce dernier lun des groupes suivant cette rgle.
Le taux derreur estim est alors la frquence de points mal classs de

la sorte. Lestimation du taux derreur ainsi obtenu est pratiquement
sans biais
La variance de lestimation est dautant plus importante que n est grand,

puisque dans ce cas, les diffrentes rgles de dcision construites partir
de n-2 observations communes ont tendance se ressembler.
81
4. Mthodes non paramtriques
Les mthodes non paramtriques consistent estimer la densit de

probabilit en chaque point de lchantillon.
Deux mthodes sont souvent utilises :
- mthode du noyau
- mthode des k plus proches voisins.
82
4.1 La mthode des noyaux

La mthode des noyaux gnralise la notion dhistogramme. Dans le cas
unidimensionnel, pour estimer la densit en un point x, on centre lintervalle
de longueur R de lhistogramme en ce point. La densit est alors le rapport
de la probabilit de lintervalle sur la longueur de lintervalle.
Dans le cas multidimensionnel, considrons lellipsode centr sur x :
r, j (X ) = y
( y x )V j1 ( y x ) r 2
}
83
Notons I j ( z ) la variable indicatrice de lellipsode
La densit de probabilit estime scrit : f j ( x ) =
{z / zV j1 z r 2 }
I j ( y x)
yG j
n j vr ( j )
avec n j = nombre dlments du groupe j

v r ( j ) = volume de lellipsode
La mthode du noyau consiste utiliser une fonction (le noyau) plus

lisse que la variable indicatrice I j ( z ) .
84
On trouve dans la littrature (et les logiciels) diffrents types de noyaux :

uniforme: On compte le nombre dobservations appartenant la boule
de rayon R. Ce nombre est alatoire.
normal
Epanechnikov
biweight kernel
triweight kernel
La difficult dutilisation de ces mthodes rside dans le choix du noyau
et le choix de r.
85
4.2. Mthode des k plus proches voisins

On cherche les k points les plus proches de lindividu x et on classe x
dans le groupe le plus reprsent : la probabilit a posteriori dappartenir au
groupe j est gale au quotient entre le nombre dindividus du groupe j parmi
les k points, et le nombre de voisins (k).
Le choix de k est moins crucial que le choix de r dans la mthode des

noyaux. On peut choisir k optimisant une proportion de bien classs en
validation croise.
86
5. La rgression logistique
Lorsquil ny a pas que deux groupes, sous lhypothse de normalit et

dgalit des matrices de variance, la probabilit a posteriori est une
fonction logistique du score, lui-mme fonction linaire des variables
explicatives.
p f (x)
1
Log 1 = Log 2 2
= S(x)
p1 f1 ( x )
87
Donc :
Log
(*)
Log
f
f
2
1
p
f2 (x)
= Log 1 + + ' x

p2
f1 ( x )
(x )
=
(x )
+ ' x
1
= 2
..
.
p
Ceci amne dfinir la rgression logistique partir de lexpression (*).
88
Hypothse de travail
Log
f
f
2
1
(x )
=
(x )
+ ' x
1
= 2
..
.
p
Le modle de la rgression logistique consiste estimer les (p+1)

paramtres selon le maximum de vraisemblance.
p1 f1 ( x )
p1 f1 ( x )
p2 f 2 ( x )
=
P (G1 x ) =
p1 f1 ( x )
p1 f1 ( x ) + p2 f 2 ( x )
1+
p2 f 2 ( x )
89
p1
+ 0 + ' x
exp Log
p2
P (G1 x ) =
p
1 + exp Log 1 + 0 + ' x
p2
1
P (G2 x ) =
p1
1 + exp Log
+ 0 + ' x
p2
(1)
(2)
On montre que les expressions (1) et (2) sont conserves pour la famille de
distributions :
f i ( x ) = c i exp (x i ) 1 ( x i ) h( x )
2
o h est une fonction arbitraire de x intgrable non ngative et c i une

constante telle que f i soit une densit de probabilit.
90
En effet, h nintervient pas dans le calcul de (1) et (2) :

si h( x ) 1 on retombe sur la loi multinormale
on peut faire intervenir des variables binaires dans le modle
on peut appliquer le modle au cas o un groupe de la population est
dissymtrique (h(x) constante dans la population normale, croissante
ailleurs)
mthode gnrale
91
Expression de la vraisemblance des (n1 et n2 fixs)
L = f1 ( x i ) f 2 ( x i )
iG1
iG2
avec : f ( x ) = p1 f1 ( x ) + p2 f 2 ( x )
P (G1 x ) f ( x )
(
)
f
x
=
1
p1
On a
f 2 ( x ) = P (G2 x ) f ( x )
p2
Do L =
soit : L =
P (G1 x i ) P (G2 x i )
p1n1 p2n2 iG1

L1 L2
p1n1 p2n2
n1 + n2
iG2
i =1
f (xi )
L1 = vraisemblance conditionnelle des

paramtres connaissant les x i
L2 = densit (incondionnelle) des x i
92
f non connue, on estime 0 , 1 ... p par une mthode de maximum de

vraisemblance conditionnelle :
p1
+
+
Log
x
exp
'
i
0
max
p2
1

iG1
iG2
p1
p1
+ 0 + ' x i
+ 0 + ' x i
1 + exp Log
1 + exp Log
p2
p2
Ncessit dutiliser une mthode numrique.

(Pas de solution analytique lquation de vraisemblance).
Les tant estims, la rgle Baysienne peut tre applique pour les
classements.
P (G1 x )
p1
Log
= Log
+ 0 + ' x
P (G2 x )
p2
p
On affectera au groupe 1 si Log 1 + 0 + ' x > 0
p2
93
Avantages - Inconvnients de la rgression logistique
Rsultats meilleurs que la rgle gomtrique, pour :

des populations non gaussiennes
des populations o 1 trs diffrent de 2
mais procdure de calcul plus complexe.
Lorsque les donnes proviennent de deux populations normales avec
1 = 2 la rgression logistique est moins performante que lanalyse

f
discriminante.
Seul ( 1 suppos connu).
f2
94
BIBLIOGRAPHIE CONCERNANT LES METHODES

DANALYSE DISCRIMINANTE ET DE SEGMENTATION
Rfrences gnrales en statistique

G. GOVAERT (Editeur) Analyse des donnes Herms Lavoisier
(2003)
L. LEBART, A. MORINEAU, M.PIRON
Statistique exploratoire multidimensionnelle 3me dition Dunod
(2000)
G. SAPORTA "Probabilits, analyse des donnes et statistique" 2me
dition Technip (2006).
S. TUFFERY "Data mining et statistique dcisionnelle" Technip 2010
95
S.TUFFERY tude de cas en statistique dcisionnelle Technip

2009
M. TENENHAUS "Statistique: Mthode pour dcrire,expliquer et
prvoir ". Dunod (2006).
Analyse discriminante et Segmentation

BARDOS M. Analyse discriminante : Application au risque et
scoring financier Dunod (2001)
Breiman, L., Friedman, J.H., Olshen, R.A. & Stone, C.J. Classification
And Regression Trees. Monterey, California, Wadsworth & Brooks
(1984)
CELEUX G. (Editeur scientifique) Analyse discriminante sur
variables continues Collection didactique INRIA (1990)
CELEUX G ;, NAKACHE J.P. Analyse discriminante sur variables
qualitatives
Polytechnica (1994)
96
DROESBEKE J-J., LEJEUNE M., SAPORTA G. (Editeurs) Modles statistiques

explicative pour donnes qualitatives Technip (2005)
HUBERTY C. Applied discriminant analysis Wiley (1994)
NAKACHE J-P., CONFAIS J. Statistique explicative applique Technip
(2003)
TOMASSONE R., DANZART M., DAUDIN J.J., MASSON J.P. Discrimination
et classement Masson ( 1988)
ZIGHED D.A., RAKOTOMALALA R. Graphes dinduction Herms ( 2000)
Sites INTERNET
Le site de la Socit Franaise de Statistique : www.sfds.asso.fr
Laide en ligne du logiciel SAS : http://support.sas.com/documentation/online.doc
Le site de Statsoft sur la statistique et le data mining : www.statsoft.com
Liste de mthodes de segmentation : www.recursivepartitioning.com/classification_trees
97

Analyse Discriminante Nov2010

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Discriminante Nov2010

Transféré par

Droits d'auteur :

Formats disponibles

LANALYSE

f (X 1 , X 2 ... X p ) et application dune

Mthodes de type boite noire induisant le

Les n individus e i de lchantillon constituent un nuage E, de Rp partag

Matrice des indicatrices de la variable qualitative prdire

Matrice des prdicteurs

matrice diagonale des poids q j des sous-nuages.

ses lignes sont les coordonnes des k

Matrice de variance-covariances de la classe Ej

Matrice de variance interclasse : matrice de variance B des k centres

Matrice de variance intra-classe :

Moyenne des variances + Variance des moyennes

En analyse discriminante, on considre trois types de matrices

Lanalyse factorielle discriminante (A.F.D.)

Elle consiste chercher de nouvelles variables (les variables discriminantes)

Supposons Rp muni dune mtrique M (calcul des distances)

soit a' MWM a

Maximiser le rapport de linertie inter-classe linertie totale

Ce maximum est atteint si a est vecteur propre de ( MVM )

associ sa plus grande valeur propre 1

A laxe discriminant a est alors associ le facteur discriminant u tel que :

Les facteurs discriminants, donc les variables discriminantes X u

En projection sur a les dispersions intra-classes sont nulles. Les k nuages

Il se peut cependant quil existe

< 1 mais les groupes sont bien spars

Remarque: Le cas de deux groupes

qui lui est proportionnel

est la fonction de Fisher (1936).

3. Exemples: Les iris de Fisher

Les iris de Fisher

Discrimination entre divers spiritueux

4. Une A.C.P. particulire

5. Rgles gomtriques daffectation

6. Exemple: Qualit des vins de Bordeaux

Between Groups Sum of Squares

Qualit des vins de Bordeaux

Qualit des vins de Bordeaux

Qualit des vins de Bordeaux:

Qualit des vins de Bordeaux

Coefficients des fonctions discriminantes pour qualit

7. Insuffisance des rgles gomtriques

e plus proche de g1 que de

Pourtant, il est plus naturel

Solution : mtriques locales M i

ne peut cependant tre rsolue sans rfrence un

8. Remarques concernant la prsentation de lanalyse

Ce coefficient de corrlation est appel premire corrlation

La variable dfinie par la combinaison linaire est appele la premire

La deuxime variable canonique rpond deux critres :

- ne pas tre corrle avec la premire,

Ce processus peut tre rpt jusquau moment o le nombre de variables

Sil ny avait quune seule variable explicative, on mesurerait

Comme il y a p variables, on peut rechercher la combinaison linaire

Les logiciels amricains fournissent cette valeur propre :

9. Analyse canonique discriminante et rgression

On obtiendra alors un vecteur des coefficients de rgression proportionnel

Ne pas utiliser, autrement qu titre indicatif, les statistiques

10. Analyse discriminante sur variables

1 , 2 , ... p variables explicatives m1 , m 2 , ... m p modalits.

Risque en assurance automobile

3 : vhicule sportif ou non

Reclassement dans une typologie

Analyse discriminante classiques : variables quantitatives

P estim par la frquence