Vous êtes sur la page 1sur 97

LANALYSE

DISCRIMINANTE

Pierre-Louis GONZALEZ
1

ANALYSE DISCRIMINANTE
Prdire une variable qualitative k classes
laide de p prdicteurs
Deux aspects
Descriptif: Quelles sont les combinaisons linaires de
variables qui permettent de sparer le mieux
possible les k catgories ?
Dcisionnel: Un nouvel individu se prsente pour lequel
on connat les valeurs des prdicteurs.
Dcider dans quelle catgorie il faut laffecter
2

ANALYSE DISCRIMINANTE
Ensemble des mthodes utilises pour prdire une variable
qualitative k catgories laide de p prdicteurs.
EXEMPLES
Mdecine Connaissant les symptmes prsents par un patient,
peut-on porter un diagnostic sur sa maladie ?
Finance
A partir des bilans dune socit, est-il possible
destimer son risque de faillite 2 ans ou 3 ans
(scoring financier) ?
Au moment dune demande de prt par un client,
peut-on prvoir en fonction des caractristiques du
client, le risque de contentieux (credit scoring) ?3

Ptrole
Au vu des analyses des carottes issues dun forage, est-il possible de
prsumer de lexistence dune nappe de ptrole ?

Tldtection
A partir de mesures par satellite des ondes rflchies ou absorbes
par le sol dans diffrentes longueurs donde, peut-on reconstituer
automatiquement la nature du terrain tudi (fort, sable, ville, mer...) ?

Marketing direct
Connaissant les caractristiques dun client, peut-on prvoir
sa rponse une offre de produit par courrier ?

tude de textes
Interprtation dune typologie
4

Quelques dates:
Mahalanobis 1927
Hotelling 1931
Fisher 1936
Rao 1950
Anderson 1951
Vapnik 1998

MTHODES GOMTRIQUES
LINAIRES
A.C.P. sur le nuage des centres de gravit
des groupes munis de diffrentes mtriques
Recherche des meilleures
fonctions discriminantes

g (X 1 , X 2 ... X p )

NON LINAIRES
- quadratique
- cration de nouvelles variables

f (X 1 , X 2 ... X p ) et application dune

mthode linaire
- dcoupage en variables qualitatives et
application dune mthode sur
variables qualitatives

MTHODES PROBABILISTES
PARAMTRIQUE
- modle gaussien
- maximum de vraisemblance
avec autre modle paramtrique
Estimation directe des
probabilits dappartenance
aux groupes dfinis par Y

SEMI PARAMETRIQUE
- rgression logistique
NON PARAMTRIQUE
- Estimation de densit :
- Fonctions orthogonales
- Noyaux de Parzen
- K plus proches voisins
7

Autres approches

Mthodes de type boite noire induisant le


minimum derreurs de classement
Rseaux de neurones
SVM (Support Vecteur Machine )

I. MTHODES GOMTRIQUES
1.

Donnes - Notations

Les n individus e i de lchantillon constituent un nuage E, de Rp partag


en k sous-nuages : E1 , E 2 ... E k de centres de gravit g1 , g 2 ... g k
de matrices de variances

V1 ,V2 ...V.k

g = centre de gravit de E
V = matrice de variance de E
n individus ei affects des poids

x x
x x
x
x x
x
x
x

E1
x x
x x
x x
x x xx
x

p1 , p2 ... pn
rangs dans une matrice diagonale D

E2

x
x x x
x
x
x x
x

Ek
9

Notations matricielles

1
2

tableau de
donnes

1
1
1

2 .......... k
0 .......... 0
0 .......... 0

A
n

2 .......... p

0 ......... 1

Matrice des indicatrices de la variable qualitative prdire

Matrice des prdicteurs

D q = ADA

matrice diagonale des poids q j des sous-nuages.

( ADA ) ( ADX )
1

ses lignes sont les coordonnes des k


centres de gravit g 1 , g 2 ... g k

10

poids de la classe j

ei E

pi
j

Centres de gravit

1
gj =
qj

pi e i

g=

pour ei E j

qj g j
j =1

Matrice de variance-covariances de la classe Ej

Vj =

1
qj

e i E j

)(

pi e i g j e i g j

11

Matrice de variance interclasse : matrice de variance B des k centres


de gravit affects des poids q j :

B=

)(

q
g
g
g
g

j j
j
j =1

Matrice de variance intra-classe :

W=

q jV j
j =1

12

En rgle gnrale

W inversible
B non inversible (k centres de gravit dans un
sous-espace de dimension k-1 de Rp)

Variance totale =

Moyenne des variances + Variance des moyennes

13

En analyse discriminante, on considre trois types de matrices


de variances-covariances et donc trois types de corrlations.

corrlation totale

corrlation intra-classes

corrlation inter-classes

14

2.

Lanalyse factorielle discriminante (A.F.D.)

Elle consiste chercher de nouvelles variables (les variables discriminantes)


correspondant des directions de Rp qui sparent le mieux possible en
projection les k groupes dobservations.
axe 2
x
x
x

x
x

x
x

x
x

axe 1

Axe 1

x
x

Axe 2
Laxe 1 possde un bon pouvoir discriminant
Laxe 2 ne permet pas de sparer en projection les 2 groupes.
15

Supposons Rp muni dune mtrique M (calcul des distances)

a = axe discriminant

u = facteur associ

u = Ma

X u = variable discriminante
Linertie du nuage des g j projets sur a doit tre maximale.
La matrice dinertie du nuage des g est MBM, linertie du nuage projet
sur a est a' MBMa si a est M-norm 1.
Il faut aussi quen projection sur a , chaque sous-nuage reste bien group
donc que a' MVJ M a soit faible pour j = 1, 2 ... k.
On cherchera donc minimiser :
k

q j a' MV j M a
j =1

soit a' MWM a


16

Critre
La relation V = B + W entrane que MVM = MBM + MWM
donc : a' MVM a = a' MBM a + a' MWM a

Maximiser le rapport de linertie inter-classe linertie totale

max
a

a' MBM a
a' MVM a

Ce maximum est atteint si a est vecteur propre de ( MVM )

( MBM )

associ sa plus grande valeur propre 1

M 1V 1 BM a = a
17

A laxe discriminant a est alors associ le facteur discriminant u tel que :

u = Ma
1
On a alors : V B u = u

Les facteurs discriminants, donc les variables discriminantes X u


sont indpendantes de la mtrique M.
On choisira par commodit M = V 1

BV 1 a = a
1
V B u = u
On a toujours 0 1 1 car 1 est la quantit maximiser.
18

Cas particuliers

Cas 1 = 1

x
x
x
x

En projection sur a les dispersions intra-classes sont nulles. Les k nuages


sont donc chacun dans un hyperplan orthogonal a .
Il y a discrimination parfaite si les centres de gravit se projettent en des
points diffrents.
19

Cas 1 = 0
Le meilleur axe ne permet pas de sparer les centres de gravit g i , cest le
cas o ils sont confondus.
Les nuages sont donc concentriques et aucune sparation linaire nest
possible.
x
x
x x
x

Groupe 1
x

x
x

x x
x x
x

x
x x

x x
x

g1 = g 2

x x

Groupe 2

x
x

Il se peut cependant quil existe


une possibilit de discrimination
non linaire.

La distance au centre permet ici de sparer les groupes, mais il sagit dune
fonction quadratique des variables.

20

Autres proprits
La valeur propre est une mesure pessimiste du pouvoir discriminant dun axe.

x
x

x
x

x
x

x x
x x x

< 1 mais les groupes sont bien spars

Le nombre des valeurs propres non nulles, donc daxes discriminants est
gal k 1 dans le cas habituel o n > p > k et o les variables ne
sont pas lies par des relations linaires.
21

Remarque: Le cas de deux groupes


Il ny a quune seule variable discriminante puisque k 1 = 1 .
Laxe discriminant est alors ncessairement la droite reliant les deux
centres de gravit g 2 et g1 :
Le facteur discriminant u vaut donc :

ou u = W 1 g g
1
2

W 1 (g 1 g 2 )

a = g1 g 2
u = V 1 (g 1 g 2 )

qui lui est proportionnel

est la fonction de Fisher (1936).

22

3. Exemples: Les iris de Fisher

23

Les iris de Fisher


Graphique des fonctions discriminantes
species
1
2
3
Centrodes

Fonction 2

3,3
2,3
1,3
0,3
-0,7
-1,7
-2,7
-10

-6

-2

10

Fonction 1
24

Discrimination entre divers spiritueux


laide de dosages molculaires
Graphique des fonctions discriminantes
QUAL1
arm
bra
cog
rhu
wh
Centrodes

Fonction 2

9
5
1
-3
-7
-11
-14

-10

-6

-2

Fonction 1
25

4. Une A.C.P. particulire


Daprs les quations prcdentes, lanalyse factorielle discriminante
nest autre que lA.C.P. du nuage des k centres de gravit avec la
mtrique V 1 .
On en dduit que les variables discriminantes sont non corrles
deux deux.
Dans le cas o il existe plusieurs axes discriminants (k > 2) on peut
utiliser les reprsentations graphiques usuelles de lA.C.P. : cercle des
corrlations...

26

5. Rgles gomtriques daffectation


Ayant trouv la meilleure reprsentation de la sparation en k groupes
des n individus, on peut alors chercher affecter une observation e
lun des groupes.
La rgle naturelle consiste calculer les distances de lobservation
classer chacun des k centres de gravit et affecter selon la distance
la plus faible. Mtrique utiliser ?
Rgle de Mahalanobis Fisher
On utilise W 1

d 2 (e ; g i ) = (e g i )W 1 (e g i )

27

6. Exemple: Qualit des vins de Bordeaux


Les donnes

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34

Temprature
3064
3000
3155
3085
3245
3267
3080
2974
3038
3318
3317
3182
2998
3221
3019
3022
3094
3009
3227
3308
3212
3361
3061
3478
3126
3458
3252
3052
3270
3198
2904
3247
3083
3043

Soleil
1201
1053
1133
970
1258
1386
966
1189
1103
1310
1362
1171
1102
1424
1230
1285
1329
1210
1331
1366
1289
1444
1175
1317
1248
1508
1361
1186
1399
1259
1164
1277
1195
1208

Chaleur
10
11
19
4
36
35
13
12
14
29
25
28
9
21
16
9
11
15
21
24
17
25
12
42
11
43
26
14
24
20
6
19
5
14

Pluie
361
338
393
467
294
225
417
488
677
427
326
326
349
382
275
303
339
536
414
282
302
253
261
259
315
286
346
443
306
367
311
375
441
371

Qualit
2
3
2
3
1
1
3
3
3
2
1
3
3
1
2
2
2
3
2
1
2
1
2
1
2
1
2
3
1
1
3
1
3
3

28

Analyse pralable
Temprature

3600
3500

Report

3400

Temprature
Mean
3306.36
3140.91
3037.33
3157.88

N
11
11
12
34

Std. Deviation
92.06
100.05
69.34
141.18

Measures of Association

Temprature * Qualit

Eta
.799

3300
3200
3100

Temprature

Qualit
1
2
3
Total

3000
2900
2800
N=

Eta Squared
.639

11

11

12

Bon

Moyen

Mdiocre

Qualit

Rapport de corrlation = 2 =

Between Groups Sum of Squares


Total Sum of Squares
ANOVA Table

Temprature * Qualit

Between Groups
Within Groups
Total

(Combined)

Sum of
Squares
420067.4
237722.1
657789.5

df
2
31
33

Mean Square
210033.704
7668.456

F
27.389

Sig.
.000

29

Soleil
1600

Report

1500

Soleil
Qualit
Bon
Moyen
Mdiocre
Total

1400

Mean
1363.64
1262.91
1126.42
1247.32

Std. Deviation
80.31
71.94
88.39
126.62

11
11
12
34

1300

1200

1100

Soleil

1000

Measures of Association

Soleil * Qualit

Eta
.786

900
N=

Eta Squared
.618

11

11

12

Bon

Moyen

Mdiocre

Qualit

ANOVA Table

Soleil * Qualit

Between Groups
Within Groups
Total

(Combined)

Sum of
Squares
326909.1
202192.4
529101.4

df
2
31
33

Mean Square
163454.535
6522.335

F
25.061

Sig.
.000

30

50

Chaleur

40

Report
30

Chaleur
Mean
28.55
16.45
12.08
18.82

N
11
11
12
34

Std. Deviation
8.80
6.73
6.30
10.02

20

10

Chaleur

Qualit
Bon
Moyen
Mdiocre
Total

12

0
N=

11

11

12

Bon

Moyen

Mdiocre

Measures of Association
Qualit

Chaleur * Qualit

Eta
.705

Eta Squared
.497

ANOVA Table

Chaleur * Qualit

Between Groups
Within Groups
Total

(Combined)

Sum of
Squares
1646.570
1664.371
3310.941

df
2
31
33

Mean Square
823.285
53.689

F
15.334

Sig.
.000

31

Pluie

800

700

Report
600

Pluie
Qualit
Bon
Moyen
Mdiocre
Total

Mean
305.00
339.64
430.33
360.44

Std. Deviation
52.29
54.99
104.85
91.40

11
11
12
34

500

400

300

Pluie

200
100
N=

Measures of Association

11

11

12

Bon

Moyen

Mdiocre

Qualit

Pluie * Qualit

Eta
.594

Eta Squared
.353

ANOVA Table

Pluie * Qualit

Between Groups
Within Groups
Total

(Combined)

Sum of
Squares
97191.170
178499.2
275690.4

df
2
31
33

Mean Square
48595.585
5758.039

F
8.440

Sig.
.001

32

Qualit des vins de Bordeaux

33

Qualit des vins de Bordeaux

34

Qualit des vins de Bordeaux:


Pourcentage de bien classs
Tableau de classement
Observ
Groupe Prvu
qualit
qualite
Taille
1
2
3
-------------------------------------------------------------------1
11
9
2
0
( 81,82%)
( 18,18%)
( 0,00%)
2
11
2
8
1
( 18,18%)
( 72,73%)
( 9,09%)
3
12
0
2
10
( 0,00%)
( 16,67%)
( 83,33%)
-------------------------------------------------------------------Pourcentage d'observations bien classes: 79,41%

35

Qualit des vins de Bordeaux


Fonctions discriminantes

Coefficients des fonctions discriminantes pour qualit


Coefficients standardiss
----------------------------------------------1
2
stemp
0,750126
-0,00405015
insol
0,547064
-0,430399
chaleur
-0,198237
0,935229
hpluies
-0,445097
0,468536
----------------------------------------------36

7. Insuffisance des rgles gomtriques


Lutilisation de la rgle prcdente conduit des affectations incorrectes
lorsque les dispersions des groupes sont trs diffrentes entre elles : rien
ne justifie alors lusage de la mme mtrique pour les diffrents groupes.

g1

e plus proche de g1 que de


g 2 au sens habituel.
g2

Pourtant, il est plus naturel


daffecter e la deuxime
classe qu la premire dont
le pouvoir dattraction est moindre.

37

Solution : mtriques locales M i


1
Dans la plupart des cas, on choisit M i proportionnel Vi .
La question de loptimalit dune rgle de dcision gomtrique

ne peut cependant tre rsolue sans rfrence un


modle probabiliste.

38

8. Remarques concernant la prsentation de lanalyse


discriminante dans les logiciels amricains
8.1. Par ses liens avec lanalyse canonique, les auteurs de langue
anglaise utilisent le terme : ANALYSE DISCRIMINANTE
CANONIQUE .
On cherche la combinaison linaire des variables qui a le plus
grand coefficient de corrlation multiple avec la variable de
classe.

39

Ce coefficient de corrlation est appel premire corrlation


canonique.
1
La valeur propre 1 (quation V B u = 1 u ) est gale au carr

de ce coefficient de corrlation.

La variable dfinie par la combinaison linaire est appele la premire


composante canonique ou premire variable canonique.

40

La deuxime variable canonique rpond deux critres :

- ne pas tre corrle avec la premire,


- avoir le plus grand coefficient de corrlation multiple possible avec
la variable de classe.

Ce processus peut tre rpt jusquau moment o le nombre de variables


canoniques est gal au nombre de variables de dpart ou au nombre de
classes moins 1 sil est plus petit.

41

8.2.

W
Analyse de variance et mtrique____

Sil ny avait quune seule variable explicative, on mesurerait


lefficacit de son pouvoir sparateur sur la variable de groupe au
moyen dune analyse de variance ordinaire 1 facteur :

F=

Variance inter / k 1
Variance intra / n k

42

Comme il y a p variables, on peut rechercher la combinaison linaire


dfinie par des coefficients u donnant la valeur maximale pour la statistique
de test, ce qui revient maximiser :

u' B u
u'W u
La solution est donne par lquation :

W 1 B u = u

avec maximal

43

1
1
Les vecteurs propres de W B sont les mmes que ceux de V B

avec =

1+

Les logiciels amricains fournissent cette valeur propre :


si : 0 1
on a en revanche : 0
A ce point prs, lutilisation de V 1

ou de W 1 comme mtrique

est indiffrente.
44

9. Analyse canonique discriminante et rgression


Lanalyse canonique discriminante, se rduit dans le cas de deux groupes
une rgression multiple.
En effet aprs avoir centr, lespace engendr par les deux indicatrices de
la variable des groupes est de dimension 1.
Il suffit donc de dfinir une variable centre Y ne prenant que les deux
valeurs a et b sur les groupes 1 et 2.

(n1a

+ n2 b = 0)

On obtiendra alors un vecteur des coefficients de rgression proportionnel


la fonction de Fisher pour un choix quelconque de a.
45

IMPORTANT
On prendra garde au fait que les hypothses habituelles de la
rgression ne sont pas vrifies, bien au contraire :
Ici Y est non alatoire
X lest.

Ne pas utiliser, autrement qu titre indicatif, les statistiques


usuelles fournies par un programme de rgression.

46

10. Analyse discriminante sur variables


qualitatives

Y : variable de groupe

1 , 2 , ... p variables explicatives m1 , m 2 , ... m p modalits.

47

Exemples
Solvabilit demprunteurs auprs de banques
bon payeur

1 : sexe

mauvais payeur

2 : catgorie professionnelle

Risque en assurance automobile


bon conducteur

1 : sexe

mauvais conducteur

2 : tranche dge

3 : vhicule sportif ou non

Reclassement dans une typologie

Y : classes

48

Caractristiques du problme
Grand nombre de prdicteurs qualitatifs
chantillons volumineux

Mthodes
classiques
inadaptes

Analyse discriminante classiques : variables quantitatives


Modle log linaire : trop de variables

D I S Q UA L
Mthode de discrimination fonde sur lanalyse factorielle
49

Prdicteurs qualitatifs
Estimer P (Y = y 1 = x1 2 = x 2 ...)
Approche multinomiale irraliste

P estim par la frquence


k

mi
i =1

cases !

Approche modle
Log-linaire, linaire, on nglige certaines interactions.
Ex :

n P (Y = y 1 = i , 2 = j , 3 = k )

= 0 + i + j + k + ij + ik
50

Une mthode de discrimination sur variables qualitatives :


la mthode DISQUAL
Les p prdicteurs sont p variables qualitatives 1 2 ... p
m1 m 2 ... m p modalits.

1re tape

A.C.M. des variables 1 2 ... m

Analyse des correspondances du tableau disjonctif

X = X 1 X 2 ... X p

)
51

2me tape

On remplace les p variables qualitatives par les q coordonnes


sur les axes factoriels

analyse discriminante sur ces q variables numriques


Z1 Z2 ... Zq

Facteur discriminant d = combinaison linaire des


Zj qui sont des combinaisons linaires des indicatrices.

52

3me tape

Expression de d comme combinaison linaire des indicatrices

attribuer chaque catgorie de chaque variable une valeur


numrique ou score.

Ceci revient donc transformer chaque variable qualitative


en une variable discrte m valeurs (associes chaque
modalit).

53

LANALYSE DISCRIMINANTE
MTHODES DCISIONNELLES

54

MTHODES PROBABILISTES

1. La rgle baysienne
k groupes en proportion p1, p2 ... pk

La distribution de probabilit du vecteur observation x = x1 , ... x p


est donne pour chaque groupe j par une densit (ou une loi discrte)

f j (x) .

55

Observation

(x1 , x2 ... x p )
probabilit quelle provienne du groupe j
formule de Bayes

P (G j x ) =

P x G j P (G j )

P (x G j )P (G j )
k

j =1

P (G j x ) =

p j f j (x)
k

p j f j (x)
j =1

56

Rgle baysienne
Affecter x au groupe qui a la probabilit a posteriori maximale.

chercher le maximum de p j f j ( x )
Il est ncessaire de connatre ou destimer f j ( x )
mthodes non paramtriques
mthodes paramtriques : cas gaussien p-dimensionnel,
discrimination logistique.

57

2. Le modle normal multidimensionnel


Hypothse de travail

distribus selon

( , j )

pour chaque groupe

Hypothse de travail
Densit:

f j (x) =

(2 )

p/2

(det j )

1/ 2

exp x j 1
x

j
j
2

58

2-1.

Cas gnral

Rgle baysienne :

max p j f j ( x )

devient par passage aux logarithmes

(de lexpression 2 Log p j f j ) :

min : x j j 1 x j 2 Log p j + Log (det j )


Lorsque les j sont diffrents, cette rgle est donc quadratique il faut
comparer k fonctions quadratiques de x

j est en gnral estim par

n
Vj
n1

j par g j
59

2-2.
Si

Cas dgalit des matrices de variance covariance

1 = 2 = ... ,
Alors

la rgle devient linaire car :

log (det j ) = constante

(x ) (x ) = (x, )
1

= distance de Mahalanobis
de x
En dveloppant, en liminant
do en divisant par -2

x' 1 x , on obtient :
1

max x' -1 j - ' j 1 j + log p j


2

60

Si est estim par

n
W :
nk

rgle Baysienne rgle gomtrique (si galit des p j )


La rgle gomtrique est alors optimale.

La probabilit a posteriori dappartenance au groupe j est proportionnelle :

1
p j exp 2 x , j

61

2-3.

Cas de deux groupes avec galit de 1 et___


2
On affectera x au groupe 1 si :

1
1


1
1
1
1
x
'

'

Log
p
x
'

'

'

Log
p

+
>

+
1
2
2
2
1
1
2
1 2

2

p2
1

1
(
)
(
)
(
)
x' 1 2 > 1 + 2 1 2 + Log
2
p
1

62

Si p1 = p2 = 0,5 , on retrouve la rgle de Fisher en estimant par

Soit

s ( x ) = x' 1 ( 1 2 )

n
W.
n2

p
1
(
1 + 2 ) 1 ( 1 2 ) Log 2
2
p1

On affectera x au groupe 1 si s ( x ) > 0


au groupe 2 si s ( x ) < 0

s ( x ) appele score ou statistique dAnderson.

63

Proprit
S ( x ) est lie simplement la probabilit a posteriori dappartenance
au groupe 1.
Dmonstration :

p1 f1 ( x )
P (G1 x ) =
=P
p1 f1 ( x ) + p2 f 2 ( x )

p2 f 2 ( x )
1
=1+
P
p1 f1 ( x )

p2
1
1

1
exp (x 2 ) (x 2 ) + (x 1 ) 1 (x 1 )
=1+
2
p1
2

64

p2
1 2
1
1 2

1=
exp (x , 1 ) (x , 2 )
P
p1
2
2

1 = S ( x )
P

1
e s( x )
P=
=
s( x )
1+ e
1 + e s( x )

do Log

P fonction logistique du score

Remarque : Lorsque p1 = p2 =

P=

1
2

1
2 x , 1 2 x , 2
1+ e 2

)]
65

2-4.

A propos de certains tests :

Test dgalit des matrices i : test de Box

Si lhypothse 1 = 2 = ... = k est vraie, la quantit :

ni
2 p 2 + 3 p 1
1
1
n

(
)
(
)

1
n
k
Log
W
n
1
Log
V
i
i
6( p + 1)(k 1) ni 1 n k
nk
ni 1
2
suit approximativement une loi p ( p +1)(k 1)
2

66

Si on rejette lhypothse dgalit, doit-on utiliser les rgles quadratiques ?


Ce nest pas sr :

Test de Box pas parfaitement fiable


Rgle quadratique estimation de chaque j (donc de plus de
paramtres).
Lorsque les chantillons sont de petite taille, les fonctions obtenues
sont trs peu robustes.

il vaut mieux choisir une rgle linaire.

67

Nombre de paramtres estimer


Exemple:
Avec p = 10 variables
Avec k= 4 groupes
Lanalyse discriminante linaire demande lestimation de 95
paramtres et lanalyse discriminante quadratique lestimation de
260 paramtres

68

2.5. Qualit de la discrimination


a. Cas de 2 groupes

A variables parmi les p composantes de x


2
2
Supposons que p = l : en dautres termes les ( p A ) autres

Soit un ensemble de

variables napportent aucune information pour sparer les deux


populations, alors :

(n1 + n2 p 1) n1n2 (D 2p Dl2 )


= F ( p l , n1 + n2 p 1)
2
( p l )(n1 + n2 )(n1 + n2 2) + n1n2 Dl
On peut ainsi tester :
lapport dune nouvelle variable en prenant A = p 1

2
lapport de toutes les variables p = 0

69

b. Plus de 2 groupes :
On utilise le de Wilks
Sous H 0 : 1 = 2 = ... = k

W
W
1
=
=
=
V
W + B W 1 B + I
suit la loi de Wilks de paramtres ( p, n k , k 1)

Justification : nV, nW, nB suivent des lois de Wishart

n 1, n k , k 1 d.d.l.
70

c. Remarque dans le cas de deux groupes

Le test de Wilks et le test de la distance de Mahalanobis H 0 2p = 0

sont identiques :

B tant de rang 1, on a :
1

=
1 + D 2p

n1n2
(n1 + n2 )(n1 + n2 2)

1
=1
1+

= valeu r p ro p re d e W 1 B
= valeu r p ro p re d e V -1 B

=
1
71

d. Paramtres usuels fournis par les logiciels


k 1

= (1 i)

Wilks:

i =1

= corrlation canonique au carr

Plus le

(Wilks) est faible, meilleure est la discrimination


k

Trace de Pilla =

Trace(V 1B) = i
i =1

Trace de Hotelling-Lawley
k 1

i
Trace(W 1B) =
= i
i =1 1 i
i =1
k 1

Plus grande valeur propre de Roy : 1


72

2.6. Slection de variables pas pas


En discriminante k groupes, on utilise souvent le test de variation
de mesur par :

nk
k 1

p p
1 que lon compare un F(k 1,n k p )

p +1

La plupart des logiciels prsentent des techniques de slection


ascendante,descendante ou mixte des variables. SAS propose la
procdure STEPDISC.
73

Slection ascendante (option Forward)


A ltape initiale aucune variable nest prsente.
A chaque tape on fait entrer la variable qui contribue le plus au pouvoir
discriminant du modle, mesur par le lambda de Wilks.
La slection sarrte quand aucune des variables non slectionnes ne
convient au sens du seuil de probabilit choisi pour le F de Fisher.

Slection descendante (option Backward)


On dmarre avec le modle complet (construit avec toutes les variables)
A chaque tape, la variable contribuant le moins au pouvoir discriminant du
modle est limine.
La slection sarrte quand on ne peut plus liminer de variables tant donn
le seuil de probabilit choisi pour le F de Fisher.
74

Slection mixte (option Stepwise)


On dmarre comme dans la procdure ascendante.
Ds quune variable entre dans le modle, on vrifie compte tenu de cette
entre si lune des variables dj prsentes est susceptible dtre limine.
La slection sarrte quand on ne plus ajouter ou liminer de variables.

75

3. Mesures defficacit des rgles de classement


Critre usuel

Probabilit de bien classer une observation quelconque.


Les diverses mthodes sont compares en fonction de
leurs taux derreur.

3.1 Taux derreur thorique pour deux groupes avec 1 = 2 et


distribution normale
Quand p1 = p2 , on affecte lindividu au groupe 1 si :

S ( x ) = x' 1 ( 1 2 ) ( 1 + 2 ) 1 ( 1 2 ) > 0
2

La probabilit derreur de classement est donc :

P S ( x ) > 0 x N p ( 2 , )

76

La loi de S ( x ) est une loi de Gauss une dimension comme combinaison


linaire des composantes de x .

E ( S ( x )) = '2 1 ( 1 2 )

1
(
1 + 2 ) 1 ( 1 2 )
2

1
= ( 1 2 ) 1 ( 1 2 )
2
1 2
= p
2
1
( u
V ( S ( x )) = ( ) 1
1

2
)
=

2
p

1
S ( x ) suit N 2p ; p si x G2

77

La probabilit de classer dans le groupe 1 une observation du groupe 2 est :

1 2
1 2

S(x) + p 0 + p
2
2

P (1 2 ) = P
>
p
p

P (1 2) = P U >
2

o U suit N

(0

;1

Elle est gale P (2 1) .


Cette relation donne une interprtation concrte la distance de Mahalanobis.
Remarque

Estimations biaises sous-estimation du taux derreur.


78

3-2.

Mthode de resubstitution

Raffectation des observations selon les fonctions discriminantes trouves.


Inconvnient

On sous-estime le taux derreur.

Critre usuel
79

3-3.

chantillon dapprentissage; chantillon test


chantillon
partage
chantillon de base
ou dapprentissage

il permet dlaborer
les rgles de classement

chantillon test

estimation du taux
derreur

80

3.4 Validation croise

Pour i = 1 n, on construit la rgle de dcision sur la base prive de son


ime lment et on affecte ce dernier lun des groupes suivant cette rgle.

Le taux derreur estim est alors la frquence de points mal classs de


la sorte. Lestimation du taux derreur ainsi obtenu est pratiquement
sans biais

La variance de lestimation est dautant plus importante que n est grand,


puisque dans ce cas, les diffrentes rgles de dcision construites partir
de n-2 observations communes ont tendance se ressembler.

81

4. Mthodes non paramtriques

Les mthodes non paramtriques consistent estimer la densit de


probabilit en chaque point de lchantillon.
Deux mthodes sont souvent utilises :

- mthode du noyau
- mthode des k plus proches voisins.

82

4.1 La mthode des noyaux


La mthode des noyaux gnralise la notion dhistogramme. Dans le cas
unidimensionnel, pour estimer la densit en un point x, on centre lintervalle
de longueur R de lhistogramme en ce point. La densit est alors le rapport
de la probabilit de lintervalle sur la longueur de lintervalle.
Dans le cas multidimensionnel, considrons lellipsode centr sur x :

r, j (X ) = y

( y x )V j1 ( y x ) r 2

}
83

Notons I j ( z ) la variable indicatrice de lellipsode

La densit de probabilit estime scrit : f j ( x ) =

{z / zV j1 z r 2 }
I j ( y x)

yG j

n j vr ( j )

avec n j = nombre dlments du groupe j


v r ( j ) = volume de lellipsode

La mthode du noyau consiste utiliser une fonction (le noyau) plus


lisse que la variable indicatrice I j ( z ) .
84

On trouve dans la littrature (et les logiciels) diffrents types de noyaux :


uniforme: On compte le nombre dobservations appartenant la boule
de rayon R. Ce nombre est alatoire.
normal
Epanechnikov
biweight kernel
triweight kernel
La difficult dutilisation de ces mthodes rside dans le choix du noyau
et le choix de r.

85

4.2. Mthode des k plus proches voisins


On cherche les k points les plus proches de lindividu x et on classe x
dans le groupe le plus reprsent : la probabilit a posteriori dappartenir au
groupe j est gale au quotient entre le nombre dindividus du groupe j parmi
les k points, et le nombre de voisins (k).

Le choix de k est moins crucial que le choix de r dans la mthode des


noyaux. On peut choisir k optimisant une proportion de bien classs en
validation croise.

86

5. La rgression logistique

Lorsquil ny a pas que deux groupes, sous lhypothse de normalit et


dgalit des matrices de variance, la probabilit a posteriori est une
fonction logistique du score, lui-mme fonction linaire des variables
explicatives.

p f (x)
1

Log 1 = Log 2 2
= S(x)
p1 f1 ( x ) 

87

Donc :

Log

(*)

Log

f
f

2
1

p
f2 (x)
= Log 1 + + ' x

p2 
f1 ( x )

(x )
=
(x )

+ ' x

1
= 2
..
.
p

Ceci amne dfinir la rgression logistique partir de lexpression (*).

88

Hypothse de travail

Log

f
f

2
1

(x )
=
(x )

+ ' x

1
= 2
..
.
p

Le modle de la rgression logistique consiste estimer les (p+1)


paramtres selon le maximum de vraisemblance.

p1 f1 ( x )
p1 f1 ( x )
p2 f 2 ( x )
=
P (G1 x ) =
p1 f1 ( x )
p1 f1 ( x ) + p2 f 2 ( x )
1+
p2 f 2 ( x )
89

p1
+ 0 + ' x
exp Log
p2

P (G1 x ) =

p
1 + exp Log 1 + 0 + ' x
p2

1
P (G2 x ) =

p1
1 + exp Log
+ 0 + ' x
p2

(1)

(2)

On montre que les expressions (1) et (2) sont conserves pour la famille de
distributions :

f i ( x ) = c i exp (x i ) 1 ( x i ) h( x )
2

o h est une fonction arbitraire de x intgrable non ngative et c i une


constante telle que f i soit une densit de probabilit.

90

En effet, h nintervient pas dans le calcul de (1) et (2) :


si h( x ) 1 on retombe sur la loi multinormale
on peut faire intervenir des variables binaires dans le modle
on peut appliquer le modle au cas o un groupe de la population est
dissymtrique (h(x) constante dans la population normale, croissante
ailleurs)

mthode gnrale
91

Expression de la vraisemblance des (n1 et n2 fixs)

L = f1 ( x i ) f 2 ( x i )
iG1

iG2

avec : f ( x ) = p1 f1 ( x ) + p2 f 2 ( x )

P (G1 x ) f ( x )

(
)
f
x
=
1
p1
On a
f 2 ( x ) = P (G2 x ) f ( x )

p2
Do L =

soit : L =

P (G1 x i ) P (G2 x i )

p1n1 p2n2 iG1


L1 L2
p1n1 p2n2

n1 + n2

iG2

i =1

f (xi )

L1 = vraisemblance conditionnelle des


paramtres connaissant les x i
L2 = densit (incondionnelle) des x i
92

f non connue, on estime 0 , 1 ... p par une mthode de maximum de


vraisemblance conditionnelle :

p1

+
+
Log

x
exp
'
i
0

max
p2
1



iG1

iG2

p1
p1
+ 0 + ' x i
+ 0 + ' x i
1 + exp Log
1 + exp Log
p2
p2

Ncessit dutiliser une mthode numrique.


(Pas de solution analytique lquation de vraisemblance).
Les tant estims, la rgle Baysienne peut tre applique pour les
classements.

P (G1 x )
p1
Log
= Log
+ 0 + ' x
P (G2 x )
p2
p
On affectera au groupe 1 si Log 1 + 0 + ' x > 0
p2

93

Avantages - Inconvnients de la rgression logistique

Rsultats meilleurs que la rgle gomtrique, pour :


des populations non gaussiennes
des populations o 1 trs diffrent de 2
mais procdure de calcul plus complexe.
Lorsque les donnes proviennent de deux populations normales avec

1 = 2 la rgression logistique est moins performante que lanalyse


f
discriminante.
Seul ( 1 suppos connu).
f2

94

BIBLIOGRAPHIE CONCERNANT LES METHODES


DANALYSE DISCRIMINANTE ET DE SEGMENTATION

Rfrences gnrales en statistique


G. GOVAERT (Editeur) Analyse des donnes Herms Lavoisier
(2003)
L. LEBART, A. MORINEAU, M.PIRON
Statistique exploratoire multidimensionnelle 3me dition Dunod
(2000)
G. SAPORTA "Probabilits, analyse des donnes et statistique" 2me
dition Technip (2006).
S. TUFFERY "Data mining et statistique dcisionnelle" Technip 2010
95

S.TUFFERY tude de cas en statistique dcisionnelle Technip


2009
M. TENENHAUS "Statistique: Mthode pour dcrire,expliquer et
prvoir ". Dunod (2006).

Analyse discriminante et Segmentation


BARDOS M. Analyse discriminante : Application au risque et
scoring financier Dunod (2001)
Breiman, L., Friedman, J.H., Olshen, R.A. & Stone, C.J. Classification
And Regression Trees. Monterey, California, Wadsworth & Brooks
(1984)
CELEUX G. (Editeur scientifique) Analyse discriminante sur
variables continues Collection didactique INRIA (1990)
CELEUX G ;, NAKACHE J.P. Analyse discriminante sur variables
qualitatives
Polytechnica (1994)
96

DROESBEKE J-J., LEJEUNE M., SAPORTA G. (Editeurs) Modles statistiques


explicative pour donnes qualitatives Technip (2005)
HUBERTY C. Applied discriminant analysis Wiley (1994)
NAKACHE J-P., CONFAIS J. Statistique explicative applique Technip
(2003)
TOMASSONE R., DANZART M., DAUDIN J.J., MASSON J.P. Discrimination
et classement Masson ( 1988)
ZIGHED D.A., RAKOTOMALALA R. Graphes dinduction Herms ( 2000)

Sites INTERNET
Le site de la Socit Franaise de Statistique : www.sfds.asso.fr
Laide en ligne du logiciel SAS : http://support.sas.com/documentation/online.doc
Le site de Statsoft sur la statistique et le data mining : www.statsoft.com
Liste de mthodes de segmentation : www.recursivepartitioning.com/classification_trees

97

Vous aimerez peut-être aussi