Vous êtes sur la page 1sur 8

M2 de Statistique, Université Pierre et Marie Curie

Bertrand MICHEL

Notes de cours
Analyse Discriminante Linéaire
Analyse Discriminante Quadratique

On dispose d’une population composée de k sous-populations définies par une variable catégorielle
à k modalités que l’on note y. Quitte à renommer les classes, on suppose que l’ensemble des moda-
lités est {1, . . . , k}. Chaque individu de la population est aussi décrit par des variables explicatives
x1 , . . . , xj , . . . , xp .

1 Nuages et décomposition de la variance


Dans cette section, on suppose que les variables explicatives x1 , . . . , xj , . . . , xp sont toutes de type
continu. Soit M la matrice associée au nuage des individus mesurés sur chacune des p variables expli-
catives :
x1 . . . xp1
 1 

M =  ... .. ..  .

. . 
xn . . . xpn
1

On appelle nuage de Rp le n-uplet des observations (x1 , . . . , xn ), où chacun des vecteurs xi de Rp est
un point du nuage. Par abus on notera aussi M le nuage. Dans la suite on supposera toujours que le
nuage est centré : !
1 X j
xi = 0.
n
i=1...n j=1...p

La matrice de variance-covariance des variables du nuage M est définie par :


n
h
j0
i 1 1X
j
S := cov(x , x ) = M0 M = xi x0i
1≤j,j 0 ≤p n n
i=1

1.1 Géométrie d’un seul nuage


Avant de décrire la géométrie des k nuages, considérons le cas d’un seul nuage en laissant de côté
pour le moment le problème de la classification supervisée. L’analyse en composantes principales (voir
le cours dédié) nous dit que l’orientation du nuage M peut être décrite à partir de la décomposition en
valeurs propres de la matrice S. Plus précisément, la première direction propre (pour la plus grande
valeur propre) correspond à la direction de Rp pour laquelle les données du nuage M sont le plus
dispersée. La seconde direction propre donne la direction orthogonale à la première pour laquelle les
données sont le plus dispersée, etc...

1.2 Géométrie des k nuages


Nous supposons désormais que k nuages sont observés : la variable y présente k modalités distinctes.
Pour simplifier les notations, les individus sont numérotés de telle sorte que les premiers individus sont
ceux du groupe 1, puis ceux du groupe 2 :

x1 . . . xp1
 1   
M(1)
M =  ... .. ..  =  .. 

. .   . 
xn . . . xpn
1 M(k)

1
où M(`) est la matrice des données du groupe `. Les k groupes induits par la variable catégorielle y
définissent k nuages dans l’espace Rp des variables explicatives. On supposera de plus que k ≤ p < n.
On note :
1
1
1
g1 1 1
— I` la liste des individus du groupe `, 1 1
— n` l’effectif de la sous-population `, 1
1
— g ` le centre de gravité du groupe ` : g ` = (g`1 , . . . , g`p )0 avec

3 3
1 X j
g`j = xi . 2 3
g3
3
n` 2 g2 2 3
i∈I` 3
2
2 3 3
2 2
3
2
Chacun des k nuages M(`) a une orientation Rp qui peut être décrite par sa matrice de variance-
covariance S ` (c.f. paragraphe précédent) où
1
S ` := (M(`) − en` g 0` )0 (M(`) − en` g 0` )
n`
1 X
= (xi − g ` )(xi − g ` )0 .
n`
i∈Il

où ek designe le vecteur (1, . . . , 1)0 de Rk . On définit alors la matrice de variance intra-classe par
X n`
W := S` p×p
n
`=1...k

Cette matrice est la moyenne pondérée des matrices de variance-covariance des k nuages. Elle corres-
pond donc à “l’orientation moyenne” des k nuages. La première direction principale de W correspond à
la direction selon laquelle les nuages sont le plus étalés, etc ... En général, la matrice W est inversible,
ce que l’on supposera dans la suite.

g3

g1
Premiere direction principale de W

g2
Seconde direction principale de W

Figure 1 – Trois nuages avec des orientations comparables.

Soit G la matrice k × p du nuage des centres des k nuages. Le centre de gravité ḡ de G pondéré
des n` vérifie
1 X
ḡ := n` g ` = x̄ = 0.
n
`=1...k

La matrice de variance-covariance B des k centres de gravité pondérés par les nl est appelée matrice

2
de variance inter-classes :
!
1 X
B := n` (g`j − ḡ j )(g`u − ḡ u )
n
`=1...k 1≤j,u≤k
0 n1 nk
= G Diag( , . . . , )G car ḡ j = ḡ u = 0
n n
1 X
= n` g ` g 0` p×p
n
`=1...k
Puisque `=1...k n` g ` = 0, le nuage des g l est contenu dans un sous-espace vectoriel de Rp de dimension
P
k − 1 et la matrice B n’est pas inversible. La matrice B décrit la géométrie du nuage des k centres de
gravité.

Les variances intra et inter classes permettent de décomposer la variance totale du nuage :
Proposition 1. La variance du nuage M se décompose en variance intra-classe et variance inter-
classes :
S = W + B.

2 Analyses discriminantes linéaire et quadratique


On suppose dans cette section que les variables aléatoires X j sont toutes de type continu.

2.1 Modélisation
On suppose que les variables en jeu sont des variables aléatoires notées Y et X j , dont on observe des
réalisations xj1 , . . . xjn et y1 , . . . , yn . Supposons de plus que la distribution de Y admet k ≥ 2 modalités.
Pour chacune de ces modalités on considère la loi conditionnelle de X = (X 1 , . . . , X p ) sachant Y = `
et on suppose que cette loi conditionnelle admet une densité f` pour la mesure de Lebesgue sur Rp
(que l’on note ici λp ). On considère
— π` = P (Y = `) : la probabilité a priori d’appartenance au groupe `.
— P (Y = `|X = x) : la probabilité a posteriori d’appartenance au groupe `.
Proposition 2. Sous les hypothèses précédentes :
1. La distribution du vecteur aléatoire (X, Y ) admet la densité
f : Rp × {1, . . . k} → R+
`=1 f` (x)π` 1 y=`
Pk
(x, y) 7→
par rapport à la mesure λp ⊗ δk , où δk désigne la mesure ponctuelle d’atomes {1, . . . , k}.
2. La distribution du vecteur X admet la densité suivante par rapport à λp :
k
X
fX = π` f` .
`=1

3. Pour tout ` ∈ {1 . . . , k}, la probabilité a posteriori d’appartenance au groupe ` vérifie :


π` f` (x)
P (Y = `|X = x) = Pk (1)
s=1 πs fs (x)
Les méthodes d’analyse discriminante linéaire et quadratique sont des méthodes d’analyse discrimi-
nantes de type décisionnel. Pour prédire la variable Y à partir des variables X 1 , . . . , X p , il est naturel
de s’appuyer sur les probabilités a posteriori. Plus précisément, la règle bayésienne d’attribution
consiste à attribuer une observation au groupe le plus probable pour celle-ci , c’est-à-dire celui pour
lequel la probabilité a posteriori est maximale, ce qui équivaut d’après la relation (1) à choisir
Ŷ (x) = Argmax f` (x)π` .
`=1...k
Cependant, en pratique ces quantités sont inconnues et il faut les estimer à partir des observations
disponibles. Pour cela on proposera différentes hypothèses de modélisation sur la loi de X sachant Y .

3
Hypothèse gaussienne. Pour modéliser le fait que les observations de chaque groupe ` sont orga-
nisés en “clusters”, nous allons supposer que la loi du vecteur X = (X 1 , . . . , X p ) peut être modélisée
par une loi normale multivariée de densité sur Rp :
 
p 1 1 0 −1
x ∈ R , f` (x) = √ exp − (x − µ` ) Σ` (x − µ` ) .
(2π)p/2 det Σ` 2
Comme dans le cas de la régression linéaire, cette hypothèse n’est jamais rigoureusement vérifiée pour
des données réelles. Cependant, cette modélisation est souvent suffisamment souple pour approcher
efficacement la véritable loi des données (que l’on ne connaît évidemment pas en pratique).

ADL et ADQ. Si toutes les matrices de variance-covariance sont égales : Σ1 = · · · = Σk = Σ, il


s’agit de l’analyse discriminante linéaire (ADL) :

Au contraire, si les matrices de variance-covariance ne sont pas supposées égales, il s’agit de l’analyse
discriminante quadratique (ADQ) :

2.2 Analyse Discriminante Linéaire (ADL)


Dans le but de déterminer les frontières entre les zones d’attribution, on considère le logarithme
des rapports entre probabilités a posteriori : x ∈ Rp
P (Y = ` | X = x) π` f` (x)
log = log + log
P (Y = h | X = x) πh fh (x)
π` 1 1
= log − (x − µ` )0 Σ−1 (x − µ` ) + (x − µh )0 Σ−1 (x − µh ) (2)
πh 2 2
π` 1 0 −1 1 0 −1
= log − µ Σ µ` + µh Σ µh + x0 Σ−1 (µ` − µh )
πh 2 ` 2
On définit une fonction discriminante s` pour chaque groupe ` par :
1
x ∈ Rp , s` (x) := x0 Σ−1 µ` + log π` − µ0` Σ−1 µ` .
2
La règle de Bayes consiste ici à affecter une observation x au groupe y(x) de score maximum :
y(x) = argmax s` (x).
`=1...k

Ces fonctions discriminantes (ou scores) sont linéaires en x, d’où l’appellation d’analyse discriminante
linéaire.

4
Inférence. En pratique, les quantités Σ, µ1 , . . . , µk et π1 , . . . , πk sont inconnues. On peut cependant
les estimer par la méthode du maximum de vraisemblance :
Proposition 3. En supposant que la loi conditionnelle de (X|Y = `) est celle d’une loi normale
multivariée p-dimensionnel dont la matrice de variance-covariance est inversible et ne dépend pas de `
(hypothèse ADL), les estimateurs du maximum de vraisemblance de Σ, µ` et π` vérifient :

b =W =
X n` 1 X n`
Σ S`, µ̂` = g ` = xi et π̂` = .
n n` n
`=1...k i|yi =`

Remarque. On utilise aussi parfois l’estimateur sans biais de la matrice de variance-covariance


n
n−k W .

Attribution. La règle d’affection effective pour une observation x est finalement donnée par

ŷ(x) = argmax ŝ` (x)


`=1...k


n` 1 0 −1
ŝ` (x) := x0 W −1 g ` + log − g`W g`.
n 2

Cas de deux groupes. Si k = 2, l’espace R2 est séparé en deux zones dont la frontière est l’hyperplan
affine d’équation
n1 1
log − (g + g 2 )0 W −1 (g 1 − g 2 ) + x0 W −1 (g 1 − g 2 ) = 0
n2 2 1

Zones de séparation. De façon plus générale, la zone de séparation entre les régions d’attribution
des classes ` et h est la région B`,h ⊂ Rp définie par l’équation ŝ` (x) = ŝh (x). Cette région B`,h est un
hyperplan affine car les fonctions discriminantes ŝ` sont linéaires :

2
2 2
2
1 2
1 2 2
1 3 2
1 1 2 2 2
3
1 3 3
1 1 2
1 1 3
1 3 3
3
3 3

2.3 Métrique de Mahalanobis et ADL


Si les probabilités a priori sont égales, l’égalité (2) montre que la règle d’attribution revient à
affecter une observation xi au groupe pour lequel la quantité (x − g ` )0 Σ−1 (x − g ` ) est minimale.
Cette quantité peut être interprétée comme une distance pour une métrique particulière : la métrique
de Mahalanobis. Celle-ci est définie dans Rp par le produit scalaire

< u, v >W := u0 W −1 v.

Pour cette métrique, les points situés sur un ellipsoïde d’équation (x − g l )0 W −1 (x − g l ) = c sont tous
équidistants du point g l . Cette normalisation par W −1 permet d’éviter que les directions relatives aux

5
grandes valeurs propres de W soient trop prépondérantes dans le calcul des distances. Par exemple,
dans l’exemple ci-dessous, les deux nuages ont des orientations comparables et un étalement important
selon la première direction de W .

g2

xi Premiere direction principale de W

Seconde direction principale de W


g1

Le point xi est plus proche de g 1 que de g 2 pour la métrique euclidienne mais en réalité il est plus
naturel d’affecter ce point au groupe 2. En effet l’étalement dans la première direction de W est tel
que certains points du groupe 2 sont à proximité de xi , alors que ce n’est pas le cas pour les points du
groupe 1. Pour la métrique de Mahalanobis xi est plus proche de g 2 que de g 1 .
Pour mieux comprendre l’effet de cette métrique, considérons le cas où il n’y a qu’une seule classe,
on a alors W = S. Soit Z = MW −1/2 le nuage renormalisé : la matrice de variance-covariance vaut
l’identité et le nuage a une forme sphérique. On peut vérifier que

d2W (xi ; xs ) = d2 (z i ; z s )

où d désigne la distance euclidienne. La métrique de Mahalanobis revient à considérer la distance


euclidienne pour un nuage associé pour lequel les variables sont non corrélées et de même variance 1.
Dans le cas de k classes, W est la matrice de variance-covariance moyenne des k nuages. La
correspondance précédente entre dW et d n’est plus rigoureusement exacte car en général les matrices
S ` ne coïncident pas exactement. Cependant si ces dernières ne diffèrent pas trop, à l’intérieur d’une
même nuage la métrique de Mahalanobis revient en première approximation à considérer la distance
euclidienne pour un nuage renormalisé (dont les matrices de variance-covariance sont des matrices
identités).

2.4 Analyse discriminante quadratique (ADQ)


Contrairement à l’ADL, l’analyse discriminante quadratique autorise les matrices de variance-
covariance des nuages à être différentes. Le logarithme des rapports entre probabilités a posteriori
de deux classes ` et h vérifie
P (Y = ` | X = x) π` f` (x)
x ∈ Rp , log = log + log
P (Y = h | X = x) πh fh (x)
= s` (x) − sh (x)

où s` est la fonction discriminante du groupe ` définie par


1 1
s` = log π` − log det Σ` − (x − µ` )0 Σ−1
` (x − µl ).
2 2

Inférence. Comme dans le cas de l’ADL, les quantités Σ, µ1 , . . . , µk et π1 , . . . , πk peuvent être


estimées par la méthode du maximum de vraisemblance :

6
Proposition 4. En supposant que la loi conditionnelle de (X|Y = `) est celle d’une loi normale
multivariée p-dimensionnel (sans supposer ici que les k matrices de variances-covariances sont égales :
hypothèse ADQ), les estimateurs du maximum de vraisemblance de µ` , Σ` et π` vérifient :
n`
π̂` = , µ̂` = g ` et b ` = S`.
Σ
n
Remarque. On utilise aussi parfois les estimateurs sans biais des matrices de variance-covariance
n`
n` −1 S ` ).

Attribution. La règle d’affection effective pour une observation x est comme précédemment donnée
par
ŷ(x) = argmax ŝ` (x)
`=1...k

n` 1 1
ŝ` = log − log det S ` − (x − g ` )0 S −1
` (x − g ` ).
n 2 2

Zones de séparation. La zone de séparation entre les régions d’attribution des classes ` et h est
l’hypersurface de Rp définie par l’équation ŝ` (x) = ŝh (x).

2
2
2
2 2
2 2
3 3 2 2 32
1 33 2
2 2 2
1 1 1 3 3 3
1 1 3 3 3 2
1 3 1 3 3
2
1 1 3 3 3
2
1 1 1 3 3
1 1 3

2.5 Choisir entre ADL et ADQ


Il est possible de construire un test sur l’égalité des matrices de variance-covariance à l’aide de la
statistique :
" X ! #
2p2 + 3p − 1

1 1 n X n`
Z := 1 − − (n − k) log W − (n` − 1) log S ` .
6(p + 1)(k − 1) n` − 1 n − k n−k n` − 1
`=1...k `=1...k

On peut en effet montrer (admis) que sous l’hypothèse H0 : S 1 = . . . S k et sous de bonnes conditions,
la statistique Z converge vers une loi du χ2 à p(p+1)(k−1)
2 degrés de liberté. Cette propriété permet ainsi
de construire le test de Box (voir par exemple [Anderson, 2002], chap 10).
Attention cependant : même si le test rejette H0 , l’ADQ ne donne pas nécessairement une meilleure
classification que l’ADL car l’ADQ nécessite d’estimer beaucoup plus de coefficients que l’ADL.
Une stratégie parfois intéressante consiste à utiliser l’ADL en enrichissant la famille des variables
0
explicatives de variables quadratiques (xj )2 et de variables d’interaction xj ×xj . Cette méthode est en
effet moins « consommatrice » en paramètres. Dans tous les cas, on évaluera les erreurs de classement
pour comparer les méthodes (voir plus loin).

7
2.6 Une version non paramétrique
Les estimateurs à noyau sont des estimateurs non paramétriques couramment utilisés en statis-
tique. Ils permettent notamment d’estimer une densité sans hypothèse d’appartenance à une famille
paramétrique de loi. On les définit par :
 
p ˆ 1 X x − xi
x ∈ R , f (u) = K
nh h
i=1...n

où h > 0 est la fenêtre d’estimation et K : Rp 7→ R+ est un noyau i.e. une fonction symétrique, à valeurs
positives ou nulles et d’intégrale 1 (ex : noyau gaussien, K = 12 1 [−1,1] ). On parle alors d’estimation
non paramétrique.
Dans le contexte de l’analyse discriminante, on estime donc pour chaque groupe ` la densité jointe
des variables explicatives par

1 X  x − xi 
x ∈ R , fˆ` (x) =
p
K .
n` h h
i∈I`

Comme pour les modèles gaussiens précédents, on utilise ensuite la formule de Bayes pour estimer
ˆ
Pb(Y = ` | X = x) = Pkf` (x)π̂ˆ` et une observation est attribuée au groupe le plus probable selon la
j=1 π̂j fj (x)
règle de Bayes.

Références
[Anderson, 2002] Anderson, T. W. (2002). An introduction to multivariate statistical analysis,Third
edition. Wiley, New Jersey.