Académique Documents
Professionnel Documents
Culture Documents
Bertrand MICHEL
Notes de cours
Analyse Discriminante Linéaire
Analyse Discriminante Quadratique
On dispose d’une population composée de k sous-populations définies par une variable catégorielle
à k modalités que l’on note y. Quitte à renommer les classes, on suppose que l’ensemble des moda-
lités est {1, . . . , k}. Chaque individu de la population est aussi décrit par des variables explicatives
x1 , . . . , xj , . . . , xp .
M = ... .. .. .
. .
xn . . . xpn
1
On appelle nuage de Rp le n-uplet des observations (x1 , . . . , xn ), où chacun des vecteurs xi de Rp est
un point du nuage. Par abus on notera aussi M le nuage. Dans la suite on supposera toujours que le
nuage est centré : !
1 X j
xi = 0.
n
i=1...n j=1...p
x1 . . . xp1
1
M(1)
M = ... .. .. = ..
. . .
xn . . . xpn
1 M(k)
1
où M(`) est la matrice des données du groupe `. Les k groupes induits par la variable catégorielle y
définissent k nuages dans l’espace Rp des variables explicatives. On supposera de plus que k ≤ p < n.
On note :
1
1
1
g1 1 1
— I` la liste des individus du groupe `, 1 1
— n` l’effectif de la sous-population `, 1
1
— g ` le centre de gravité du groupe ` : g ` = (g`1 , . . . , g`p )0 avec
ḡ
3 3
1 X j
g`j = xi . 2 3
g3
3
n` 2 g2 2 3
i∈I` 3
2
2 3 3
2 2
3
2
Chacun des k nuages M(`) a une orientation Rp qui peut être décrite par sa matrice de variance-
covariance S ` (c.f. paragraphe précédent) où
1
S ` := (M(`) − en` g 0` )0 (M(`) − en` g 0` )
n`
1 X
= (xi − g ` )(xi − g ` )0 .
n`
i∈Il
où ek designe le vecteur (1, . . . , 1)0 de Rk . On définit alors la matrice de variance intra-classe par
X n`
W := S` p×p
n
`=1...k
Cette matrice est la moyenne pondérée des matrices de variance-covariance des k nuages. Elle corres-
pond donc à “l’orientation moyenne” des k nuages. La première direction principale de W correspond à
la direction selon laquelle les nuages sont le plus étalés, etc ... En général, la matrice W est inversible,
ce que l’on supposera dans la suite.
g3
g1
Premiere direction principale de W
g2
Seconde direction principale de W
Soit G la matrice k × p du nuage des centres des k nuages. Le centre de gravité ḡ de G pondéré
des n` vérifie
1 X
ḡ := n` g ` = x̄ = 0.
n
`=1...k
La matrice de variance-covariance B des k centres de gravité pondérés par les nl est appelée matrice
2
de variance inter-classes :
!
1 X
B := n` (g`j − ḡ j )(g`u − ḡ u )
n
`=1...k 1≤j,u≤k
0 n1 nk
= G Diag( , . . . , )G car ḡ j = ḡ u = 0
n n
1 X
= n` g ` g 0` p×p
n
`=1...k
Puisque `=1...k n` g ` = 0, le nuage des g l est contenu dans un sous-espace vectoriel de Rp de dimension
P
k − 1 et la matrice B n’est pas inversible. La matrice B décrit la géométrie du nuage des k centres de
gravité.
Les variances intra et inter classes permettent de décomposer la variance totale du nuage :
Proposition 1. La variance du nuage M se décompose en variance intra-classe et variance inter-
classes :
S = W + B.
2.1 Modélisation
On suppose que les variables en jeu sont des variables aléatoires notées Y et X j , dont on observe des
réalisations xj1 , . . . xjn et y1 , . . . , yn . Supposons de plus que la distribution de Y admet k ≥ 2 modalités.
Pour chacune de ces modalités on considère la loi conditionnelle de X = (X 1 , . . . , X p ) sachant Y = `
et on suppose que cette loi conditionnelle admet une densité f` pour la mesure de Lebesgue sur Rp
(que l’on note ici λp ). On considère
— π` = P (Y = `) : la probabilité a priori d’appartenance au groupe `.
— P (Y = `|X = x) : la probabilité a posteriori d’appartenance au groupe `.
Proposition 2. Sous les hypothèses précédentes :
1. La distribution du vecteur aléatoire (X, Y ) admet la densité
f : Rp × {1, . . . k} → R+
`=1 f` (x)π` 1 y=`
Pk
(x, y) 7→
par rapport à la mesure λp ⊗ δk , où δk désigne la mesure ponctuelle d’atomes {1, . . . , k}.
2. La distribution du vecteur X admet la densité suivante par rapport à λp :
k
X
fX = π` f` .
`=1
3
Hypothèse gaussienne. Pour modéliser le fait que les observations de chaque groupe ` sont orga-
nisés en “clusters”, nous allons supposer que la loi du vecteur X = (X 1 , . . . , X p ) peut être modélisée
par une loi normale multivariée de densité sur Rp :
p 1 1 0 −1
x ∈ R , f` (x) = √ exp − (x − µ` ) Σ` (x − µ` ) .
(2π)p/2 det Σ` 2
Comme dans le cas de la régression linéaire, cette hypothèse n’est jamais rigoureusement vérifiée pour
des données réelles. Cependant, cette modélisation est souvent suffisamment souple pour approcher
efficacement la véritable loi des données (que l’on ne connaît évidemment pas en pratique).
Au contraire, si les matrices de variance-covariance ne sont pas supposées égales, il s’agit de l’analyse
discriminante quadratique (ADQ) :
Ces fonctions discriminantes (ou scores) sont linéaires en x, d’où l’appellation d’analyse discriminante
linéaire.
4
Inférence. En pratique, les quantités Σ, µ1 , . . . , µk et π1 , . . . , πk sont inconnues. On peut cependant
les estimer par la méthode du maximum de vraisemblance :
Proposition 3. En supposant que la loi conditionnelle de (X|Y = `) est celle d’une loi normale
multivariée p-dimensionnel dont la matrice de variance-covariance est inversible et ne dépend pas de `
(hypothèse ADL), les estimateurs du maximum de vraisemblance de Σ, µ` et π` vérifient :
b =W =
X n` 1 X n`
Σ S`, µ̂` = g ` = xi et π̂` = .
n n` n
`=1...k i|yi =`
Attribution. La règle d’affection effective pour une observation x est finalement donnée par
où
n` 1 0 −1
ŝ` (x) := x0 W −1 g ` + log − g`W g`.
n 2
Cas de deux groupes. Si k = 2, l’espace R2 est séparé en deux zones dont la frontière est l’hyperplan
affine d’équation
n1 1
log − (g + g 2 )0 W −1 (g 1 − g 2 ) + x0 W −1 (g 1 − g 2 ) = 0
n2 2 1
Zones de séparation. De façon plus générale, la zone de séparation entre les régions d’attribution
des classes ` et h est la région B`,h ⊂ Rp définie par l’équation ŝ` (x) = ŝh (x). Cette région B`,h est un
hyperplan affine car les fonctions discriminantes ŝ` sont linéaires :
2
2 2
2
1 2
1 2 2
1 3 2
1 1 2 2 2
3
1 3 3
1 1 2
1 1 3
1 3 3
3
3 3
< u, v >W := u0 W −1 v.
Pour cette métrique, les points situés sur un ellipsoïde d’équation (x − g l )0 W −1 (x − g l ) = c sont tous
équidistants du point g l . Cette normalisation par W −1 permet d’éviter que les directions relatives aux
5
grandes valeurs propres de W soient trop prépondérantes dans le calcul des distances. Par exemple,
dans l’exemple ci-dessous, les deux nuages ont des orientations comparables et un étalement important
selon la première direction de W .
g2
Le point xi est plus proche de g 1 que de g 2 pour la métrique euclidienne mais en réalité il est plus
naturel d’affecter ce point au groupe 2. En effet l’étalement dans la première direction de W est tel
que certains points du groupe 2 sont à proximité de xi , alors que ce n’est pas le cas pour les points du
groupe 1. Pour la métrique de Mahalanobis xi est plus proche de g 2 que de g 1 .
Pour mieux comprendre l’effet de cette métrique, considérons le cas où il n’y a qu’une seule classe,
on a alors W = S. Soit Z = MW −1/2 le nuage renormalisé : la matrice de variance-covariance vaut
l’identité et le nuage a une forme sphérique. On peut vérifier que
d2W (xi ; xs ) = d2 (z i ; z s )
6
Proposition 4. En supposant que la loi conditionnelle de (X|Y = `) est celle d’une loi normale
multivariée p-dimensionnel (sans supposer ici que les k matrices de variances-covariances sont égales :
hypothèse ADQ), les estimateurs du maximum de vraisemblance de µ` , Σ` et π` vérifient :
n`
π̂` = , µ̂` = g ` et b ` = S`.
Σ
n
Remarque. On utilise aussi parfois les estimateurs sans biais des matrices de variance-covariance
n`
n` −1 S ` ).
Attribution. La règle d’affection effective pour une observation x est comme précédemment donnée
par
ŷ(x) = argmax ŝ` (x)
`=1...k
où
n` 1 1
ŝ` = log − log det S ` − (x − g ` )0 S −1
` (x − g ` ).
n 2 2
Zones de séparation. La zone de séparation entre les régions d’attribution des classes ` et h est
l’hypersurface de Rp définie par l’équation ŝ` (x) = ŝh (x).
2
2
2
2 2
2 2
3 3 2 2 32
1 33 2
2 2 2
1 1 1 3 3 3
1 1 3 3 3 2
1 3 1 3 3
2
1 1 3 3 3
2
1 1 1 3 3
1 1 3
On peut en effet montrer (admis) que sous l’hypothèse H0 : S 1 = . . . S k et sous de bonnes conditions,
la statistique Z converge vers une loi du χ2 à p(p+1)(k−1)
2 degrés de liberté. Cette propriété permet ainsi
de construire le test de Box (voir par exemple [Anderson, 2002], chap 10).
Attention cependant : même si le test rejette H0 , l’ADQ ne donne pas nécessairement une meilleure
classification que l’ADL car l’ADQ nécessite d’estimer beaucoup plus de coefficients que l’ADL.
Une stratégie parfois intéressante consiste à utiliser l’ADL en enrichissant la famille des variables
0
explicatives de variables quadratiques (xj )2 et de variables d’interaction xj ×xj . Cette méthode est en
effet moins « consommatrice » en paramètres. Dans tous les cas, on évaluera les erreurs de classement
pour comparer les méthodes (voir plus loin).
7
2.6 Une version non paramétrique
Les estimateurs à noyau sont des estimateurs non paramétriques couramment utilisés en statis-
tique. Ils permettent notamment d’estimer une densité sans hypothèse d’appartenance à une famille
paramétrique de loi. On les définit par :
p ˆ 1 X x − xi
x ∈ R , f (u) = K
nh h
i=1...n
où h > 0 est la fenêtre d’estimation et K : Rp 7→ R+ est un noyau i.e. une fonction symétrique, à valeurs
positives ou nulles et d’intégrale 1 (ex : noyau gaussien, K = 12 1 [−1,1] ). On parle alors d’estimation
non paramétrique.
Dans le contexte de l’analyse discriminante, on estime donc pour chaque groupe ` la densité jointe
des variables explicatives par
1 X x − xi
x ∈ R , fˆ` (x) =
p
K .
n` h h
i∈I`
Comme pour les modèles gaussiens précédents, on utilise ensuite la formule de Bayes pour estimer
ˆ
Pb(Y = ` | X = x) = Pkf` (x)π̂ˆ` et une observation est attribuée au groupe le plus probable selon la
j=1 π̂j fj (x)
règle de Bayes.
Références
[Anderson, 2002] Anderson, T. W. (2002). An introduction to multivariate statistical analysis,Third
edition. Wiley, New Jersey.