Académique Documents
Professionnel Documents
Culture Documents
1
Analyse discriminante linéaire
I. Introduction
La méthode d’analyse discriminante est une méthode de scoring qui fait partie
des méthodes d’apprentissage supervisé.
L’objectif de la méthode est de pouvoir affecté un individu à l’une des K classes
de l’ensemble d’apprentissage en utilisant les valeurs de ses paramètres
caractéristiques et de K fonctions discriminantes.
A partir de cet ensemble d’apprentissage, on construit le classifieur qui va
permettre de prédire la valeur de Y d’un individu pour lequel on connait
uniquement les valeurs prises par les variables explicatives.
La méthode d’analyse discriminante consiste à construire des fonctions
discriminantes pour classer des individus quelconques aux classes en présence.
Soient
𝑔 = ∑ 𝑝𝑖 𝑥𝑖
𝑖=1
1
𝑔𝑘 = ∑ 𝑥𝑖
𝑛𝑘
𝑖∈𝐶𝑘
1
𝑉𝑘 = ∑𝑖∈𝐶𝑘 𝑝𝑖 (𝑥𝑖 − 𝑔𝑘 ). (𝑥𝑖 − 𝑔𝑘 )𝑡 = ∑𝑖∈𝐶𝑘 (𝑥𝑖 − 𝑔𝑘 ). (𝑥𝑖 − 𝑔𝑘 )𝑡
𝑛𝑘
- La matrice intra-classe W:
𝐾
𝑛𝑘
𝑊=∑ 𝑉
𝑛 𝑘
𝑘=1
3
- La matrice de variance-covariance inter-classe B :
𝐾
𝑛𝑘
𝐵=∑ (𝑔𝑘 − 𝑔)(𝑔𝑘 − 𝑔)𝑡
𝑛
𝑘=1
On a la relation suivante ;
V= W + B
𝑑 2 (𝑥, 𝑔𝑘 ) = (𝑥 − 𝑔𝑘 )𝑡 𝑀(𝑥 − 𝑔𝑘 )
𝑑 2 (𝑥, 𝑔𝑘 ) = (𝑥 − 𝑔𝑘 )𝑡 𝑊 −1 (𝑥 − 𝑔𝑘 )
Fonctions linéaires discriminantes :
La règle géométrique classe l’individu inconnu représenté par x dans la classe
k* tel que :
4
𝑘 ∗ = arg min 𝑑 2 (𝑥, 𝑔𝑘 )
𝑘=1,..,𝐾
Ce qui s’écrit :
1
𝐿𝑘 (𝑥) = 𝑥 𝑡 . 𝑊 −1 . 𝑔𝑘 − 𝑔𝑘𝑡 𝑊 −1 𝑔𝑘
2
On peut noter que l’expression précédente est une fonction linéaire des
coordonnées du nouvel individu :
𝑝
𝐿𝑘 (𝑥) = 𝛼0 + ∑ 𝛼𝑗 𝑋𝑗
𝑗=1
Chaque fonction linéaire discriminante définit une fonction score qui donne un
score à un individu x dans chaque classe. Cet individu est donc affecté à la
classe pour laquelle le score est le plus grand.
𝐿1 (𝑋)
𝐿 (𝑋)
𝐿(𝑋) = ( 2 )
⋮
𝐿𝐾 (𝑋)
Dans cette forme, le classifieur est une machine qui calcule K fonctions Lk(X),
suivie d'une sélection du maximum.
X1 L1(X)
:
L2(X)
Xj max
: LJ(X)
Xp
LK(X)
5
IV. La qualité du classement
L’analyse de performances, à l’issue de laquelle une méthode de scoring est
validée, permet notamment :
L’analyse des performances d’un modèle gagnerait à être conduite sur un jeu de
données différent de celui qui a été utilisé pour l’estimation. On doit en effet,
lorsque cela est possible, distinguer entre l’ensemble d’apprentissage et
l’ensemble de validation. Ce dernier doit nécessairement contenir les valeurs
réelles de la variable cible (appartenance aux groupes). D’une manière générale,
il s’agit de comparer entre les valeurs réelles de la variable cible avec celles
prédites par le modèle.
6
Précision de la classe Ck :
𝑛𝑘𝑘
𝑃𝑟(𝑘) =
𝑛.𝑘
Pour le cas binaire (K = 2), on peut en déduire la distance entre les centres de
classes appelée « distance de Mahalanobis » (D²). Par rapport à la distance
euclidienne habituelle, elle a pour particularité de tenir compte de la forme des
nuages de points :
1 − Λ 𝑛(𝑛 − 2)
𝐷2 =
Λ 𝑛1 𝑛2
Pour tester la significativité de l’écartement, nous utilisons la statistique F de Rao
qui suit une loi de Fisher sous l’hypothèse nulle d’égalité des moyennes
conditionnelles1.
1
R. Rakotomalala, « Comparaison de populations – Tests paramétriques », version 1.2, Mai 2010 ; pages 87 et
88.
7
𝑝
𝐿𝑘 (𝑥) = 𝛼0 + ∑ 𝛼𝑗 𝑋𝑗
𝑗=1
𝑝
𝐿𝑘′ (𝑥) = 𝛽0 + ∑ 𝛽𝑗 𝑋𝑗
𝑗=1
Dans le cas binaire (K = 2), nous pouvons déduire la fonction score qui est formée
à partir de la différence termes à termes des coefficients des fonctions de
classement.
𝑝
𝐷(𝑥) = Ө0 + ∑ Ө𝑗 𝑋𝑗
𝑗=1
Avec 𝜃𝑗 = (𝛼𝑗 − 𝛽𝑗 )
2
R. Rakotomalala, « Analyse discriminante linéaire », Support de cours, page 10.