Cours LDA

Cours
Analyse discriminante linéaire

Prof : Benslimane Rachid
Table des matières

I. Introduction ..................................................................................................................................... 2
II. Les données ..................................................................................................................................... 2
III. Règle géométrique de classification : Fonctions linéaires discriminantes .................................. 4
IV. La qualité du classement ............................................................................................................. 6
IV.1 Matrice des confusions ................................................................................................................ 6
IV.2 Analyse de la variance multidimensionnelle - MANOVA ............................................................. 7
IV.3 Fonctions de classement – Fonction score. ................................................................................. 7
IV.3 Méthode de sélection des variables pertinentes......................................................................... 8
1
Analyse discriminante linéaire
I. Introduction
La méthode d’analyse discriminante est une méthode de scoring qui fait partie
des méthodes d’apprentissage supervisé.
L’objectif de la méthode est de pouvoir affecté un individu à l’une des K classes
de l’ensemble d’apprentissage en utilisant les valeurs de ses paramètres
caractéristiques et de K fonctions discriminantes.
A partir de cet ensemble d’apprentissage, on construit le classifieur qui va
permettre de prédire la valeur de Y d’un individu pour lequel on connait
uniquement les valeurs prises par les variables explicatives.
La méthode d’analyse discriminante consiste à construire des fonctions
discriminantes pour classer des individus quelconques aux classes en présence.
II. Les données
On dispose d’un ensemble d’apprentissage de n individus pour lesquels on

connait les valeurs prises par les variables explicatives X1, …., Xp ainsi que leur
classe d’appartenance choisie parmi les K classes C1, …, Ck.
𝑥11 𝑥12 … .. 𝑥1𝑗 … 𝑥1𝑝

𝑥21 𝑥22 … .. 𝑥2𝑗 … 𝑥2𝑝
....
𝑦1
𝑋= 𝑥𝑖1 𝑥𝑖2 … .. 𝑥𝑖𝑗 … 𝑥𝑖𝑝 𝑌= ( ⋮ )
… 𝑦𝐾
..
(𝑥𝑛1 𝑥𝑛2 … .. 𝑥𝑛𝑗 … 𝑥𝑛𝑝 )
Soient
𝑥𝑖 = (𝑥𝑖1 , … , 𝑥𝑖𝑝 ) : une ligne de X décrivant le ième individu

𝑥 𝑗 = (𝑥1𝑗 , … , 𝑥𝑛𝑗 )𝑡 ; une colonne de X décrivant la jème variable
nk : nombre d’individus de la classe k.
2
pi : poids associé à l’individu i
1 𝑛𝑘
En général 𝑝𝑖 = et donc 𝑝𝑘 = . On a alors les définitions suivantes :
𝑛 𝑛
- Le centre de gravité global :

𝑛
𝑔 = ∑ 𝑝𝑖 𝑥𝑖
𝑖=1
- Le centre de gravité de kème classe :
1
𝑔𝑘 = ∑ 𝑥𝑖
𝑛𝑘
𝑖∈𝐶𝑘
- La matrice de variance-covariance de dimension pxp :
𝑉 = ∑ 𝑝𝑖 (𝑥𝑖 − 𝑔). (𝑥𝑖 − 𝑔)𝑡

𝑖=1
- La matrice de variance-covariance de dimension pxp de la kème classe

(Ck) :
1
𝑉𝑘 = ∑𝑖∈𝐶𝑘 𝑝𝑖 (𝑥𝑖 − 𝑔𝑘 ). (𝑥𝑖 − 𝑔𝑘 )𝑡 = ∑𝑖∈𝐶𝑘 (𝑥𝑖 − 𝑔𝑘 ). (𝑥𝑖 − 𝑔𝑘 )𝑡
𝑛𝑘
- La matrice intra-classe W:
𝐾
𝑛𝑘
𝑊=∑ 𝑉
𝑛 𝑘
𝑘=1
3
- La matrice de variance-covariance inter-classe B :
𝐾
𝑛𝑘
𝐵=∑ (𝑔𝑘 − 𝑔)(𝑔𝑘 − 𝑔)𝑡
𝑛
𝑘=1
On a la relation suivante ;
V= W + B
III. Règle géométrique de classification : Fonctions linéaires

discriminantes
La règle géométrique consiste à calculer la distance d’un individu x de classe
inconnue à la classe la plus proche à chacun des K centres de gravité g1, …, gK et
à affecter x à la classe la plus proche
Pour définir la distance, non nécessairement euclidienne, entre x et gk, on a

besoin d’une métrique M. Il s’agit d’une matrice symétrique définie positive de
dimension p:
𝑑 2 (𝑥, 𝑔𝑘 ) = (𝑥 − 𝑔𝑘 )𝑡 𝑀(𝑥 − 𝑔𝑘 )
Lorsque M =I, matrice identité, on a la distance euclidienne.
L’approche géométrique, connue sous le nom de règle de Mahalanobis –

Fisher, considère la distance de Mahalanobis définie par l’inverse de la matrice
intra groupes W.
La distance de l’individu, définit par x , au groupe k est donnée par :
𝑑 2 (𝑥, 𝑔𝑘 ) = (𝑥 − 𝑔𝑘 )𝑡 𝑊 −1 (𝑥 − 𝑔𝑘 )
Fonctions linéaires discriminantes :
La règle géométrique classe l’individu inconnu représenté par x dans la classe
k* tel que :
4
𝑘 ∗ = arg min 𝑑 2 (𝑥, 𝑔𝑘 )
𝑘=1,..,𝐾
Ce qui s’écrit :
𝑘 ∗ = arg max 𝐿𝑘 (𝑥)

𝑘=1,..,𝐾
Où la fonction discriminante ou fonction de classement 𝐿𝑘 (𝑥) est donnée par :
1
𝐿𝑘 (𝑥) = 𝑥 𝑡 . 𝑊 −1 . 𝑔𝑘 − 𝑔𝑘𝑡 𝑊 −1 𝑔𝑘
2
On peut noter que l’expression précédente est une fonction linéaire des
coordonnées du nouvel individu :
𝑝
𝐿𝑘 (𝑥) = 𝛼0 + ∑ 𝛼𝑗 𝑋𝑗
𝑗=1
Chaque fonction linéaire discriminante définit une fonction score qui donne un
score à un individu x dans chaque classe. Cet individu est donc affecté à la
classe pour laquelle le score est le plus grand.
𝐿1 (𝑋)
𝐿 (𝑋)
𝐿(𝑋) = ( 2 )
⋮
𝐿𝐾 (𝑋)
Dans cette forme, le classifieur est une machine qui calcule K fonctions Lk(X),
suivie d'une sélection du maximum.
X1 L1(X)
:
L2(X)
Xj max
: LJ(X)
Xp
LK(X)
5
IV. La qualité du classement
L’analyse de performances, à l’issue de laquelle une méthode de scoring est
validée, permet notamment :
• D’améliorer un modèle en comparant plusieurs de ses variantes (ajout ou

retrait de variables explicatives, etc.)
• De choisir entre plusieurs types de modèles candidats
L’analyse des performances d’un modèle gagnerait à être conduite sur un jeu de
données différent de celui qui a été utilisé pour l’estimation. On doit en effet,
lorsque cela est possible, distinguer entre l’ensemble d’apprentissage et
l’ensemble de validation. Ce dernier doit nécessairement contenir les valeurs
réelles de la variable cible (appartenance aux groupes). D’une manière générale,
il s’agit de comparer entre les valeurs réelles de la variable cible avec celles
prédites par le modèle.
IV.1 Matrice des confusions

La conformité de cette classification prédictive avec la réalité est illustrée par le
tableau suivant, appelé matrice des confusions ;
C1 (prédite) C2 (prédite) Fréquence marginale ligne
C1 n11 n12 n1.
C2 n21 n22 n2.
Fréquence marginale n.1 n.2 n
colonne
Taux d’erreur de classification :

𝑛12 + 𝑛21
𝑇𝐸 = . 100 %
𝑛
Taux de rappel de la classe Ck :

𝑛𝑘𝑘
𝑇𝑅(𝑘) =
𝑛𝑘.
6
Précision de la classe Ck :
𝑛𝑘𝑘
𝑃𝑟(𝑘) =
𝑛.𝑘
IV.2 Analyse de la variance multidimensionnelle - MANOVA

L’analyse de variance multidimensionnelle correspond à un test de comparaison
des barycentres conditionnels. Le Λ de Wilks est le rapport entre les variances
généralisées intra-classes et totales. Plus il se rapproche de 0, plus les
barycentres sont distincts et plus les différentes classes sont bien séparées.
Le Λ de Wilks peut s’appliquer pour un nombre quelconque de groupes (K ≥2).
Pour le cas binaire (K = 2), on peut en déduire la distance entre les centres de
classes appelée « distance de Mahalanobis » (D²). Par rapport à la distance
euclidienne habituelle, elle a pour particularité de tenir compte de la forme des
nuages de points :
1 − Λ 𝑛(𝑛 − 2)
𝐷2 =
Λ 𝑛1 𝑛2
Pour tester la significativité de l’écartement, nous utilisons la statistique F de Rao
qui suit une loi de Fisher sous l’hypothèse nulle d’égalité des moyennes
conditionnelles1.
IV.3 Fonctions de classement – Fonction score.

Les fonctions de classement permettent d’affecter les groupes aux individus à
partir de leur description. Nous avons autant de fonctions que de groupes
(Huberty et Olejnik, 2006 ; page 274).
1
R. Rakotomalala, « Comparaison de populations – Tests paramétriques », version 1.2, Mai 2010 ; pages 87 et
88.
7
𝑝
𝐿𝑘 (𝑥) = 𝛼0 + ∑ 𝛼𝑗 𝑋𝑗
𝑗=1
𝑝
𝐿𝑘′ (𝑥) = 𝛽0 + ∑ 𝛽𝑗 𝑋𝑗
𝑗=1
Dans le cas binaire (K = 2), nous pouvons déduire la fonction score qui est formée
à partir de la différence termes à termes des coefficients des fonctions de
classement.
𝑝
𝐷(𝑥) = Ө0 + ∑ Ө𝑗 𝑋𝑗
𝑗=1
Avec 𝜃𝑗 = (𝛼𝑗 − 𝛽𝑗 )
La règle d’affectation pour un individu i à classer s’écrit :

Si D(xi)>0 alors l’individu i appartient à la classe Ck, sinon il appartient à la
classe Ck’.
IV.3 Méthode de sélection des variables pertinentes

La statistique de test Fj est basée sur la comparaison des Λ de Wilks avec et sans
la variable Xj à évaluer. Sous H0, elle suit une loi de Fisher à (1, n – p – K + 1)
degrés de liberté2.
2
R. Rakotomalala, « Analyse discriminante linéaire », Support de cours, page 10.

Cours LDA

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours LDA

Transféré par

Droits d'auteur :

Formats disponibles

Cours

Analyse discriminante linéaire

Table des matières

II. Les données

On dispose d’un ensemble d’apprentissage de n individus pour lesquels on

𝑥11 𝑥12 … .. 𝑥1𝑗 … 𝑥1𝑝

𝑥𝑖 = (𝑥𝑖1 , … , 𝑥𝑖𝑝 ) : une ligne de X décrivant le ième individu

- Le centre de gravité global :

- Le centre de gravité de kème classe :

- La matrice de variance-covariance de dimension pxp :

𝑉 = ∑ 𝑝𝑖 (𝑥𝑖 − 𝑔). (𝑥𝑖 − 𝑔)𝑡

- La matrice de variance-covariance de dimension pxp de la kème classe

III. Règle géométrique de classification : Fonctions linéaires

Pour définir la distance, non nécessairement euclidienne, entre x et gk, on a

Lorsque M =I, matrice identité, on a la distance euclidienne.

L’approche géométrique, connue sous le nom de règle de Mahalanobis –

La distance de l’individu, définit par x , au groupe k est donnée par :

𝑘 ∗ = arg max 𝐿𝑘 (𝑥)

Où la fonction discriminante ou fonction de classement 𝐿𝑘 (𝑥) est donnée par :

• D’améliorer un modèle en comparant plusieurs de ses variantes (ajout ou

• De choisir entre plusieurs types de modèles candidats

IV.1 Matrice des confusions

Taux d’erreur de classification :

Taux de rappel de la classe Ck :

IV.2 Analyse de la variance multidimensionnelle - MANOVA

Le Λ de Wilks peut s’appliquer pour un nombre quelconque de groupes (K ≥2).

IV.3 Fonctions de classement – Fonction score.

La règle d’affectation pour un individu i à classer s’écrit :

IV.3 Méthode de sélection des variables pertinentes

Vous aimerez peut-être aussi