Vous êtes sur la page 1sur 56

Analyse Factorielle Discriminante

Michaël Genin
10 mai 2019

 Univ. Lille, EA 2694 - Santé Publique : épidémiologie et qualité des soins, France
Q michael.genin@univ-lille.fr | https://pro.univ-lille.fr/michael-genin/
Plan

1. Introduction

2. Principe général

3. Principe d’interprétation

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 1/45


Introduction
Introduction

Positionnement de la méthode
Analyse factorielle discriminante (AFD)

Univariées
Méthodes
descriptives
Méthodes Multivariées (ACP, CAH,…)
statistiques
Tests usuels
Méthodes
inférentielles
Multivariées

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 2/45


Introduction

2 familles de méthodes de classification


2 familles de méthodes de classification

Classification non-supervisée (clustering)


• Partitionner les observations en groupes différents (classes, catégories) mais les
plus homogènes possible au regard de variables décrivant les observations.
• Le nombre de classes n’est pas connu à l’avance
• Méthodes : Classification hiérarchique, K-plus-proches voisins, Classification
bayésienne naïve. . .

Classification supervisée (discrimination)


• Obtenir un critère de séparation afin de prédire l’appartenance à une classe
(Y = f (X ) + ).
• Le nombre de classes est connu à l’avance (Variable à expliquer)
• Méthodes : Régression logistique, Analyse discriminante, Arbres de décision,
Réseaux de neurones, Réseaux bayésiens, Support Vector Machine...

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 3/45


Méthodes de discrimination

2 objectifs principaux :

• Etude du lien entre Y (Variable à expliquer qualitative) et les Xj (Variables


explicatives quantitatives ou binaires) ⇒ Facteurs prédictifs
• Prédiction (système d’aide à la décision (scores cliniques, crédit scoring, ...)

2 catégories de méthodes de discrimination :

1. Méthodes explicatives : règles de prédiction claires (AFD, Reg Log, Arbres de


décision)
2. Méthodes non explicatives : règles de prédiction floues (RN, RB, SVM. . .)

En pratique en recherche biomédicale

• 2 classes ⇒ Régression logistique


• > 2 classes : Analyse discriminante, Arbres de décision

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 4/45


En résumé
L’Analyse Factorielle Discriminante est une méthode de discrimination, explicative qui
a pour but :
• Etude du lien entre Y (Variable à expliquer qualitative) et les Xj (Variables
explicatives quantitatives ou binaires) ⇒ Facteurs prédictifs
• Prédiction de l’appartenance à une classe

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 5/45


Principe général
Principe général

Un modèle linéaire
Modèle linéaire

On considère des combinaisons linéaires entre les Xj

p
X
Score = u1 X1 + u2 X2 + · · · + up Xp = uj Xj
j=1

Ce (ou ces) score va permettre de prédire l’appartenance des individus à une classe
(Y ).

Exemple 1 : score en réanimation

Fréquence cardiaque
Patient entre Recueil Système Score de gravité
Pression artérielle
d'informations Tx de bilirubine de scoring PRISM
dans le service
Etat de choc (Oui/Non) PELOD

PRISM : Pediatric RISk of Mortality


PELOD : PEdiatric Logistic Organ Dysfunction

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 6/45


Exemple 2 : Score de Framingham
Prédiction d’un évènement cardio-vasculaire dans les 10 ans.
Construit à partir de la cohorte de Framingham (5 209 individus)
Age (classes quinquennales)
[55-59 ans] → + 4
Tx de cholesterol LDL
si ∈ [100 - 160] : 0
si < 100 : -3 (Protecteur)
si ≥ 160 : +2 (Risque)
PA diastolique (PAD) et PA systolique (PAS) en mm de mercure
SI PAD < 80 ET PAS < 120 : 0
SI PAD ≤ 89 ET PAS ∈ [130 - 139] : +1
Si S ≥ 14 → 56% de risque d’évenement CV dans les 10 ans.

Score Framingham = u1 X1 + · · · + Age[55-59] uj + · · · + up Xp


| {z } |{z}
0/1 =4

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 7/45


Principe général

Objectifs de l’AFD
k=2 et score déjà connu

Cas Représentation graphique Qualité de séparation


M̄ M

Cas 1 Score Bonne


M̄ M

Cas 2 Score Moyenne


M̄ M

Cas 3 Score Mauvaise

Cas 3 : impossibilité de trouver un score discriminant les 2 groupes.

Condition nécessaire
Les groupes doivent être séparables (non-superposés)

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 8/45


Exemple : X1 , X2 et K = 2

X2 Les centres de gravité µ1 et µ2 sont


séparés (i.e. les groupes sont
µ1
µ2 séparés)

X1
X2
Les centres de gravité µ1 et µ2 ne
sont pas séparés (i.e. les groupes ne
µ1 µ2 sont pas séparés)

X1

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 9/45


k=2 et score déjà connu

Point d’entrée de l’analyse : tester la séparabilité des groupes en utilisant les


coordonnées des centres de gravités :
X1 et X2
   
X2 µ11 µ21
µ1 = µ2 =
µ12 µ22
µ12 µ1
µ2
µ22 X1 , . . . , Xp
   
µ11 µ21
 ..   .. 
µ1 =  .  µ2 =  . 
µ1p µ2p
µ11 µ21 X1

MANOVA : Multivariate ANalysis Of VAriance



H0 : µ1 = µ2 Groupes confondus
H1 : µ1 6= µ2 Groupes séparés

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 10/45


k=2 et score déjà connu

Si les groupes sont séparés (MANOVA) ⇒ Retour aux scores discriminants

M̄ M

Score
M̄ M

Score

Cas 1 : le score discrimine bien les Cas 2 : le score n’est pas assez
deux groupes discriminant pour réaliser des
prédictions

Nécessité
Pour les scores ⇒ utilisation d’un critère de qualité de discrimination

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 11/45


k=2 et score déjà connu

Idée : ANOVA sur le score

En utilisant le théorème de Huygens

S2
T = S2
B + S2
W
|{z} |{z} |{z}
Variance totale Variance inter-classes Variance intra-classe

Indicateur de qualité de séparation entre les groupes


SB2
R2 = ∈ [0, 1]
ST2

Remarque : si R 2 ≈ 1 → variance intra quasi-inexistante :

Score
M̄ M

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 12/45


Cas de 2 groupes (k = 2) - Détermination du score discriminant

Score : projection orthogonale de X sur un axe factoriel tel que S = Xu1

si : projection orthogonale de xi sur u1


X2
xi = (x11, x12) Axe s s1 , s2 , · · · , sn

xi
x12 Axe s
si  
s1
 s2 
S : vecteur de coordonnés S= 

· · ·
sn
u1
x11 S = Xu1 : projection orthogonale
X1
x11 · · · x1p u11 x11 + u12 x12 + · · · + u1p x1p
    
u11
. . .
S =  .. xij ..   ..  =  .
.. 
xn1 · · · xnp u1p u11 xn1 + u12 xn2 + · · · + u1p xnp

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 13/45


Cas de 2 groupes (k = 2) - Détermination du score discriminant

Score : projection orthogonale de X sur un axe factoriel tel que S = Xu1

si : projection orthogonale de xi sur u1


X2
xi = (x11, x12) Axe s s1 , s2 , · · · , sn

xi
x12 Axe s
si  
s1
 s2 
S : vecteur de coordonnés S= 

· · ·
sn
u1
x11 S = Xu1 : projection orthogonale
X1
x11 · · · x1p u11 x11 + u12 x12 + · · · + u1p x1p
    
u11
. . .
S =  .. xij ..   ..  =  .
.. 
xn1 · · · xnp u1p u11 xn1 + u12 xn2 + · · · + u1p xnp

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 14/45


Cas de 2 groupes (k = 2) - Détermination du score discriminant

Problème : il existe une infinité de combinaisons de uj . Comment déterminer les uj


optimaux ?

X2 Axe factoriel s W

V1 V2

s̄1 s̄ s̄2 Axe s

B
u1
W : petit, B : grand
X1

X2 W
u1 V1 V2

s̄1 s̄2 Axe s



B
Axe factoriel s W : grand, B : petit
X1

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 15/45


Cas de 2 groupes (k = 2)

Objectif de l’AFD
Pp
Déterminer parmi toutes les combinaisons linéaires des Xj ( j=1
uj Xj ), les
pondérations uj qui maximisent le R 2 .

Théorème
Si les groupes sont séparés (MANOVA) alors il existe une combinaison linéaire (score
discriminant, composante discriminante) unique qui maximise le R 2 .

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 16/45


Cas de 2 groupes (k = 2)

Lien avec l’ACP

1ere comp ACP


(sépare au mieux les individus)

µ1 µ2

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 17/45


Cas de 2 groupes (k = 2)

Lien avec l’ACP

1ere comp ACP


(sépare au mieux les individus)

µ1 µ2

1ère comp discrim


(sépare au mieux les
centres de gravité)

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 18/45


Cas de 2 groupes (k = 2)

Détermination des λj
AFD : ACP particulière sur les centres de gravité :

X1 X2 ... Xj ... Xp
G1 µ11 µ12 ... µ1j ... µ1p
G2 µ21 µ22 ... µ2j ... µ2p

Distance particulière : distance de Mahalanobis

• Maximise l’inertie inter-classe projetée sur l’axe


• Minimise l’inertie intra-classe projetée sur l’axe

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 19/45


Cas de 3 groupes (k = 3)

Situation rare Situation plus fréquente


X2 X2
X2 s1 X2 s1
s1 s1

s2s2
X1 X1 XX1 1
s2 s2

s1 s1 ss1 1

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 20/45


Cas de 3 groupes (k = 3)

Situation plus fréquente :

Groupe 3
Score 2

Groupe 1 Groupe 2

Score 1

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 21/45


Cas de 3 groupes (k = 3)

Situation plus fréquente :

Groupe 3
Score 2

β
Groupe 1 Groupe 2

Score 1
α

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 22/45


Cas de k groupes (k > 2)

Théorème
Soit Y qui définit k groupes. Si les groupes sont séparés, alors
Il existe k − 1 composantes discriminantes tels que
scores discriminants

1er score S1 rend maximal le R 2


2ème score S2 est orthogonal à S1 et maximise le R 2
..
.
(k − 1)ème score Sk−1 est orthogonal à Sk−2 et maximise le R 2

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 23/45


Résumé

AFD : méthode explicative de discrimination

• Une variable à expliquer qualitative Y à k groupes (classes)


• p variables explicatives Xj quantitatives ou binaires

• Etudier les variables discriminantes des groupes


• Prédire l’appartenance à un groupe

• Méthode linéaire : scores linéaires qui vont prédire l’appartenance aux classes
• Les classes doivent être séparées (MANOVA)
• Les scores : issus d’une ACP particulière sur les centres de gravités (composantes)
• Toujours k − 1 scores discriminants

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 24/45


Principe d’interprétation
Principe d’interprétation

3 étapes clés :

1. Est-ce que, mathématiquement, la discrimination est bonne ?


• Est-ce que les groupes sont bien séparés par les scores ?
2. Est-ce que les scores ont une interprétation clinique ?
• Cohérence par rapport à l’expertise clinique. . .
3. Construction de règles de classement
• Règle d’affectation d’un nouvel individu à une classe

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 25/45


Principe d’interprétation - Données exemple

Données "insectes" de Lubischew (n = 72) 1 .

• Variable à expliquer : espèce d’insecte (species)


• Concinna (con) (codée 1)
• Heikertingeri (hei) (codée 2)
• Heptapotamica (hep) (codée 3)
• Y = {con,hei,hep}

• Variables explicatives
• Largeur de l’appareil reproducteur (aedeagus) (µm) (width)
• Angle de l’appareil reproducteur (aedeagus) (degré) (angle)

Objectifs

• Déterminer quelles sont les variables discriminant les groupes d’insectes


• Etablir des règles de classement

1. Lubischew, A.A. (1962) On the use of discriminant functions in taxonomy. Biometrics, 18, 455-477

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 26/45


Principe d’interprétation

Interprétation mathématique
Principe d’interprétation - Interprétation mathématique

A - Condition de séparabilité

MANOVA : Multivariate ANalysis Of VAriance



H0 : µ1 = µ2 = µ3 Groupes confondus
H1 : ∃ au moins (i, j)/µi 6= µj Groupes séparés

Sous SPSS

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 27/45


Principe d’interprétation - Interprétation mathématique

B - Utilisation de plusieurs critères

• R 2 → autant que de scores discriminants


Proche de 1 ?
Exemple
R2 ≈ 0:9 R2 ≈ 0:45

G1 G2
G1 G2

Score Score

Pourtant le score discrimine bien dans les 2 cas


→ Pas forcément de seuil sur le R 2

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 28/45


Principe d’interprétation - Interprétation mathématique

B - Utilisation de plusieurs critères

• Représentations graphiques
Rep. des individus sur l’espace des scores discriminants

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 29/45


Principe d’interprétation - Interprétation mathématique

B - Utilisation de plusieurs critères

• Classements automatiques
Méthode des médiatrices

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 30/45


Principe d’interprétation - Interprétation mathématique

B - Utilisation de plusieurs critères

• Classements automatiques
Méthode des médiatrices

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 31/45


Principe d’interprétation - Interprétation mathématique

B - Utilisation de plusieurs critères

• Classements automatiques
Méthode des médiatrices

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 32/45


Principe d’interprétation - Interprétation mathématique

B - Utilisation de plusieurs critères

• Classements automatiques
Méthode des médiatrices

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 33/45


Principe d’interprétation - Interprétation mathématique

B - Utilisation de plusieurs critères

• Classements automatiques
Matrice de confusion

En pratique : ≥ 80% d’observations bien classées

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 34/45


Principe d’interprétation

Interprétation clinique
Principe d’interprétation - Interprétation clinique

Valeurs élevées de S2 → Groupe 1

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 35/45


Principe d’interprétation - Interprétation clinique

Idée : corrélation entre les Xj et chacun des scores


Règle

|ρ(Xj , Sk )| > 0.5

Rq : si Xj est binaire (0/1) : ANOVA ≡ ρ(Xj , Sk )

ρ+ S2

ρ− ρ+

S1

ρ−

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 36/45


Principe d’interprétation - Interprétation clinique

Idée : corrélation entre les Xj et chacun des scores


ρ+ S2
angle width
(r = 0:651) (r = 0:571)

ρ− ρ+
angle width
(r = −0:759) (r = 0:821)

S1

ρ−

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 37/45


Principe d’interprétation - Interprétation clinique

Idée : corrélation entre les Xj et chacun des scores

ρ+ S2
angle width
(r = 0:651) (r = 0:571)

ρ− ρ+
angle width
(r = −0:759) (r = 0:821)

S1

ρ−

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 38/45


Principe d’interprétation

Construction de règles de classement


Construction de règles de classement

3 solutions :
1. Utiliser les classes prédites par le logiciel (Méthode des médiatrices)
• Problème : "boîte noire"
• Pas de règle explicite
2. Méthode graphique

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 39/45


Construction de règles de classement

3 solutions :
1. Utiliser les classes prédites par le logiciel (Méthode des médiatrices)
• Problème : "boîte noire"
• Pas de règle explicite
2. Méthode graphique

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 40/45


Construction de règles de classement

3 solutions :
1. Utiliser les classes prédites par le logiciel (Méthode des médiatrices)
• Problème : "boîte noire"
• Pas de règle explicite
2. Méthode graphique

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 41/45


Construction de règles de classement

3 solutions :
1. Utiliser les classes prédites par le logiciel (Méthode des médiatrices)
• Problème : "boîte noire"
• Pas de règle explicite
2. Méthode graphique
Règle :
SI S2 > α ALORS Groupe 1
SINON
SI S1 > β ALORS Groupe 3
SINON Groupe 2
FSI
β
FSI

Seuils optimaux ?

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 42/45


Construction de règles de classement

3 solutions :

3. Courbe Roc pour déterminer α et β


Pour S2 :
1. Créer une variable binaire (G1
vs G2 , G3 )
2. Courbe ROC sur S2 avec
nouvelle variable
β
→ α optimal pour S2

Pour S1 :
1. Sous-échantillon : uniquement
α
G2 et G3
2. Courbe ROC sur S1 avec
species
→ β optimal pour S1

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 43/45


Construction de règles de classement

Classement d’un nouvel individu : angle=14 ; width=144

Calcul de S1 et S2 pour l’individu :

S1 = 0.147 × width
| {z } −0.625 × angle −11.752 = 0.666
| {z }
=144 =14

| {z } +0.780 × angle −30.258 = 2.118


S2 = 0.149 × width
| {z }
=144 =14

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 44/45


Construction de règles de classement

Classement d’un nouvel individu : angle=14 ; width=144, S1 = 0.666, S2 = 2.118

Posons α = 1 et β = 0

Règle :
SI S2 > α ALORS Groupe 1
SINON
SI S1 > β ALORS Groupe 3
SINON Groupe 2
FSI
FSI

Ici S2 > α donc le nouvel individu est affecté au groupe 1

M. Genin - Analyse Factorielle Discriminante - 10 mai 2019 45/45