Vous êtes sur la page 1sur 33

Chapitre 5

Analyse Factorielle Discriminante


Prof. Sokaina EL KHAMLICHI

Ecole des Sciences de l’Information

sel-khamlichi@esi.ac.ma
Introduction
• L’analyse Factorielle Discriminante est une méthode d’analyse de données
multidimensionnelle permettant d’expliquer un caractère ou variable
qualitative (variable expliquée ou variable endogène, par exemple:
l’appartenance ou non à une catégorie ou groupe d’individus), par
l’intermédiaire de variables quantitatives, dites variables explicatives ou
exogènes décrivant les individus
• L’AFD, bien qu’elle soit une analyse factorielle, est une méthode de
classification dite « supervisée » puisqu’on connait l’affectation des
observations aux groupes prédéfinis et on veut savoir si les groupes se
distinguent clairement les uns des autres ainsi que les critères qui
permettent de les distinguer.
• L’objectif de l'AFD est de discriminer, c'est-a-dire prédire à partir des p
variables quantitatives, l’appartenance d’observations à des groupes
prédéfinis, en construisant une règle de décision.
Principe de l’analyse Factorielle Discriminante
• Il y a toujours deux étapes pour mener à bien une discrimination:

Etape de Description: elle consiste à construire une règle de discrimination en


utilisant un échantillon d'apprentissage.

Etape de prédiction: elle consiste à utiliser cette règle, sur un nouvel échantillon dit
échantillon test, pour prédire le groupe d'affectation (avec un éventuellement calcul
des probabilités d'affectation). Une fois ces deux étapes réalisées, on peut, si la
discrimination est jugée bonne, utiliser la règle de décision construite (et validée)
pour prédire la classe d'affectation d'une nouvelle observation (ou plusieurs), quand
on ne connait que la valeur des p variables.
Principe de l’analyse Factorielle Discriminante
Les données: X un tableau de p variables quantitatives mesurées sur n observations
y un vecteur d’affectation des n observations à K groupes

• Etant donnée un ensemble de variables quantitatives indépendantes, l’AFD essaie de


trouver des combinaisons linéaires de ces variables qui séparent le mieux les groupes (on
peut avoir deux ou plusieurs groupes). L’AFD fait partie des méthodes explicatives.
• Ces fonctions sont appelées fonctions discriminantes, et peuvent être formulées de la
façon suivante:
Fik = a0k + a1k xi1 +…+ ajk xij + …+ apkxip


Fik : est la valeur de la ième observation de la kème fonction
xij : est la valeur de la ième observation de la jème variable explicative
ajk : est la valeur du coefficient de la jème variable explicative de la kème fonction
Principe de l’analyse Factorielle Discriminante
 Discrimination entre deux groupes uniquement

• Si on veut discriminer entre deux groupes seulement, on aura une seule


fonction discriminante de la forme:
Fi = a0 + a1 xi1 +…+ aj xij + …+ apxip

• Le principe de l'AFD est donc de trouver des combinaisons linéaires des p


variables (colonnes de la matrice X), appelées variables discriminantes,
permettant de réaliser des représentations des K groupes les plus
compacts possibles mais aussi les plus éloignés les uns des autres.
Postulats d’application de l’AFD
1. Les populations doivent être mutuellement exclusives, ce qui implique
l’élimination des individus appartenant à plus d’une population
2. Les mêmes variables explicatives x1, x2, x3, …, xp sont mesurées sur
chacun des individus, dans chacun des groupes. Le niveau de mesure
utilisé doit être métrique. Ce qui permettra de calculer les moyennes, les
variances et les covariances.
3. On recommande que la taille minimale de l’échantillon total soit
supérieur à au moins 20 fois le nombre de variables explicatives: n ≥20p
4. Aucune des variables explicatives ne peut être une combinaison linéaire
des autres variables (pas de multicolinéarité parfaite)
Postulats d’application de l’AFD
5. Les populations doivent suivre une loi normale avec l’égalité des matrices de
variances-covariances. Plusieurs auteurs affirment que l’analyse discriminante est
robuste à ce postulat et qu’on peut l’utiliser pour séparer efficacement les groupes,
sauf si les matrices de variances covariances sont très nettement différentes.

6. Il y a d’autres problems qui peuvent invalider les résultats d’une analyse


discriminante, comme beaucoup de données manquantes, des variables fortement
corrélées, des tailles d’échantillons très différentes, des données aberrentes, etc.
Ces anomalies peuvent rendre l’interprétation de l’analyse discriminante erronée.
Test de Box: égalité des variances covariances
Afin de vérifier la condition de l’égalité des variances covariances entre
les population, on utilise le test de Box
Test de Box:
- H0 : égalité des variances covariances entre les populations
- H1 : Inégalité des variances covariances entre les populations

Règle de décision: si la signification est supérieure à l’erreur α (=0,05),


on accepte H0, c’est-à-dire il y a égalité des variances covariances entre
les population
Discrimination
• Il s’agit de décomposer la variabilité totale des données (fournie par
l'inertie de la matrice X) en deux variabilités l'inter-groupe et l'intra-
groupe. Ainsi une bonne discrimination donnera des groupes bien
séparés (grande variabilité inter) mais des groupes les plus
homogènes possible (petite variabilité intra).

• Bonne discrimination:

- Groupes bien séparés: grande variabilité inter

- Groupes bien homogènes: petite variabilité intra


Discrimination
Discrimination
• On note que ,dans la représentation dans la diapositive précédente, selon les
importances des variances inter ou intra, la discrimination est plus ou moins de
qualité. Ainsi, la figure fournie en bas à droite est, en quelque sorte, l'idéal que
l'on aimerait obtenir a chaque fois que l'on réalise une discrimination, mais ce
n'est pas toujours possible selon les données.
• Décomposition de la variabilité:
Matrice initiale X --> matrice des centres de gravités XB + matrice des résidus Xw
D’où les matrices :
- Variance totale V= XTX
- Variance intergroupe (ou between)
- Variance intragroupe (ou within)
Ces matrices vérifient:
- X= XB + Xw
- V =B+W
Discrimination
• Solution de l’AFD:
On cherche une combinaison linéaire c tel que c= Xa de sorte à maximiser la
variance intergroupe et minimiser la variance intragroupe

ou

Résoudre ces deux problèmes est un peu près équivalent (problèmes aux valeurs
propres):
- Les optimum, les valeurs a, sont les mêmes, Mais les maximums, les valeurs
propres sont différentes (λ ≠ μ)
- λ Є [0, 1] = pouvoir discriminant
- Le nombre maximal de fonctions discriminantes que l’on peut avoir est égal à k-1
Validation de la qualité de discrimination: Test Q-Press
• Ce test est utilisé afin de tester les deux hypothèses alternatives suivantes:

H0 : le nombre d’individus bien classés est due au hasard (aléatoire) et non aux
fonctions discriminantes
H1 : le nombre d’individus bien classés est due aux fonctions discriminantes

La statistique de Q-Press est calculée comme suit:

Avec:
n: le nombre des individus
nc : le nombre des individus bien classés
K: le nombre de groupes
Affectation
• Utilisation du modèle construit pour la prédiction:
- Vérifier la robustesse du modèle sur un échantillon indépendant
- Appliquer le modèle dans la réalité

• La règle générale d’affectation, après réalisation de la discrimination,


est de projeter de nouvelles observations, un échantillon test, pour
affecter ces observations au groupe dont le centre de gravité est le
plus proche
Exemple d’application de l’AFD: les données
• On cherche à faire une analyse discriminante sur la détermination des
caractéristiques des familles ayant séjourné en centre de vacances au cours
des deux dernières années.
• Les données sont obtenues à partir d’un échantillon de prétest de 42 foyers,
dont 30 foyers sont inclus dans l’échantillon d’analyse et les 12 restants
composent l’échantillon de contrôle. L’échantillon contient 15 foyer dans
chaque groupe.
- Des données sont collectées concernant le revenu
• Séjour: Les foyers qui étaient partis en centre de vacances au cours des
deux dernières années sont codés 1, ceux qui n’étaient pas partis sont
codés 2
Exemple d’application de l’AFD: les données

REVENU: Revenu annuel de la famille en milliers de $


VOYAGE: Attitude vis-à-vis du voyage, mesurée sur une échelle de 9 points
VANCANCES: Importance attachée aux vacances en famille, mesurée sur
une échelle de 9 points
TAILLEF: Taille du foyer
AGE: l’âge du chef de famille
SOMMEDEP: Somme dépensée pendant les vacances en famille
(1= dépenses faibles, 2= dépenses moyennes, 3= dépenses élevées)
Exemple d’application de l’AFD: les données
• Variable expliquée (qualitative):
- SOMMEDEP (Somme dépensée pendant les vacances en famille). Elle
est composée de 3 groupes:
 1= dépenses faibles,
 2= dépenses moyennes,
 3= dépenses élevées
• Variable explicatives (quantitatives):
- REVENU: Revenu annuel de la famille en milliers de $
- VOYAGE: Attitude vis-à-vis du voyage
- VANCANCES: Importance attachée aux vacances en famille
- TAILLEF: Taille du foyer
- AGE: l’âge du chef du foyer
Table de données
 Tableau 1: Information sur les séjours en centre de vacances- Echantillon d’apprentissage
Mise en œuvre de l’AFD sous SPSS
Mise en œuvre de l’AFD sous SPSS

On doit définir la plage de la variable expliquée (variable de


regroupement)
Mise en œuvre de l’AFD sous SPSS

On a inséré les cinq variables explicatives (indépendantes)


Mise en œuvre de l’AFD sous SPSS
Mise en œuvre de l’AFD sous SPSS
Résultats de l’AFD: Exemples de sorties obtenus
 Test de Box:
- H0: égalité des variances covariances entre les populations
- H1: Inégalité des variances covariances entre les populations

Puisque la signification est supérieure à 0,05 (5%), donc on accepte H0


(l’hypothèse nulle), l’hypothèse d’égalité des variances covariances est
vérifiée
Résultats de l’AFD: Exemples de sorties obtenus

La corrélation canonique
93,9 % du pouvoir discriminant relativement forte (d’environ
des cinq variables explicatives 89%) témoigne la grande
est attribuable à la première utilité de la première fonction
fonction discriminante discriminante

La corrélation canonique
6,1 % du pouvoir discriminant relativement moyenne
des cinq variables explicatives (d’environ 44,5%) témoigne
est attribuable à la deuxième l’utilité moyenne de la
fonction discriminante deuxième fonction
discriminante
Résultats de l’AFD: Exemples de sorties obtenus

 Equation de la première function discriminate:


Y1 = 1.047 × Revenu + 0.340 × Voyage - 0.142 × Vacances – 0.163 TAILLEF + 0.495 × Age
La variable Revenu, suivi par la variable Age et la variable Voyage séparent le mieux les trois
groupes pour la première fonction discriminante

 Equation de la deuxième fonction discriminante:


Y2 = -0,421 × Revenu + 0,769 × Voyage + 0,534 ×Vacances + 0,129 × TAILLEF +0,524 × Age
La variable Voyage, suivi par la variable Vacances et la variable Age séparent le mieux les trois
groupes pour la deuxième fonction discriminante
Résultats de l’AFD: Exemples de sorties obtenus

D’après les résultats de la matrice de


structure pour la première fonction
discriminante, on constate que c’est la
variable Revenu qui s épare le mieux
les trois groupes (corrélation très forte
pour cette variable, de 85,6%)

D’après les résultats de la matrice de


structure pour la deuxième fonction
discriminante, on constate que c’est la
variable Voyage qui s épare le mieux les
trois groupes (corrélation relativement
moyenne pour cette variable, de
58,8%)
Résultats de l’AFD: Exemples de sorties obtenus

La première fonction discriminante est


significative au risque de 5%, C’est-à-
dire, cette fonction discriminante est
utile à l’explication des différences
observées entre les trois groupes.

La deuxième fonction discriminante


n’est pas significative au risque de 5%,
C’est-à-dire, cette fonction
discriminante n’est pas utile à
l’explication des différences observées
entre les trois groupes. C’est ce qui
explique sa faible part d’explication
(6,1% que nous avons vu
précédemment)

Donc nous allons prendre uniquement la première fonction discriminante pour distinguer
entre les trois groupes
Résultats de l’AFD: Exemples de sorties obtenus
D’après les résultats du classement, on remarque qu’il y a 4 individus qui ne sont pas classés
correctement

1 individu appartenant à la classe 2 individus appartenant à la classe 1 individu appartenant à la classe


(dépenses moyennes), il est classé (dépenses élevés), ils sont classé (dépenses faibles), il est classé dans
dans la classe (dépenses faibles) dans la classe (dépenses moyenne) la classe (dépenses moyennes)
Résultats de l’AFD: Exemples de sorties obtenus

On distingue trois groupes, dépenses élevées, dépenses moyennes et dépenses


faibles
Validation de la qualité de discrimination:
• Le test Q-Press

On compare cette valeur avec la valeur théorique lue sur la table de Khi-
deux avec un risque de 5% et un degré de liberté de 2

On constate que la valeur calculée de Q = 38,4 est bien supérieure à celle


lue sur la table de khi-deux, donc on rejette H0 . Autrement dit la fonction
discriminante permet une bonne qualité de classement entre les trois
groupes.
Vérification par l’échantillon de contrôle (échantillon test)
 Tableau 2: Information sur les séjours en centre de vacances- Echantillon de test
Vérification par l’échantillon de contrôle

Vous aimerez peut-être aussi