Vous êtes sur la page 1sur 18

Analyse Factorielle

(Analyse Factorielle discriminante)

Animé par :
Pr Mohamed Ait Babram
Plan

• Introduction et objectifs
• Champs d’application
• Exemple
• Présentation de la méthode
• Procédure SPSS
• Conclusion
Introduction

Le but de l’analyse discriminante est d’étudier les


relations entre une variable qualitative et un ensemble
de variables explicatives (prédicteurs). La méthode
consiste à prédire une variable catégorielle à k
catégories à l’aide de variables explicatives
(généralement numériques).
Remarque : On peut considérer l’analyse discriminante
comme une extension du problème de régression dans
le cas ou la variable à expliquer est d’ordre qualitatif.
Objectifs

On distingue deux aspects en analyse


discriminante :

1. Descriptif : déterminer les variables qui


déterminent le plus l’appartenance à un
groupe.
2. Décisionnel : déduire des valeurs des
prédicteurs pour un individu, la catégorie dans
laquelle il faut l’affecter.
Champs d’application

 Marketing : définir le profil des consommateur d’une


marque A, dans le but d’une bonne segmentation du
marché ou bien un le ciblage du bon client.
 Finance : prévision du comportement des demandeurs
de crédit.
 Médecine : Prédire au mieux le type d’affectation d’un
malade ou son évolution probable afin d’orienter le
traitement.
 Météorologie : Prévision des avalanches à partir de
variables liées à l’atmosphère.
Exemple

Pour déterminer les conditions d’un prêt, les banques


tiennent compte d’un certain nombre d’informations
dont elle disposent sur le demandeur (situation
financière, situation familiale, nature d’emploi etc…).
 L’objectif est de déterminer le groupe de risque financier
auquel le demandeur doit appartenir (haut risque, risque
moyen, risque faible).
 En fonction du groupe d’affectation le prêt est accordé
avec un taux d’interet bien determiné et des garanties
exigées.
Nature de données

Les tableaux statistiques considérés par cette analyse ont la forme suivante :

individus X1 Xj Xp Z
1

i xij

Variable de groupement (qualitatif) elle doit être codée


numériquement en valeurs entières (1,2,…).
Exemple
Nous analysons dans toute la suite de l’exposé le classement d’un client dans
un groupe de risque financier. Le nombre de groupes est fixé à 3 : haut
risque (1), risque moyen (2) et risque faible ou nul (1).
Exemple

Les descripteurs mis en jeux dans cet exemple


sont :
 X1 = Âge du client (années).

 X2 = Revenu du client (K€).


 X3 = Patrimoine du client (K€).
 X4 = Montant d’emprunt sollicité par le client (K€).
La variable de groupement est :
 Z = Groupe de risque financier
Présentation de la méthode (notation)

On note par
– n = le nombre des unités statistiques;
– p = le nombre des descripteurs;
– q = le nombre de groupes;
– mj = la moyenne de la variable Xj (moyenne totale);
– vj = la variance de la variable Xj (variance totale);
– nk = l’effectif du groupe k;
– mjk = la moyenne de la variable Xj dans le groupe k (moyenne
locale);
– vjk = la variance de la variable X j dans le groupe k (variance
locale);
Présentation de la méthode (formules)
On a facilement les formules suivantes :
1 q 1 q
m   nk m kj
g
j v   nk (m kj  m gj ) 2
g
j
n k 1 n k 1

m gj  m j La moyenne pondérée des moyennes locales est


exactement la moyenne totale.

q
1 wjj : Variance intragroupes (Within).
v j  v gj   nk v kj
n k 1 bjj : Variance intergroupes (Between).

On exprime alors plus simplement la formule de décomposition de la


variance par : V=B+W
Illustration graphique

n1
n2
G1
x

W x G3
xG

n3

x
G2
Décomposition de la variance

La variance de chaque variable Xj peut se décomposer


en deux variances :

– W : la variance intra classe correspondant à la somme


des variances de Xj sur chaque groupe.
– B : la variance interclasse correspondant à la variance
deXj sur les centre de gravité Gk.
Soit
Variance Totale(V) = Variance intra classe(W)+Variance iterclasse(B)
Décomposition de la variance

La formule précédente permet de définir le rapport de


corrélation :
B
 2j   0,1
V
– Lorsque le rapport est proche de 1, cela signifie que, la variance
intra W est faible et la variance inter B est forte : la variable Xj est
peu dispersée à l’intérieur de chaque groupe et les valeurs
moyennes sont relativement différentes.
– Lorsque le rapport est proche de 0, cela signifie que, la variance
inter B est faible et la variance intra W est forte : les valeurs
moyennes de la variable Xj sont proches les une des autres et les
valeurs sont trop à l’intérieur de chaque groupe.
Résultats SPSS

G1=(34.33,146.33,690,340)

G2=(35.25,151.25,1362.5,285)

G3=(45,193.33,1333.33,346.67)

G=(37.90,162.40,1152,320)
Motivation

Nous avons remarqués que le patrimoine distingue


entre le premier groupe des deux autres alors que l’âge
sépare surtout le troisième des deux premiers.
– Pourquoi ne pas tenir compte simultanément de ces deux
variables ?
– D’une façon plus générale, pourquoi ne pas tenir compte
de l’ensemble des variables, et rechercher une
combinaison linéaire qui discrimine le mieux possible les
trois groupes ?
Les variable discriminante

 On recherche des variables discriminante centrée de la forme :


p
Z l  al 0   alj X j
j 1

séparant au mieux les k classes.


 On recherche des a1j conduisant à une variable Zl ayant un F ou, de
manière équivalente, un 2 maximum dans l’analyse de la variance de Zl
sur le facteur Z définissant les classes.
 On choisit comme normalisation une variance intra-classes de Zl égale à 1.

Remarque : Le nombre de variables discriminante est inférieure à inf(q-1,p)


Résultats SPSS

Z1=(-11,033)+(0,063)age-(0,023)revenu
+(0,009)patrimoine+(0,005)emprunt

Z2=(-4,479)+(0,112)age+(0,019)revenu -
(0,002)patrimoine+(0,004)emprunt

Vous aimerez peut-être aussi