Vous êtes sur la page 1sur 24

Analyse Factorielle

(Analyse en Composantes Principales)

Animé par :
Pr Mohamed Ait Babram
Plan

• Objectifs
• Nature des données
• Exemple
• Présentation de la méthode
• Procédure SPSS
• Conclusion
Introduction

L’analyse en composantes principales est l’une


des méthodes de l’analyse factorielle
multidimensionnelles les plus courantes :
 C’est une méthode d’analyse de données numériques
quantitatives.
 C’est une technique multi variées qui a pour but
principal de réduire et de résumer les données.
 C’est une technique d’interdépendance dans
laquelle toutes les variables sont considérées
simultanément.
Objectifs
Les objectifs de l’ACP se résument en :
 Former des groupes homogènes d’unités statistiques.
 Construire un petit nombre de variables synthétiques (Facteurs),
"résumant" l'ensemble des variables prises en compte dans
l'analyse.
 Visualiser le positionnement des individus les uns par rapport aux
autres.
 Analyser les liaisons entre les variables.
 Interpréter les facteurs.

Remarque : En résumé, on cherche à mettre en évidence les


propriétés fondamentales des données, à l’aide de paramètres
numériques et graphiques.
Visualiser
Nature des donnés étudiées
X1…
X F
1F
*i
p 2
F2(i)
1

0 F1(i)
i x
i…
1 x
i 
p F
i F
1 i …
2

 Le plan factoriel
n
La carte des variables

Cor(Xj,F2) Xj
Facteurs centrés-réduits
résumant les données
Tableau 0 Cor(Xj,F1)
Fh   j1 u hjX j
p
des données
(non corrélés entre eux)
Exemple

On a recueilli le poids, la taille, l’âge et la note moyenne


annuelle de 10 élèves du collège. Les données se
présentent sous la forme :
Exemple

Les variables quantitatives mise en


jeux dans cet exemple sont :
 X1 = Poids de l’étudiant (kg).
 X2 = Taille de l’étudiant (m).
 X3 = Âge de l’étudiant (années).
 X4 = Note de l’étudiant (sans unité).
Les données sont-elles factorisables ?
Il convient d’observer la matrice des corrélations «Correlation Matrix». Si
plusieurs variables sont corrélées (>0,5), la factorisation est possible. Si
non, la factorisation n’est donc pas conseillée.

Remarque : L’ACP ne donnera des résultats intéressants que sur des


tableaux de données suffisamment grandes : Le nombre d’unités
statistiques doit être supérieur à 15 et le nombre de variables à 4.
Les données sont-elles factorisables ?

Dans un deuxième temps, il faut observer l’indice de KMO


(Kaiser-Meyer-Oklin) et la test de sphéricité de Bartlett :
• < 0,5 (misérable)
• [0.6 , 0.7] (médiocre)
• [0.7 , 0.8] (moyen)
• [0.8 , 0.9] (méritoire)
• > 0.9 (merveilleux)

Remarque : Normalement, dans notre • Sig < 0.05 (significatif)


cas on doit rejeter la factorisation. Mais,
• Sig entre 0.05 et 0.1 (acceptable)
on l’a considéré juste pour expliquer les
démarches à suivre dans l’ACP. • Sig > 0.1 (on rejette)
Notion de distance entre deux unités statistiques
Nous cherchons à exprimer et à quantifier ou mesurer la distance ou la
ressemblance entre deux unités statistiques :
 d2(4,5) = (60 - 60)2 + (1.75 - 1.70)2 + (15 - 14)2 + (9 -10)2 = 2.00025
 d2(4,6) = (60 - 60)2 + (1.75 - 1.70)2 + (15 - 14)2 + (9 -7)2 = 5.00000
 d2(5,6) = (60 - 60)2 + (1.70 - 1.70)2 + (14 - 14)2 + (10 -7)2 = 9.00000

d2(4,5) < d2(5,6)


Exprimons maintenant la taille en centimètre :
 d2(4,5) = (60 - 60)2 + (175 - 170)2 + (15 - 14)2 + (9 -10)2 = 27
 d2(4,6) = (60 - 60)2 + (175 - 170)2 + (15 - 14)2 + (9 -7)2 = 30
 d2(5,6) = (60 - 60)2 + (170 - 170)2 + (14 - 14)2 + (10 -7)2 = 9

d2(4,5) > d2(5,6) !!!!!!!!!!


Conclusion : La distance ainsi définie (euclidienne) et l’ordre de proximité
entre les unités statistiques dépendent des unités de mesures choisies.
Réduction des données
Pour neutraliser le problème soulevé précédemment des unités de mesure, on
remplace les données d’origine par des données centrées et réduites :

X1  x1 La moyenne
X1* 
s1

Xp  x p
X*p 
sp L’écart

Ces nouvelles variables ont une moyenne 0 et un écart-type 1.


Combien de facteurs à retenir ?

Trois règles sont applicables :


 Règle de Kaiser qui veut qu’on ne retienne que les facteurs aux valeurs propres
supérieurs à 1
 On choisit le nombre d’axes en fonction de la restitution minimale
d’information ( 80%)
 Le « Scree-test » ou test du coude : On ne retient que les valeurs qui se
trouvent à gauche du point d’inflexion du graphique des valeurs propres
Recherche du premier facteur

On recherche le facteur centré-réduit :


F1   j1 u1 jX *j
p

maximisant le critère « Part de la variance totale expliquée par F1 »


p

 cor
j1
2
(X j , F1 )

Remarque : La détermination du facteur F1 se résume à celle d’un vecteur u1


qui n’est autre qu’un vecteur propre de la matrice de corrélation.
Résultat

On a les assertions suivantes


 Le vecteur u1 est vecteur propre (eigenvector) de la
matrice des corrélations R associé à la plus grande
valeur propre (eigenvalue) 1.
 Le critère :
p

 cor
j1
2
( X j , F1 )

est égal à 1.


Propriétés du premier facteur

 F1 = u11X1* + u12X2* + … + u1pXp*

 Moyenne de F1 = 0

 Variance de F1 = 1

 Cor(Xj, F1) = 1u1j

p
  (X j , F1 )  1 est maximum
cor
j1
2
Qualité du premier facteur

 La variance totale du tableau des données centrées-réduites est définie par :


p
Variance totale =  Var(X )  p
j=1
*
j

 La part de la variance de Xj* expliquée par F1 est égale à Cor2(Xj, F1).

 La part de la variance totale expliquée par F1 est égale à :


p

 (X j , F1 )  1
Cor
j=1
2
Qualité du premier facteur ( Exemple)

 Variance totale = p = 4

 Variance expliquée par le premier facteur

1 = 2.391
 Proportion de variance expliquée par le premier facteur :

Variance Expliqué 2.391


  59.772 %
Variance Totale 4

 Le premier facteur explique 59,772% de la variance totale.


Recherche du deuxième facteur F2

 On recherche le deuxième facteur centré-réduit

F2   j1 u 2 jX *j
p

non corrélé à F1 et résumant au mieux le tableau X.


 Le facteur F2 maximise
p

 (X j , F2 )
cor
j1
2

sous la contrainte cor(F1,F2) = 0.


Résultats

 Le vecteur u2 est vecteur propre de la matrice des corrélations


associé à la deuxième plus grande valeur propre 2.
 F2 = u21X1* + u22X2* + … + u2pXp*
 F2 est centré-réduit
 Cor(X
p j, F2) = 2u2j


 (X j , F2 ) =  2 est maximum
cor
j1
2

sous la contrainte cor(F1 , F2 )  0.


Qualité du deuxième facteur ( Exemple)

 Variance totale = p = 4

 Variance expliquée par le premier facteur

2 = 0.750
 Proportion de variance expliquée par le premier facteur :
Variance Expliqué 0.750
  18.758 %
Variance Totale 4

 Le premier facteur explique 18,758% de la variance totale.


Qualité du deuxième facteur ( Exemple)

 Variance totale = p = 4

 Variance expliquée par le premier facteur

1 + 2 = 3,141
 Proportion de variance expliquée par le premier facteur :
Variance Expliqué 3.141
  78.525 %
Variance Totale 4

 Le premier facteur explique 78,525% de la variance totale.


Résumé de l’analyse (carte des variables)

-0,832

0,779

0,380

-0,403

Cor(âge,F1) Cor(âge,F2)

On peut vérifier que :


(-0,832)2+ (-0,832)2+ (-0,832)2+ (-0,832)2= 1 = 2,391
(-0,832)2+ (-0,832)2+ (-0,832)2+ (-0,832)2= 2 = 0,750
Résumé de l’analyse (plan factoriel)

u1 u2

F1 = (0,329)(poids)* + (0,326)(taille)* + (0,288)(âge)* + (-0,348)(note)*


F2 = (0,354)(poids)* + (-0,536)(taille)* + (0,815)(âge)* + (-0,506)(note)*

Vous aimerez peut-être aussi