Séance 05

Analyse Factorielle
(Analyse en Composantes Principales)
Animé par :
Pr Mohamed Ait Babram
Plan
• Objectifs
• Nature des données
• Exemple
• Présentation de la méthode
• Procédure SPSS
• Conclusion
Introduction
L’analyse en composantes principales est l’une

des méthodes de l’analyse factorielle
multidimensionnelles les plus courantes :
 C’est une méthode d’analyse de données numériques
quantitatives.
 C’est une technique multi variées qui a pour but
principal de réduire et de résumer les données.
 C’est une technique d’interdépendance dans
laquelle toutes les variables sont considérées
simultanément.
Objectifs
Les objectifs de l’ACP se résument en :
 Former des groupes homogènes d’unités statistiques.
 Construire un petit nombre de variables synthétiques (Facteurs),
"résumant" l'ensemble des variables prises en compte dans
l'analyse.
 Visualiser le positionnement des individus les uns par rapport aux
autres.
 Analyser les liaisons entre les variables.
 Interpréter les facteurs.
Remarque : En résumé, on cherche à mettre en évidence les

propriétés fondamentales des données, à l’aide de paramètres
numériques et graphiques.
Visualiser
Nature des donnés étudiées
X1…
X F
1F
*i
p 2
F2(i)
1

0 F1(i)
i x
i…
1 x
i 
p F
i F
1 i …
2
 Le plan factoriel
n
La carte des variables
Cor(Xj,F2) Xj
Facteurs centrés-réduits
résumant les données
Tableau 0 Cor(Xj,F1)
Fh   j1 u hjX j
p
des données
(non corrélés entre eux)
Exemple
On a recueilli le poids, la taille, l’âge et la note moyenne

annuelle de 10 élèves du collège. Les données se
présentent sous la forme :
Exemple
Les variables quantitatives mise en

jeux dans cet exemple sont :
 X1 = Poids de l’étudiant (kg).
 X2 = Taille de l’étudiant (m).
 X3 = Âge de l’étudiant (années).
 X4 = Note de l’étudiant (sans unité).
Les données sont-elles factorisables ?
Il convient d’observer la matrice des corrélations «Correlation Matrix». Si
plusieurs variables sont corrélées (>0,5), la factorisation est possible. Si
non, la factorisation n’est donc pas conseillée.
Remarque : L’ACP ne donnera des résultats intéressants que sur des

tableaux de données suffisamment grandes : Le nombre d’unités
statistiques doit être supérieur à 15 et le nombre de variables à 4.
Les données sont-elles factorisables ?
Dans un deuxième temps, il faut observer l’indice de KMO

(Kaiser-Meyer-Oklin) et la test de sphéricité de Bartlett :
• < 0,5 (misérable)
• [0.6 , 0.7] (médiocre)
• [0.7 , 0.8] (moyen)
• [0.8 , 0.9] (méritoire)
• > 0.9 (merveilleux)
Remarque : Normalement, dans notre • Sig < 0.05 (significatif)

cas on doit rejeter la factorisation. Mais,
• Sig entre 0.05 et 0.1 (acceptable)
on l’a considéré juste pour expliquer les
démarches à suivre dans l’ACP. • Sig > 0.1 (on rejette)
Notion de distance entre deux unités statistiques
Nous cherchons à exprimer et à quantifier ou mesurer la distance ou la
ressemblance entre deux unités statistiques :
 d2(4,5) = (60 - 60)2 + (1.75 - 1.70)2 + (15 - 14)2 + (9 -10)2 = 2.00025
 d2(4,6) = (60 - 60)2 + (1.75 - 1.70)2 + (15 - 14)2 + (9 -7)2 = 5.00000
 d2(5,6) = (60 - 60)2 + (1.70 - 1.70)2 + (14 - 14)2 + (10 -7)2 = 9.00000
d2(4,5) < d2(5,6)

Exprimons maintenant la taille en centimètre :
 d2(4,5) = (60 - 60)2 + (175 - 170)2 + (15 - 14)2 + (9 -10)2 = 27
 d2(4,6) = (60 - 60)2 + (175 - 170)2 + (15 - 14)2 + (9 -7)2 = 30
 d2(5,6) = (60 - 60)2 + (170 - 170)2 + (14 - 14)2 + (10 -7)2 = 9
d2(4,5) > d2(5,6) !!!!!!!!!!

Conclusion : La distance ainsi définie (euclidienne) et l’ordre de proximité
entre les unités statistiques dépendent des unités de mesures choisies.
Réduction des données
Pour neutraliser le problème soulevé précédemment des unités de mesure, on
remplace les données d’origine par des données centrées et réduites :
X1  x1 La moyenne
X1* 
s1

Xp  x p
X*p 
sp L’écart
Ces nouvelles variables ont une moyenne 0 et un écart-type 1.

Combien de facteurs à retenir ?
Trois règles sont applicables :

 Règle de Kaiser qui veut qu’on ne retienne que les facteurs aux valeurs propres
supérieurs à 1
 On choisit le nombre d’axes en fonction de la restitution minimale
d’information ( 80%)
 Le « Scree-test » ou test du coude : On ne retient que les valeurs qui se
trouvent à gauche du point d’inflexion du graphique des valeurs propres
Recherche du premier facteur
On recherche le facteur centré-réduit :

F1   j1 u1 jX *j
p
maximisant le critère « Part de la variance totale expliquée par F1 »

p
 cor
j1
2
(X j , F1 )
Remarque : La détermination du facteur F1 se résume à celle d’un vecteur u1

qui n’est autre qu’un vecteur propre de la matrice de corrélation.
Résultat
On a les assertions suivantes

 Le vecteur u1 est vecteur propre (eigenvector) de la
matrice des corrélations R associé à la plus grande
valeur propre (eigenvalue) 1.
 Le critère :
p
 cor
j1
2
( X j , F1 )
est égal à 1.

Propriétés du premier facteur
 F1 = u11X1* + u12X2* + … + u1pXp*
 Moyenne de F1 = 0
 Variance de F1 = 1
 Cor(Xj, F1) = 1u1j
p
  (X j , F1 )  1 est maximum
cor
j1
2
Qualité du premier facteur
 La variance totale du tableau des données centrées-réduites est définie par :

p
Variance totale =  Var(X )  p
j=1
*
j
 La part de la variance de Xj* expliquée par F1 est égale à Cor2(Xj, F1).
 La part de la variance totale expliquée par F1 est égale à :

p
 (X j , F1 )  1
Cor
j=1
2
Qualité du premier facteur ( Exemple)
 Variance totale = p = 4
 Variance expliquée par le premier facteur
1 = 2.391
 Proportion de variance expliquée par le premier facteur :
Variance Expliqué 2.391

  59.772 %
Variance Totale 4
 Le premier facteur explique 59,772% de la variance totale.

Recherche du deuxième facteur F2
 On recherche le deuxième facteur centré-réduit
F2   j1 u 2 jX *j
p
non corrélé à F1 et résumant au mieux le tableau X.

 Le facteur F2 maximise
p
 (X j , F2 )
cor
j1
2
sous la contrainte cor(F1,F2) = 0.

Résultats
 Le vecteur u2 est vecteur propre de la matrice des corrélations

associé à la deuxième plus grande valeur propre 2.
 F2 = u21X1* + u22X2* + … + u2pXp*
 F2 est centré-réduit
 Cor(X
p j, F2) = 2u2j

 (X j , F2 ) =  2 est maximum
cor
j1
2
sous la contrainte cor(F1 , F2 )  0.

Qualité du deuxième facteur ( Exemple)
2 = 0.750
  18.758 %
Variance Totale 4

Qualité du deuxième facteur ( Exemple)
1 + 2 = 3,141
  78.525 %
Variance Totale 4

Résumé de l’analyse (carte des variables)
-0,832
0,779
0,380
-0,403
Cor(âge,F1) Cor(âge,F2)
On peut vérifier que :

(-0,832)2+ (-0,832)2+ (-0,832)2+ (-0,832)2= 1 = 2,391
(-0,832)2+ (-0,832)2+ (-0,832)2+ (-0,832)2= 2 = 0,750
Résumé de l’analyse (plan factoriel)
u1 u2
F1 = (0,329)(poids)* + (0,326)(taille)* + (0,288)(âge)* + (-0,348)(note)*

F2 = (0,354)(poids)* + (-0,536)(taille)* + (0,815)(âge)* + (-0,506)(note)*

Séance 05

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Séance 05

Transféré par

Droits d'auteur :

Formats disponibles

Analyse Factorielle

(Analyse en Composantes Principales)

L’analyse en composantes principales est l’une

Remarque : En résumé, on cherche à mettre en évidence les

On a recueilli le poids, la taille, l’âge et la note moyenne

Les variables quantitatives mise en

Remarque : L’ACP ne donnera des résultats intéressants que sur des

Dans un deuxième temps, il faut observer l’indice de KMO

Remarque : Normalement, dans notre • Sig < 0.05 (significatif)

d2(4,5) < d2(5,6)

d2(4,5) > d2(5,6) !!!!!!!!!!

Ces nouvelles variables ont une moyenne 0 et un écart-type 1.

Trois règles sont applicables :

On recherche le facteur centré-réduit :

maximisant le critère « Part de la variance totale expliquée par F1 »

Remarque : La détermination du facteur F1 se résume à celle d’un vecteur u1

On a les assertions suivantes

est égal à 1.

 F1 = u11X1* + u12X2* + … + u1pXp*

 Cor(Xj, F1) = 1u1j

 La variance totale du tableau des données centrées-réduites est définie par :

 La part de la variance de Xj* expliquée par F1 est égale à Cor2(Xj, F1).

 La part de la variance totale expliquée par F1 est égale à :

 Variance expliquée par le premier facteur

Variance Expliqué 2.391

 Le premier facteur explique 59,772% de la variance totale.

 On recherche le deuxième facteur centré-réduit

non corrélé à F1 et résumant au mieux le tableau X.

sous la contrainte cor(F1,F2) = 0.

 Le vecteur u2 est vecteur propre de la matrice des corrélations

sous la contrainte cor(F1 , F2 )  0.

 Variance expliquée par le premier facteur

 Le premier facteur explique 18,758% de la variance totale.

 Variance expliquée par le premier facteur

 Le premier facteur explique 78,525% de la variance totale.

On peut vérifier que :

F1 = (0,329)(poids)* + (0,326)(taille)* + (0,288)(âge)* + (-0,348)(note)*

Vous aimerez peut-être aussi