Vous êtes sur la page 1sur 9

Analyse en Composantes Principales Exploratoire (ACP)

Définition

L'objectif de l'analyse multivariée est d'étudier les relations entre plusieurs variables et d'en généralisé
les conclusions par inférence statistique.

Nous disposons de plusieurs méthodes d'analyse tels que la régression linéaire, la classification ou
l'analyse en composante principale.

Analyse en Composantes Principales Exploratoire (ACP)

L’Analyse en Composante Principale (ACP) fait partie des analyses descriptives multivariées. Le but
de cette analyse est de résumer le maximum d’informations possibles en en perdant le moins possible
pour :

• Faciliter l’interprétation d’un grand nombre de données initiales

• Donner plus de sens aux données réduites

L’ACP permet donc de réduire des tableaux de grandes tailles en un petit nombre de variables (2 ou 3
généralement) tout en conservant un maximum d’information. Les variables de départ sont dites
‘métriques’.

L’analyse en composantes principales doit respecter certaines contraintes :

 le nombre des variables doit être suffisant (cinq variables ou plus) ;


 la forme des réponses aux questions (les items) doit être la même (par exemple, cinq choix de
réponse) ; dans le cas contraire, les variables doivent être réduites et normalisées ;
 on doit avoir dix fois plus de cas qu’il y a de variables impliquées ; par exemple, 10 variables
* 10 cas donnent une taille n égale à 100.

Les commandes avec le logiciel SPSS

Le traitement des données par la méthode de l’analyse factorielle en composantes principales est très
maniable avec le logiciel SPSS sous Windows. Ce logiciel, pour certaines étapes du traitement des
données, propose un grand choix de solutions possibles. Par exemple :
 L'extraction des facteurs : Principal components, Unweighted least squares, Generalized least
squares, Maximum likehood, Principal axis factoring, Alpha factoring et Image factoring.
 Méthodes de rotation : Varimax, Direct Oblimin, Quartimax, Equamax et Pro max.
 Calcul des facteurs, il existe trois méthodes : Regression, Bartlett et Anderson-Rubin.

La démarche à suivre sous SPSS


Aller dans Analyse > Réduction des dimensions > Analyse factorielle
On choisit les variables qui nous paraissent les mieux adaptées à l’analyse en les sélectionnant dans la
partie de droite puis en cliquant sur la flèche qui pointe vers la droite.
Cinq boites de dialogue d’options s’offrent maintenant à nous : 1. Descriptives… 2. Extraction… 3.
Rotation… 4. Scores… 5. Options… que nous allons maintenant examiner une à une.

1. « Descriptives… »
Dans « Correlation Matrix », cliquer sur « Coefficients » et « KMO and Bartlett’s test of
sphericity ».
2. « Extraction… »

Cliquer sur « Tracé d'effondrement » (Graphique des valeurs propres). Ne pas toucher aux autres
options.

3. « Rotation… »

Pour l’instant, il ne faut rien toucher dans « Méthode ». Choisir l’option « Varimax ».

Cocher l’option «Carte(s) factorielle(s)». Cette option permet d’avoir une représentation des différents
axes.
4. « Scores… »

Pour l’instant, il ne faut toucher à rien. L’option « Save as variables » (enregistrer dans des variables)
permettra d’attribuer à chaque individu ses coordonnées factorielles une fois l’analyse terminée.

5. « Options… »

Choisir l’option «Classement des variables par taille» dans Affichage des projections.

Analyse des résultats


Analyser les résultats d’une ACP, c’est répondre à trois questions :

1. Les données sont-elles factorisables ?

2. Combien de facteurs retenir ?

3. Comment interpréter les résultats ?


1. Les données sont-elles factorisables ?

Pour répondre à cette question, dans un premier temps, il convient d’observer la matrice des
corrélations (« Correlation Matrix »). Si plusieurs variables sont corrélées (> 0.5), la factorisation est
possible. Si non, la factorisation n’a pas de sens et n’est donc pas conseillée.

Dans notre exemple, plusieurs variables sont correllées entre elles :


Dans un deuxième temps, il faut observer l’indice de KMO (Kaiser-Meyer-Olkin) qui doit
tendre vers 1. si ce n’est pas le cas, la factorisation n’est pas conseillée. Pour juger de l’indice
de KMO, on peut utiliser l’échelle suivante :
• 0,50 et moins est très faible
• entre 0,60 et 0,70, c’est faible
• entre 0,70 et 0,80 c’est moyen
• entre 0,80 et 0,90 c’est bien
• et plus 0,9 c’est très bien.

Indice KMO et test de Bartlett


Indice de Kaiser-Meyer-Olkin pour la mesure de la qualité ,790
d'échantillonnage.
Test de sphéricité de Bartlett Khi-carré approx. 1309,479
ddl 28
Signification ,000

Enfin, on utilise le test de sphéricité de Bartlett. : si la signification (Sig.) tend vers 0.000,
c’est très significatif, inférieur à 0.05 significatif, entre 0.05 et 0.10 acceptable et au dessus de
0.10, on rejette.
Si l’ACP satisfait à au moins deux de ces trois conditions, on peut continuer.

2. Combien de facteurs retenir ?


Trois règles sont applicables :
• 1ere règle : la règle de Kaiser qui veut qu’on ne retienne que les facteurs aux valeurs
propres supérieures à 1.
• 2eme règle : on choisit le nombre d’axe en fonction de la restitution minimale
d’information que l’on souhaite. Par exemple, on veut que le modèle restitue au moins
80% de l’information.
Pour ces deux premières règles, on examine le tableau «Variance Total Expliquée ».
Variance totale expliquée
Valeurs propres initiales Sommes extraites du carré des chargements
Composante Total % de la variance % cumulé Total % de la variance % cumulé
1 5,573 69,666 69,666 5,573 69,666 69,666
2 1,472 18,398 88,064 1,472 18,398 88,064
3 ,340 4,252 92,316
4 ,255 3,187 95,503
5 ,174 2,181 97,684
6 ,138 1,727 99,411
7 ,030 ,375 99,786
8 ,017 ,214 100,000
Méthode d'extraction : Analyse en composantes principales.

3eme méthode : le test du coude. On observe le graphique des valeurs propres et on ne retient
que les valeurs qui se trouvent à gauche du point d’inflexion. Graphiquement, on part des
composants qui apportent le moins d’information (qui se trouvent à droite), on relie par une
droite les points presque alignés et on ne retient que les axes qui sont au dessus de cette ligne.
Dans notre exemple, nous ne retenons que les deux premiers axes.

3. Interprétation des résultats


C’est la phase la plus délicate de l’analyse. On donne un sens à un axe grâce à une
recherche lexicale (ou recherche de mots) à partir des coordonnées des variables et des
individus. Ce sont les éléments extrêmes qui concourent à l’élaboration des axes.
Matrice des composantesa
Composante
1 2
Quantité de graisses [g] ,962 -,058
Quantité de graisses ,951 -,191
saturées [g]
Quantité de protéines [g] ,919 -,184
Quantité de cholestérol [mg] ,918 -,278
Quantité de sodium [mg] ,905 -,123
Quantité de graisses ,853 -,003
recodée en 2 catégories
Quantité de fibres [g] ,376 ,879
Quantité de carbone [g] ,609 ,730

Dans notre exemple, ce sont les variables «Quantité de graisses [g]» et «Quantité de graisses
saturées [g] » qui concoure le plus à la construction de l’axe 1. Si la recherche lexicale à partir
des variables ne donne rien, il faut alors donner un sens à l’axe en s’appuyant là aussi aux
individus qui ont les coordonnées extrêmes.
Si la variance expliquée est trop faible, on peut choisir d’exclure certaines variables. Pour
choisir les variables à éliminer, on observe leur qualité de représentation : plus la valeur
associée à la ligne « Extraction » est faible, moins la variable explique la variance.

Qualités de représentation
Initiales Extraction
Quantité de graisses [g] 1,000 ,928
Quantité de graisses 1,000 ,728
recodée en 2 catégories
Quantité de graisses 1,000 ,940
saturées [g]
Quantité de cholestérol [mg] 1,000 ,920
Quantité de sodium [mg] 1,000 ,833
Quantité de carbone [g] 1,000 ,904
Quantité de fibres [g] 1,000 ,914
Quantité de protéines [g] 1,000 ,877
Méthode d'extraction : Analyse en composantes
principales.
La matrice "Rotation de la matrice des composantes" permet de déterminer quel sont les variables les
plus corrélées à chaque composante. Nous retenons celles qui ont des valeurs les plus éloignés de zero
dans leur directions (positive ou négative).

Rotation de la matrice des composantesa


Composante
1 2
Quantité de graisses ,959 ,145
saturées [g]
Quantité de cholestérol [mg] ,958 ,052
Quantité de protéines [g] ,926 ,140
Quantité de graisses [g] ,924 ,273
Quantité de sodium [mg] ,892 ,193
Quantité de graisses ,803 ,288
recodée en 2 catégories
Quantité de fibres [g] ,053 ,955
Quantité de carbone [g] ,324 ,894
Méthode d'extraction : Analyse en composantes
principales.
Méthode de rotation : Varimax avec normalisation
Kaiser.
a. Convergence de la rotation dans 3 itérations.

Vous aimerez peut-être aussi