Académique Documents
Professionnel Documents
Culture Documents
Chapitre 3 Analyse en Composantes Principales - ACP
Chapitre 3 Analyse en Composantes Principales - ACP
Introduction
L’analyse en composantes principales s’intègre dans le cadre des analyses factorielles
exploratoires (AFE). Cette analyse multivariée est utile dans la mesure où elle résume les
informations en partant d’un ensemble de variables directement observables pour générer à
postériori quelques composantes principales synthétiques. Ainsi, ce chapitre s’attache à
présenter les principes de cette analyse, ses objectifs, ses étapes et les conditions de son
opérationnalisation (Paragraphes 1, 2, 3, 4) avant d’exposer un exemple illustratif d’une ACP
avec des démonstrations sur le logiciel SPSS (Paragraphe 5).
Analyse
Variables issues de l’enquête factorielle Nouvelles variables = facteurs
(Questions, recodages, (Moins nombreuses et
indicateurs synthétiques) indépendantes)
1
Cours : Analyse des données 2ème LNSG
-Le nombre de variables nouvelles (ou synthétiques) est inférieur aux variables initiales et
donc ces nouvelles variables permettent une meilleure lecture du tableau des données.
-Les nouvelles variables sont des combinaisons linéaires. L’analyse génère autant de
composantes que de variables initiales. Chaque composante créée est composée d’une part de
l’information de l’ensemble des variables initiales, mais avec des proportions différentes.
Sachant que :
Ci = a1V1 + a2V2 + a3V3 + … + akVk
Avec : a1, a2, ak = Coefficients de pondération des variables initiales.
V1, V2, Vk = Variables initiales. Ci : Composante i.
-Les nouvelles composantes retenues sont sélectionnées en se basant sur la quantité
d’informations qu’elles résument.
Ainsi, l’analyse en composantes principales permet de réduire l’information en transformant
les variables descriptives (directement observables) en facteurs synthétiques, comme elle
permet de positionner les individus par rapport à ces composantes principales (Védrine, 1991)
en illustrant graphiquement les interrelations. On présente ci-dessous un aperçu sur ce tableau
des données :
Tableau 1 : Exemple illustratif d’un tableau (individus/variables quantitatives) de l’ACP
Variables
Variable 1 Variable 2 … Variable n
Individus
Individu 1
Individu 2
…
Individu m
Ce tableau permet de détecter des similarités et des différences entre les individus d’une part
et entre les variables d’autres part (en identifiant les variables similaires et les variables
différentes).
La relation entre les variables observables est mesurée par le coefficient de corrélation qui
varie entre 0 et 1 (avec 0 : absence de relation entre deux variables directement observables et
1 corrélation parfaite entre ces variables). A partir de l’étude de la relation entre les variables,
on cherche à identifier des variables synthétiques (appelées aussi facteurs ou variables
latentes) en se basant sur l’ensemble des données.
Les individus et les variables peuvent être représentés par un nuage de points
multidimensionnel. L’ACP permet de résumer les données (centrées et réduites), à travers la
simplification du nuage de point des individus en se conformant au maximum au nuage de
points d’origine. Une meilleure représentation graphique des individus consiste à maximiser
2
Cours : Analyse des données 2ème LNSG
la dispersion entre les points de ce nuage. L’inertie sera alors une notion importante
permettant de spécifier la qualité du nuage étudié. Ainsi, l’identification des axes (ou facteurs)
se base sur la maximisation de l’inertie. Notons que l’inertie totale est égale à la somme des
valeurs propres ( I = å l a ) et que la contribution de chaque axe principal à l’inertie totale est
a Îa
3
Cours : Analyse des données 2ème LNSG
1. La recherche des variables similaires ; celles-ci doivent faire partie d’un même ensemble :
mesure de la satisfaction, de l’intérêt, etc.
2. La détermination de la matrice des corrélations entre les variables choisies.
3. La diagonalisation de la matrice D1, D2, … Dn.
4. La présentation de la matrice des saturations, qui permet de dégager les facteurs.
5. La rotation, qui désigne les facteurs les plus importants selon leur degré d’inertie (de
variance expliquée).
6. La définition « littéraire » des facteurs.
7. La lecture des tests les plus importants.
8. L’interprétation des résultats au plan des décisions et de l’action.
matrice identité (la diagonale de cette matrice est constituée de 1 avec une valeur de 0 de part
et d’autre de la diagonale). Si l’hypothèse nulle est adoptée, alors la matrice de corrélations
dispose d’une structure aléatoire. Au contraire, le rejet de cette hypothèse indique la
possibilité de recourir à une ACP sur la base de la matrice des corrélations.
- L’indice KMO ou MSA (Measure of Sampling Adequacy) indique dans quelle
proportion les variables retenues forment un ensemble cohérent et mesurent de manière
adéquate un concept. Cet indicateur s’appuie sur la moyenne des coefficients de corrélation
situés dans la diagonale de la matrice anti-image. Il permet de vérifier si les corrélations
partielles entre les variables sont faibles. Sa formule se présente comme suit1 :
åår 2
ij
KMO = i ¹1
år +åa
i¹ j
2
ij
i¹ j
2
ij
1
Norusis M., (1992), SPSS for Windows Professional Statistics, Chicago, SPSS.
2
Yergeau, E. et Poirier, M. (2013). SPSS à l'UdeS.,
http://spss.espaceweb.usherbrooke.ca/pages/interdependance/analyse-en-composantes-principales.php.
5
Cours : Analyse des données 2ème LNSG
Figure 2: Test de Cattell appliqué à l’exemple des opinions des consommateurs à l’égard
des courses en magasin (graphique des valeurs propres)
- Le critère de Kaiser, l’«eigenvalue», ou règle des valeurs propres > 1: Une valeur propre
représente la quantité d’informations capturée par un facteur. Un facteur qui aurait une valeur
propre inférieure à 1 représenterait moins d’informations qu’un simple item.
6
Cours : Analyse des données 2ème LNSG
groupes de variables fortement liées les unes aux autres. La rotation fait en sorte que chaque
variable observable ne soit fortement liée qu’à un seul facteur.
Il existe plusieurs méthodes de rotation parmi lesquelles on distingue :
• Varimax : C’est une rotation orthogonale qui minimise le nombre de variables ayant de
fortes corrélations sur chaque facteur. Elle simplifie l’interprétation des facteurs.
• Oblimin direct : Il s’agit d’une rotation oblique, c’est-à-dire dans laquelle les axes se
positionnent en fonction des items et ne sont donc pas orthogonaux.
• Quartimax : Cette méthode minimise le nombre des facteurs requis pour expliquer chaque
variable. Elle simplifie l’interprétation des variables observées.
• Equamax : C’est une méthode de rotation qui minimise à la fois le nombre de variables qui
pèsent fortement sur un facteur et le nombre de facteurs requis pour expliquer une variable
(combinaison des méthodes Varimax et Quartimax).
NB : Lorsque les axes constituent un angle de 90 degrés, on parle de rotation orthogonale.
7
Cours : Analyse des données 2ème LNSG
8
Cours : Analyse des données 2ème LNSG
La moyenne : x = åm
iÎI
i ´ xi
L’écart type : s x = åm
iÎI
i ´ ( xi - x ) 2
La matrice de corrélation donne un aperçu sur la relation entre les différents indicateurs de
mesures de la qualité perçue utilisés dans l’étude. « Dans l'ACP normée (i.e. sur données
centrées réduites), la matrice des corrélations constitue l'opérateur d'inertie qui sera
diagonalisé (i.e. extraction des valeurs propres) » (Desbois, 1998).
a
Tableau 5 : Matrice de corrélation
Entretien et
-,064 ,450 ,104 -,026 1,000 -,573
réparation
L’indice KMO (Kaiser-Meyer-Olkin) est l’un des indicateurs qui permet de s’assurer de la
pertinence des résultats de l’ACP. Il est valide lorsqu’il est supérieur ou égal à 0,5. Dans cet
exemple, l’indice KMO est de 0,576 et donc il permet d’aboutir à une solution factorielle
acceptable (bien que sa valeur est au seuil limite). Le test de sphéricité de Bartlett contribue à
son tour à la validation des résultats de l’ACP. Dans ce cas, ce test est significatif au risque de
5% et montre que la matrice de corrélation diffère de la matrice identité.
9
Cours : Analyse des données 2ème LNSG
Le tableau 7 présente la qualité de représentation des indicateurs de la qualité perçue sur les
deux facteurs principaux retenus par l’ACP. Le total des extractions reflète, dans notre cas,
l’inertie des deux premières composantes. Un indicateur est retenu (et non purifié de
l’analyse) lorsque la valeur de l’extraction est supérieure ou égale à 0,5. D’après cet exemple,
tous les indicateurs de la qualité perçue disposent d’une bonne qualité de représentation.
Initial Extraction
Le tableau 8 indique la contribution de chaque axe principal à l’inertie totale. Selon le critère
de Kaiser, les deux premiers axes sont retenus étant donné que la valeur propre de chacun des
axes est supérieure à 1. Le pourcentage cumulé de l’inertie indique que les facteurs retenus
restituent 72,141% de l’information totale.
Tableau 8 : Variance totale expliquée
Composante Extraction Sommes des carrés des Somme des carrés des facteurs
Valeurs propres initiales facteurs retenus retenus pour la rotation
% de la % % de la % de la %
10
Cours : Analyse des données 2ème LNSG
Le graphique des valeurs propres (Scree Test) permet également de choisir le nombre d’axes à
adopter dans l’analyse. D’après ce graphique, il est pertinent de choisir uniquement les deux
premiers axes.
Figure 2 : Graphique des valeurs propres
Les coordonnées factorielles des variables du tableau sont indiquées par la matrice des
composantes (matrice de corrélations entre les variables et les facteurs 1 et 2). Il est alors
possible d’identifier de quelles variables observables se compose un facteur. Pour une
meilleure illustration des résultats, la matrice des composantes après rotation Varimax donne
des résultats plus pertinents en matière d’affectation des indicateurs aux axes.
a
Tableau 9 : Matrice des composantes Tableau 10 : Matrice des composantes après rotationa
Composante Composante
1 2 1 2
11
Cours : Analyse des données 2ème LNSG
D’après le tableau 10, il est évident que la puissance, les accessoires fournis ainsi que le
design du robot multifonctions contribuent à la constitution de l’axe 1. Ce facteur exprime la
qualité de produit. Alors que l’axe 2 est représenté par les variables observables entretien et
réparation ainsi que les réclamations. Ce facteur exprime la qualité des services. Bien que la
rétention d’un indicateur nécessite une valeur supérieure ou égale à 0,5 on remarque que la
variable économie d’énergie est présente dans les deux axes en même temps avec une valeur
supérieure à 0,5. Dans cette condition, il serait pertinent d’éliminer cet indicateur de l’analyse.
La figure 3 présente le diagramme de composantes dans un espace bidimensionnel après une
rotation Varimax.
Le diagramme montre bien que les variables de la qualité Q01 (Design), Q03 (Puissance) et
Q04 (Accessoires fournis) représentent bien la composante 1 qui exprime la qualité perçue du
produit sachant que Q3 et Q4 sont les plus représentés sur cet axe (très proches de 1). De plus,
l’évaluation de la qualité du robot multifonctions sur la base de ces critères évolue dans le
même sens par les répondants. Par contre, l’axe 2 qui exprime la qualité perçue des services
oppose Q05 (Entretien et réparation) de Q06 (Réclamations). C'est-à-dire que les individus
12
Cours : Analyse des données 2ème LNSG
qui ont une perception favorable de la qualité de l’entretien et réparation sont ceux qui ont une
mauvaise perception de la qualité des réclamations (et vice versa).
Finalement, le tableau 11 se rapporte aux résultats des individus. Selon Desbois (1998), la
matrice des vecteurs propres (coordonnées des vecteurs propres dans la base des variables
d'origine) peut être obtenue en se basant sur la matrice des coefficients factoriels.
Tableau 11 : Matrice des coefficients des
coordonnées des composantes
Composante
1 2
Le calcul basé sur des données centrées et réduites de la base (tableau 3), et pondérées par les
données de la matrice des coefficients des coordonnées des composantes, donnera les valeurs
de Fact_1 et Fact_2 qui seront présentées dans la base de données SPSS.
Conclusion
Le présent chapitre a permis de montrer l’importance de l’ACP dans la transformation des
données brutes en développant des facteurs synthétiques. En revanche, il importe de noter
aussi que l’ACP peut être un point de départ vers d’autres analyses ultérieures. Par exemple,
les coordonnées factorielles issues des ACP peuvent servir afin de réaliser des régressions
linéaires. De plus, l’ACP s’intègre dans le cadre des AFE (Analyses factorielles exploratoires)
et permet de purifier les données afin de réaliser à postériori des analyses confirmatoires. Il
est à noter que dans certaines conditions pratiques, des tests de fiabilité peuvent être utilisés
afin de s’assurer de la cohérence des indicateurs de mesures (les variables directement
observables) qui constituent les facteurs générés par une ACP.
13
Cours : Analyse des données 2ème LNSG
Bibliographie
Carricano, M., Poujol, F., (2009), Analyse de données avec SPSS, Pearson Education, France.
Desbois D., (1998), « Une introduction à l'Analyse en Composantes Principales avec SPSS
pour Windows », Modulad, N°20, pp 57-74.
Evrard Y., Pras B., Roux E., (2003), Market Etudes et recherches en Marketing, 3ème édition,
DUNOD, PARIS.
Ghewy P., (2010), Guide pratique de l’analyse de données avec applications sous IBM SPSS
Statistics et EXCEL. Questionnez, analysez… et décidez !, De Boeck, Belgique.
Jolibert A., Jourdan P., (2006), Marketing Research : Méthodes de recherche et études en
marketing, Dunod, Paris.
Martin O., (2009), L’enquête et ses méthodes : L’analyse de données quantitatives, 2ème
édition, Armand Colin, Paris.
McDonald R.P., (1999), Test theory: A unified treatment, Mahwah, Laurence Erlbaum.
Norusis M., (1992), SPSS for Windows Professional Statistics, Chicago, SPSS.
Stafford J., Bodson P., (2006), L’analyse multivariée avec SPSS, Presses de l’Université du
Québec, Canada.
14
Cours : Analyse des données 2ème LNSG
15