Chapitre I Anlyse en Composantes Principales

Cours analyse des données ISETCharguia
CHAPITRE I. ANALYSE EN COMPOSANTES PRINCIPALES
1.INTRODUCTION
Dans bien d’études, on mesure sur un groupe d’individus (de taille n), un très grand nombre
de variables X1, X2, .... Xp. Ces variables sont la plupart du temps corrélées entre elles d'une
part, et elles expliquent à peu près également, les variations observées dans les données
d'autre part. Afin d'illustrer ces remarques, voici un nuage de données hypothétiques pour
seulement deux variables centrées réduites (figure .1).
Chaque point représente un individu mesuré quant à X1 et X2; de plus, 19 individus sur 20
dans cette population se retrouvent à l'intérieur de la ligne contour à 95%. Il y a évidemment
corrélation entre les deux variables, et la variation totale du système est partagée à peu près
également entre X1 et X2.
Figure 1 :
II.2.EXPOSE GENERAL :
L'analyse en composantes principales (due à Hotelling) permet d'obtenir de nouvelles

variables, appelées composantes, qui seront
a) non corrélées1, et
b) à variance ordonnée2.
Un petit nombre de ces composantes permettra d'expliquer la plus grande partie de la
variation observée: ce seront les composantes principales.
1
La partie de l’information déjà recueillie par le premier facteur ne sera pas reproduite par le deuxième facteur.
2
Le premier facteur explique le mieux la variabilité des données initiales, le second explique le mieux la
variabilité du résidu non pris en compte par le premier facteur…
1
Du point de vue géométrique, l'analyse on composantes effectue une rotation rigide des axes.
Dans la figure 2 (où p = 2), la première composante Y1, correspond au grand axe de l'ellipse,
tandis que son petit axe donne l'orientation de la seconde composante Y2.
Y2
Y1
Figure 2 :
On remarque que Y1 et Y2 sont des axes orthogonaux, ce qui signifie que les composantes
sont non corrélées; de plus, la variation sur Y1 est beaucoup plus forte que celle sur Y2: c'est
en ce sens que l'on dit des composantes sont hiérarchisées (ou à variance ordonnée).
Le problème de l’analyse en composantes principales peut aussi être envisagé d'un point de
vue analytique.
Les étapes de l’analyse en composantes principales
Les principales étapes de l’analyse en composantes principales sont :
1. la recherche des variables similaires mesurant un construit: mesure de la satisfaction, de
l’intérêt, etc. ;
2. le calcul de la matrice des corrélations entre les variables choisies ;
3. la diagonalisation de la matrice;
4. la matrice des saturations, qui permet de dégager les facteurs ;
5. la rotation, qui désigne les facteurs les plus importants selon leur degré d’inertie (de
variance expliquée) ;
6. la nomination des axes « facteurs » ;
7. la lecture des tests les plus importants ;
8. l’interprétation des résultats au plan des décisions et de l’action.
Alors on définit la première composante Y1, comme une combinaison linéaire des variables
centrées réduites3 X1 , X2 ,…, XP , c.à.d.
Y1=a1X1+a2X2+...+apXp telle que la variance (ou inertie) de Y1, soit maximale.
La deuxième composante Y2 est aussi une combinaison linéaire des mêmes variables :
Y2 = b1 X1+b2X2+...+bpXp telle que Y2 possède la variance maximale parmi toutes les
combinaisons linéaires qui ne sont pas corrélées avec Y 1. Il en est ainsi pour les autres
composantes Y3, Y4, … Yp, chacune d'elles ayant variance maximale parmi toutes les
3
Il est le plus souvent nécessaire de centrer et réduire les données si ces derniers ne sont pas
homogènes afin d’éviter les erreurs d’interprétation de l’analyse.
2
combinaisons linéaires de X1 , X2,…., Xp qui ne sont pas corrélées avec les composantes
précédentes.
Soit R la matrice des corrélations des variables originales. La solution de l'équation
caractéristique R − I = 0 permet d'obtenir dans un premier temps les racines propres
de R : 1  2  ....   p et les vecteurs propres correspondants.
Ce sont précisément les éléments de ces vecteurs propres qui fournissent les pondérations a 1,
a2 ,… ap , bl, b2, ..., bp, etc. à être attribuées aux variables Xi, pour constituer ces combinaisons
linéaires appelées composantes. De plus, si les vecteurs propres sont normés à l'unité
(longueur du vecteur = 1), on aura les deux résultats intéressants suivants:
a) Var (Yi) = i, i = 1 , 2, ..., p,
c.à.d. que la variance de la i-ème composante est la i-ème racine propre de R,
p
b) 
i =1
i = p 4ce qui veut dire que la somme des variances des composantes
est égale à la somme des variances des p variables originales centrées réduites.
Il est d'usage de calculer les statistiques suivantes:
1 1 + 2 1 + 2 + 3
, , , etc. qui indiquent le pourcentage de variation totale (p)
p p p
expliqué par la première composante, par les 2 premières composantes, etc.
II.3.PRATIQUE DE L’ACP
Pour mener une ACP, il faut au préalable être en mesure de répondre à trois questions :
1. Les données sont-elles factorisables ?
2. Combien de facteurs retenir ?
3. Comment interpréter les résultats ?
II.3.1. Les données sont-elles factorisables ?
Pour répondre à cette question, dans un premier temps, il convient d’observer la matrice des
corrélations. Si plusieurs variables sont corrélées (> 0.5), la factorisation est possible. Si non,
la factorisation n’a pas de sens et n’est donc pas conseillée. Dans un deuxième temps, il faut
observer l’indice de KMO5 (Kaiser-Meyer-Olkin) qui doit tendre vers 1. Si ce n’est pas le cas,
la factorisation n’est pas conseillée.
Pour juger de l’indice de KMO, on peut utiliser l’échelle suivante :
• moins de 0,50 : l’indice est misérable.
• entre 0,50 et 0,59 : l’indice est au seuil limite.
• entre 0,60 et 0,69 : l’indice est faible.
• entre 0,70 et 0,79 : l’indice est moyen.
• entre 0,80 et 0,89 : l’indice est bon.
• plus de 0,9 : l’indice est excellent.
Enfin, on utilise le test de sphéricité de Bartlett. Si la signification (Sig.) :
4
: La trace de la matrice des variances covariances
5
Voir guide statistique
3
• tend vers 0.000, c’est très significatif.

• inférieur à 0.05 significatif.
• entre 0.05 et 0.10 acceptable.
• Au dessus de 0.10, on rejette.
II.3.2.Combien de facteurs faut-il retenir ?
L’objectif objectif d’une ACP étant la réduction du nombre de variables initiales, la
détermination du nombre d’axes à retenir est donc une étape très importante.
Il n’existe pas de critères définitifs permettant de se prononcer sur l’importance d’une valeur
propre ; il existe cependant un certain nombre de règles empiriques :
-Règle de Kaiser : une règle empirique due à Kaiser stipule qu'on ne doit retenir dans une
ACP normée que les axes (composantes principales) dont la valeur propre correspondante
est supérieure à l'unité i > 1.
-Test du coude (Scree test): cette règle consiste à retenir les facteurs dont la valeur propre
se situe avant la cassure du « coude » (le début de la pente faible). Cette règle retient souvent
moins d’axes que Kaiser.
- Restitution minimale d’information : on choisit le nombre d’axe en fonction de la
restitution minimale d’information que l’on souhaite. Par exemple, on veut que le modèle
restitue au moins 80% de l’information initiale.
Coude
II.3.3.La signification d’un axe est donnée

C’est la phase la plus délicate de l’analyse. On donne un sens à un axe grâce à une recherche
lexicale à partir des coordonnées des variables et des individus :
• Identifier les variables qui contribuent le plus à l‘axe (Éventuellement après rotation), en
positif et en négatif, sans contribuer aussi à d’autres axes.
• Si la recherche lexicale à partir des variables ne donne rien, il faut alors donner un sens à
l’axe en s’appuyant aux individus qui ont les coordonnées extrêmes.
Si la variance expliquée est trop faible, on peut choisir d’exclure certaines variables. Pour
choisir les variables à éliminer, on observe leur qualité de représentation (c'est-à-dire le % de
4
variance de la variable extraite par tous les facteurs retenus) : plus la valeur associée à la ligne
«Extraction » est faible, moins la variable explique la variance.
II.3.4.Interprétation des résultats

L’objectif rappelons le, est de faire une partition de la population en groupes homogènes et
différents les uns des autres et on essaie de comprendre les sources de leurs différences. Deux
graphiques sont générés : le graphique des variables et celui des individus.
Une variable est un vecteur (une flèche) qui part du centre et pointe vers la position de la
variable. Pour juger de la qualité de représentation d’une variable, il faut tenir compte du
positionnement de chaque variable sur chaque axe :
II.3.4.1.L’espace des variables et le cercle de corrélations (-1;+1)
6
- Plus la variable est proche du cercle, mieux elle est représentée.
- Plus la variable est proche du facteur, plus elle y contribue
- Une variable proche du centre est mal représentée dans cet espace.
- Si les variables sont toutes du même côté de l’axe, on parle d’Effet taille.
- S’il existe deux groupes de variables opposées : on parle d’Effet forme.
Les variables à éliminer sont donc les variables qui sont :

• Soit proches du centre sur l’ensemble des axes retenus.
• Soit au milieu d’un quart de cercle sur les axes retenus.
• Soit les variables qui forment un axe à elles toute seule.
Exemple :
• Est-ce que Q28 contribue plus au facteur 1 ou au facteur 2?
• Est-ce que Q27 est mieux représentée que Q28 ?
II3.4.2.Un espace des individus :

- Un point est dit bien représenté sur un axe ou un plan factoriel s’il est proche de sa
projection sur l’axe ou le plan. S’il est éloigné, on dit qu’il est mal représenté.
6
En ACP normée.
5
- L’Indicateur utilisé est l’angle formé entre le point et sa projection sur l’axe : au plus il est
proche de 90 degrés, au moins le point est bien représenté. Lorsque l’angle est proche de 0,
c'est-à-dire que l’individu est bien représenté, le cosinus est proche de 1. Dans le cas inverse,
l’angle est proche de 90° et le cosinus est proche de 0.
- On n’interprète pas la proximité Individu (point) x Variable (vecteur), car la position de la
variable correspond à un vecteur (dont l’origine est le centre). On peut par contre, interpréter
la projection des individus sur l’axe d’une variable.
L’examen des qualités de représentation permet de mettre en évidence des proximités
éventuelles que l’on n’a pas remarquées lors de l’interprétation des axes. Elle permet aussi de
repérer les points qui ne contribuent pas fortement à l’inertie de l’axe, mais qui sont bien
représentés par cet axe, c'est-à-dire qui présentent des caractéristiques propres à l’axe.
II.3.5.Quelques conseils pour l’utilisation de l’ACP :

La technique de l’ACP, doit être considérée surtout comme un guide pour l’exploration
préliminaire d’un ensemble complexe d’observations :
a) les notes en composantes principales, c.à.d. les scores des objets sur les axes factoriels
Y1 , Y2, .... Yr où r<p, peuvent être utilisés comme intrants dans une analyse de régression ou
une analyse discriminante; l'intérêt de cette démarche préliminaire à une analyse de régression
réside en particulier dans le fait que les composantes principales sont indépendantes (non
corrélées), ce qui élimine d'un seul coup les problèmes engendrés par la multicollinéarité des
variables originales.
b) l'examen des scores des objets sur les axes factoriels permet aussi de détecter des
données aberrantes (les sujets qui sont éloignés des autres sur chacun des axes factoriels).
Cette inspection permet de tempérer les résultats de l’analyse.
Pour terminer cette partie pratique, quelques mises en garde à l’utilisation d’une ACP:
a) La taille de l’échantillon observé devrait être, selon certains auteurs, dont M.G.
Kendall, 10 fois plus grand que le nombre variables à l'étude, c.à.d. qu'on devrait avoir (dans
la mesure du possible) n 10 p.
b) Il convient de repérer préalablement les données aberrantes ou manquantes et les

éliminer puisqu’elles risquent d’avoir un poids important dans l’analyse.
c) Pour minimiser l’effet des erreurs de mesure dans le cas d’un échantillon de taille
assez importante, faire un Test-Retest, c'est-à-dire :
▪ découper l’échantillon et faire deux fois l’analyse
▪ garder la structure commune observée dans les deux analyses
II.3.6.Un exercice pratique :
On mène une enquête auprès d’un échantillon réduit de 10 personnes, afin de connaitre le
degré de satisfaction par rapport à deux marques A et B. le système de natation adopté est le
suivant :
0 : indifférent
1 : satisfait
6
-1 : n’est pas satisfait

L’objectif de cette étude est double :
1. On voudrait chercher dans un premier temps une direction selon laquelle le
contraste entre les attitudes des individus soit maximum.
2. Essayer de comprendre dans un deuxième temps le sens de cette direction.
Le résultat de l’enquête est comme suit :
Réponse :
1. On cherche une droite Y= a1 X1+ a2 X2 Vecteur directeur
Chercher (a1 a2) tel que Var Y est maximum, c.à.d.
Var (a1X1+ a2X2) est maximum

Notons que : si (a1,a2) est une solution, (2a1,2a2 et aussi une solution. (Le vecteur directeur
peut se doubler et la variance augmente). C’est pour cette raison que le vecteur directeur doit
être unitaire, on doit alors imposer la contrainte a²1+ a²2=1
Soit :
Var x1= 11
Var x2= 22
Cov (x,y) = 12
Var x1=
Var x2=
Var y=
Cependant, les variables initiales sont centrées, on a donc :

=0
= 0 et par conséquent : = 0 (le centre de gravité des points passe par l’origine des axes).
7
Var y=
Ecriture matricielle :
X : vecteur directeur
Y=X U
Y’= Y’=U’X’, donc :
Var y=
On aura : Var y=
Avec : : M (la matrice de variances covariances)
M7=
Var y=
On calcule tout d’abord :
Var x1= 0.8

Var x2= 0.6
Cov (x,y) = - 0.2
On veut chercher les valeurs de a1 et a2 tel que
Soit maximum
Et le vecteur propre est un vecteur unitaire
a1(0.8a1-0.2a2) + a2(-0.2a1+0.6a2)=0.8a1²-0.2 a2a1-0.2 a1a2+0.6 a²2 = 0.8a1²-0.4a1a2+0.6 a²2

Et a²1+ a²2=1
Ceci revient à une maximisation sous contrainte :
Maximiser: f (a) = 0.8a1²-0.4a1a2+0.6 a²2 –λ (a²1+ a²2-1)
=0 1.6 a1-0.4a2–2 a1λ =0
7
Si les variables initiales sont centrées et réduites, la matrice considérée est la matrice de corrélation R ;
8
=0 -0.4a1 + 1.2 a2 –2 λ a2 =0
Ecriture matricielle : MU= U avec U

Les directions principales ne sont que celles des vecteurs propres de la matrice variance
covariances
Maintenant on cherche la valeur propre tel que le det (M – = 08
Det =0
(0.8- ) (0.6 )+ 0.2× 0.2=0

0.48 - 0.8 - 0.6 - 0.04 + =0
² - 1.4 + 0.44 = 0
1= 0.924
2=0.476
1 + 2== 0.924+0.476= 1.4 c’est la trace de la matrice

On remplace par ses valeurs dans le systéme I et on cherche les coordonnées du premier
vecteur propre
et a²1+ a²2=1
8
Appelé la diagonalisation de la matrice M
9
De même, on remplace par 0.476 dans le systéme Iet on cherche les coordonnées du
deuxiéme vecteur propre
2= 0.476
et a²1+ a²2=1
On peut vérifier que les 2 vecteurs propres sont perpendiculaires : ┴

On retient en premier lieu le vecteur propre , qui correspond à la valeur propre la
plus importante 1
La première composante principale : Y1= X1 - 0.52X2

La deuxième composante principale : Y2= X1 + 0.85X2
Calcul des taux d’inertie :
= = 0.66 ; le 1er axe restitue 66% de l’information initiale
= =0.34 ; le 2er axe restitue 34% de l’information initiale
1. Représentation graphique : remplacer dans les 2 équations de Y1 et Y2 les coordonnées

des individus par leur valeur pour X1 et X2.
2. Interprétation du graphique : Il faut essayer d’interpréter le sens de la direction de Y et

identifier éventuellement des typologies d’individus. On peut procéder à une identification
10
des individus selon des variables socio démographique (âge, sexe, région..), afin de pouvoir
connaitre l’origine de l’opposition entre les individus : (hommes, femmes), (jeunes, vieux)…
II.4.PROCEDURE SOUS SPSS

On veut évaluer la satisfaction des clients par rapport à l’offre d’une enseigne de grande
distribution. À partir d’un échantillon aléatoire de la clientèle, nous demandons aux personnes
choisies d’exprimer leur satisfaction par rapport aux variables suivantes:
1. Disponibilité des chariots
2. Largeur des allées
3. La Propreté du magasin
4. Mobiliers du magasin
5. Ambiance interne
6. Disponibilité du personnel
7. Conseil du vendeur
8. Sérieux du vendeur
9. Amabilité du vendeur
10. Orientation du vendeur
Pour chacune des questions, les réponses suivantes sont proposées :
1. très insatisfait
2. insatisfait
3. neutre
4. satisfait
5. Très satisfait
Le traitement des données par la méthode de l’analyse factorielle en composantes principales
est très maniable avec le logiciel SPSS sous Windows. Ce logiciel, pour certaines étapes du
traitement des données propose un grand choix de solutions possibles, nous procédons comme
suit :
Sélectionner : Analyse réduction des dimensions analyse factorielle
11
Sélectionner le type de
méthode de factorisation,
conserver « analyse en
composantes principales »
et sélectionner l’option
« graphique des valeurs
propres » appelé
également « graphique du
coude ».
12
Sélectionner toutes les

variables à factoriser, et
cliquer sur la flèche à droite.
Pour une lecture plus facile des tableaux

de résultats, on peut classer les variables
par ordre d’importance et cocher celles
qui n’expliquent pas les dimensions, pour
cela on sélectionne « options ».
Tout d’abord, on ne demande On clique sur option, et on demande la

pas une rotation des données. « carte factorielle » afin de représenter
graphiquement les différentes
variables par rapport aux composantes
qui seront extraites et calculées.
13
Statistiques Descriptives
Moyenne Ecart-type n analyse
Chariot 4,2225 ,65653 800
Allées 2,9888 1,14903 800
Le tableau présente les
Propreté 4,1275 ,93666 statistiques800
descriptives : la
Mobiliers 3,0963 1,07979 moyenne de800 la valeur la plus
Ambiance 3,1238 1,32500 800
élevée (4,22) correspond à
Disponibilité 3,3838 1,01008 la disponibilité
800 des chariots,
Conseil 2,4200 1,04999 la moyenne800de la
Sérieux 2,5388 1,04036 variable la 800
plus faible (2,57)
Amabilité 2,3775 1,13649 correspond800
à l’orientation.
Orientation 2,5700 1,25282 Le déterminant
800 de la matrice
est de 0,002146
Indice KMO9 et test de Bartlett Le Chi-2 du

Bartlett’s
Mesure de précision de l'échantillonnage de Kaiser- ,715 Test est
Meyer-Olkin. suffisamment
Test de sphéricité de Bartlett Khi-deux approximé 3387,249 grand avec
une
Indice de KMO= 0.715> 0.6 Ddl 45 signification
On admet que les variables Signification de ,000 quasi nulle :
sont factorisables Bartlett les variables
Le recours à l’ACP est
Méthode d’extraction: Analyse en composantes Principales sont
justifié Qualité de représentation suffisamment
Repérer les variables ayantcorrélées.
un
Initial Extraction
taux d’extraction (de variance)
Chariots 1,000 ,570 faible, en dessous de 60 %.
Allées 1,000 ,759 La qualité de présentation de la
Propreté 1,000 ,503 variable « ambiance » est de 0.858,
Mobiliers 1,000 ,679 cela veut dire que 85.8% de la
Ambiance 1,000 ,858 variance de la variable est prise en
disponibilité 1,000 ,393 compte par l’une des dimensions
Conseil 1,000 ,789
extraites. Par contre, la variable
Sérieux 1,000 ,739
Amabilité 1,000 ,766 disponibilité est mal représentée par
Orientation 1,000 ,668 les deux dimensions qui sont
extraites (0.393).
La règle du coude : le graphique des valeurs propres, nous indique le nombre d’axes à retenir.
On voit bien qu’il existe quatre points avant le « coude », donc on retient les quatre premiers
axes. Graphiquement, on relie par une droite les points presque alignés. Ces points
9
Indice de KMO= la somme des corrélations au carré par la somme des corrélations partielles au carré.
14
représentent les composantes qui apportent le moins d’information. On retient ensuite, les
axes qui sont au dessus de cette ligne.
La règle de Kaiser qui veut qu’on ne retienne que les facteurs aux valeurs propres supérieures
à 1, nous suggère un nombre d’axes à retenir égal à trois axes.
Variance expliquée totale

Comp Valeurs propres initiales Extraction Sommes des
osante carrés des facteurs retenus
Total % de la % Total % de la % cumulés
Variance cumulés Varian
ce
1 3,339 33,391 33,391 3,339 33,391 33,391
2 2,324 23,240 56,631 2,324 23,240 56,631
3 1,060 10,600 67,231 1,060 10,600 67,231
4 ,965 9,646 76,877
5 Le tableau
,658 présente
6,580les 383,456
dimensions Le modèle global
qui ,550 permettent de résumer explique à 67,231 %
6 5,496 88,952 de la satisfaction des
l’information. La première dimension
7 ,382permet 3,818
extraite 92,770
d’expliquer 33.391% clients: cela veut dire
8 ,323 3,234 96,004 La que 32,769% de la
de la variance du phénomène.
satisfaction des clients
9 deuxième
,210 dimension
2,105 explique
98,109 reste inexpliquée par
10 23.24%de
,189 la variance
1,891 et100,000
la troisième les variables choisies.
dimension n’explique que 10.6% de
la variance.
Matrice des composantes Avec cette structure factorielle, les mangers de cette
enseigne possèdent des éléments pour améliorer le
Repérer les variables ayant une service offert.
forte contribution (positive ou
négative) sur chaque
composante. Ces variables
donneront un sens aux
composantes.
Composantes
Les colonnes correspondent à
chacune des dimensions
1 2 3
extraites, contiennent des
Conseil ,879 -,115 ,044
coefficients de saturation, qui
Sérieux ,846 -,155 -,019
Amabilité ,839 -,198 -,150 s’interprètent comme les
Orientation ,781 -,089 ,223 coefficients de corrélation.
Disponibilité ,613 -,109 ,073 La dimension 1 est fortement
Allées ,177 ,839 ,153
corrélée avec les variables:
Mobiliers ,291 ,771 ,003
Chariot ,165 ,649 -,349 conseil ; sérieux et amabilité des
Propreté ,117 ,634 -,296 employés, la dimension 2 avec
Ambiance -,059 ,327 ,865 les allées et le mobilier du point
de vente et la dimension 3 avec
La 1ere composante regroupe les variables qui les facteurs d’ambiance du point
sont
Lelesdiagramme
plus importantesdes
danscomposantes
la satisfaction : de vente.
des clients.
dans la satisfaction des clients

C’est une représentation graphique de la matrice des composantes.
15
L’étude graphique ne
doit porter que sur les
variables se trouvant
proches du cercle des
corrélations, c’est-à-dire
celles qui sont
suffisamment
représentées.
Des variables proches
représentent des
variables fortement
corrélées.
Des variables « à angle
droit » représentent des
variables non corrélées.
Les variables proches
des axes permettent de
donner un sens aux
composantes, en mettant
éventuellement en valeur
les oppositions.
Matrice de transformation des composantes
1 2 3 Rotation des
Component composantes
1 ,978 ,207 -,020 par rapport aux
2 -,193 ,938 ,290 composantes
3 ,079 -,279 ,957 principales
théoriques.
Représentation graphique des individus
La matrice des composantes permet également de calculer les coordonnées pour représenter
graphiquement les individus par rapport aux dimensions extraites, dans le but de comparer la
position de chacune des observations.
Pour tracer le graphique des individus, on recommence l’analyse factorielle et on clique sur
facteurs ensuite sur enregistrer dans des variables.
Trois variables sont crées dans

l’éditeur de données qui donnent
les scores factoriels c’est à dire les
coordonnées de chaque individu par
rapport aux trois dimensions
retenues à partir de la matrice des
composantes.
16
1. Sélectionner: graphes ;
boite de dialogue ancienne
version ; diagramme de
dispersion ; définir.
Faire glisser la
variable REGR
Factor Score 1 vers
l’axe X et REGR
Factor 2 vers l’axe Y.
Afin d’afficher sur le graphique
une identification des individus, Cliquer sur

faire glisser une variable “afficher le
catégorielle (sexe, région, nom des diagramme avec
individus..) vers “étiqueter les les étiquettes”
17
observations par”. .pour les faire
apparaitre.
La représentation graphique des observations par rapport à deux dimensions extraites:
Cliquer deux fois sur
le graphique: une
fenêtre d’édition de
graphiques s’ouvre
Sélectionner la
commande graphique
ligne de référence.
L’origine des axes (0, 0)
correspond à la moyenne
sur l’échantillon. La
signification des axes est
celle faite au niveau de la
matrice des composantes.
Il convient de mettre en Cliquer Ok pour
valeur : échelle X;
– les groupes d’individus Ajouter 0;
ayant un comportement Ensuite Ok.
identique. Répéter la même
– les individus isolés. opération pour
– la position relative des l’échelle Y.
individus par rapport aux
axes.
II.5.Amélioration de l’ACP
Amélioration du KMO
Si l’indice KMO est trop faible (< 0,5), il convient dés lors de supprimer la (ou les) variables
ayant le plus d’influence sur les corrélations partielles. Pour cela, on demande le calcul de la
matrice des corrélations « anti-image ». La diagonale de cette matrice correspond au KMO
pour chaque variable. Il convient donc de supprimer la variable ayant le KMO le plus faible.
ACP avec rotation
Lorsque la matrice des composantes ne permet pas de discerner clairement quelle variable
compose quelle dimension, on a recours à une rotation des axes pour modifier les
coordonnées des variables par rapport aux axes et de faciliter l'interprétation des facteurs.
Signalons l'existence de diverses méthodes de rotation dans le logiciel : les rotations
orthogonales : Varimax, Equimax, Quartimax) et les rotations obliques (Oblimin).
18
VARIMAX : c’est le critère qui maximise la corrélation

(saturation) avec un axe unique et réduit la corrélation avec les
autres axes. Il est recommandé de l’utiliser lorsque les nombre
de variables initiales n’est pas important.
QUARTIMAX : c’est le critère qui réduit le nombre de facteurs
permettant de reconstituer une variable.
OBLIMIN : supposent que les facteurs sont reliés entre eux.
EQUAMAX : combinaison de Varimax et Quartimax
Notons que, la rotation modifie le placement des axes dans l’espace par rapport aux variables
sans modifier l’emplacement de ces derniéres. Ce qui permet de calculer une nouvelle matrice
de composantes qui facilite l’interprétation des axes.
matrice des Composante après

rotationa
Component
Les colonnes correspondent à chacune des
dimensions extraites, contiennent des
1 2 3 coefficients de saturation, qui
Conseil ,886 ,062 -,009 s’interprètent comme les coefficients de
corrélation.
Sérieux ,855 ,035 -,081
La dimension 1 est fortement corrélée
Amabilité ,847 ,030 -,218 avec les variables: conseil ; sérieux et
Orientation ,799 ,016 ,171 amabilité et orientation des employés, la

dimension 2 avec le mobilier, les allées,
Disponibilité ,626 ,004 ,026 la disponibilité des chariots et la propreté
Mobiliers ,137 ,782 ,220 du point de vente et la dimension 3 avec
les facteurs d’ambiance du point de vente.
Allées ,023 ,780 ,386
La dimension 1 : Qualité du service des
Chariots ,009 ,740 -,149 employés du libre service.
Propreté -,031 ,701 -,102 La dimension 2 : le cadre interne du point
Ambiance -,052 ,053 ,923 de vente.
La dimension 3 : les facteurs d’ambiance
19
20

Chapitre I Anlyse en Composantes Principales

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Chapitre I Anlyse en Composantes Principales

Transféré par

Droits d'auteur :

Formats disponibles

Cours analyse des données ISETCharguia

CHAPITRE I. ANALYSE EN COMPOSANTES PRINCIPALES

L'analyse en composantes principales (due à Hotelling) permet d'obtenir de nouvelles

• tend vers 0.000, c’est très significatif.

II.3.3.La signification d’un axe est donnée

II.3.4.Interprétation des résultats

Les variables à éliminer sont donc les variables qui sont :

II3.4.2.Un espace des individus :

II.3.5.Quelques conseils pour l’utilisation de l’ACP :

b) Il convient de repérer préalablement les données aberrantes ou manquantes et les

-1 : n’est pas satisfait

Chercher (a1 a2) tel que Var Y est maximum, c.à.d.

Var (a1X1+ a2X2) est maximum

Cependant, les variables initiales sont centrées, on a donc :

Y’= Y’=U’X’, donc :

Avec : : M (la matrice de variances covariances)

Var x1= 0.8

On veut chercher les valeurs de a1 et a2 tel que

Et le vecteur propre est un vecteur unitaire

a1(0.8a1-0.2a2) + a2(-0.2a1+0.6a2)=0.8a1²-0.2 a2a1-0.2 a1a2+0.6 a²2 = 0.8a1²-0.4a1a2+0.6 a²2

Ceci revient à une maximisation sous contrainte :

Maximiser: f (a) = 0.8a1²-0.4a1a2+0.6 a²2 –λ (a²1+ a²2-1)

=0 1.6 a1-0.4a2–2 a1λ =0

Ecriture matricielle : MU= U avec U

Maintenant on cherche la valeur propre tel que le det (M – = 08

(0.8- ) (0.6 )+ 0.2× 0.2=0

1 + 2== 0.924+0.476= 1.4 c’est la trace de la matrice

On peut vérifier que les 2 vecteurs propres sont perpendiculaires : ┴

La première composante principale : Y1= X1 - 0.52X2

Calcul des taux d’inertie :

= = 0.66 ; le 1er axe restitue 66% de l’information initiale

= =0.34 ; le 2er axe restitue 34% de l’information initiale

1. Représentation graphique : remplacer dans les 2 équations de Y1 et Y2 les coordonnées

2. Interprétation du graphique : Il faut essayer d’interpréter le sens de la direction de Y et

II.4.PROCEDURE SOUS SPSS

Sélectionner toutes les

Pour une lecture plus facile des tableaux

Tout d’abord, on ne demande On clique sur option, et on demande la

Indice KMO9 et test de Bartlett Le Chi-2 du

Variance expliquée totale

dans la satisfaction des clients

Trois variables sont crées dans

Factor Score 1 vers

Factor 2 vers l’axe Y.

Afin d’afficher sur le graphique

une identification des individus, Cliquer sur

La représentation graphique des observations par rapport à deux dimensions extraites:

Cliquer deux fois sur

VARIMAX : c’est le critère qui maximise la corrélation

EQUAMAX : combinaison de Varimax et Quartimax

matrice des Composante après

Orientation ,799 ,016 ,171 amabilité et orientation des employés, la

Vous aimerez peut-être aussi