Académique Documents
Professionnel Documents
Culture Documents
1.INTRODUCTION
Dans bien d’études, on mesure sur un groupe d’individus (de taille n), un très grand nombre
de variables X1, X2, .... Xp. Ces variables sont la plupart du temps corrélées entre elles d'une
part, et elles expliquent à peu près également, les variations observées dans les données
d'autre part. Afin d'illustrer ces remarques, voici un nuage de données hypothétiques pour
seulement deux variables centrées réduites (figure .1).
Chaque point représente un individu mesuré quant à X1 et X2; de plus, 19 individus sur 20
dans cette population se retrouvent à l'intérieur de la ligne contour à 95%. Il y a évidemment
corrélation entre les deux variables, et la variation totale du système est partagée à peu près
également entre X1 et X2.
Figure 1 :
II.2.EXPOSE GENERAL :
1
La partie de l’information déjà recueillie par le premier facteur ne sera pas reproduite par le deuxième facteur.
2
Le premier facteur explique le mieux la variabilité des données initiales, le second explique le mieux la
variabilité du résidu non pris en compte par le premier facteur…
1
Cours analyse des données ISETCharguia
Du point de vue géométrique, l'analyse on composantes effectue une rotation rigide des axes.
Dans la figure 2 (où p = 2), la première composante Y1, correspond au grand axe de l'ellipse,
tandis que son petit axe donne l'orientation de la seconde composante Y2.
Y2
Y1
Figure 2 :
On remarque que Y1 et Y2 sont des axes orthogonaux, ce qui signifie que les composantes
sont non corrélées; de plus, la variation sur Y1 est beaucoup plus forte que celle sur Y2: c'est
en ce sens que l'on dit des composantes sont hiérarchisées (ou à variance ordonnée).
Le problème de l’analyse en composantes principales peut aussi être envisagé d'un point de
vue analytique.
Les étapes de l’analyse en composantes principales
Les principales étapes de l’analyse en composantes principales sont :
1. la recherche des variables similaires mesurant un construit: mesure de la satisfaction, de
l’intérêt, etc. ;
2. le calcul de la matrice des corrélations entre les variables choisies ;
3. la diagonalisation de la matrice;
4. la matrice des saturations, qui permet de dégager les facteurs ;
5. la rotation, qui désigne les facteurs les plus importants selon leur degré d’inertie (de
variance expliquée) ;
6. la nomination des axes « facteurs » ;
7. la lecture des tests les plus importants ;
8. l’interprétation des résultats au plan des décisions et de l’action.
Alors on définit la première composante Y1, comme une combinaison linéaire des variables
centrées réduites3 X1 , X2 ,…, XP , c.à.d.
Y1=a1X1+a2X2+...+apXp telle que la variance (ou inertie) de Y1, soit maximale.
La deuxième composante Y2 est aussi une combinaison linéaire des mêmes variables :
Y2 = b1 X1+b2X2+...+bpXp telle que Y2 possède la variance maximale parmi toutes les
combinaisons linéaires qui ne sont pas corrélées avec Y 1. Il en est ainsi pour les autres
composantes Y3, Y4, … Yp, chacune d'elles ayant variance maximale parmi toutes les
3
Il est le plus souvent nécessaire de centrer et réduire les données si ces derniers ne sont pas
homogènes afin d’éviter les erreurs d’interprétation de l’analyse.
2
Cours analyse des données ISETCharguia
combinaisons linéaires de X1 , X2,…., Xp qui ne sont pas corrélées avec les composantes
précédentes.
Soit R la matrice des corrélations des variables originales. La solution de l'équation
caractéristique R − I = 0 permet d'obtenir dans un premier temps les racines propres
de R : 1 2 .... p et les vecteurs propres correspondants.
Ce sont précisément les éléments de ces vecteurs propres qui fournissent les pondérations a 1,
a2 ,… ap , bl, b2, ..., bp, etc. à être attribuées aux variables Xi, pour constituer ces combinaisons
linéaires appelées composantes. De plus, si les vecteurs propres sont normés à l'unité
(longueur du vecteur = 1), on aura les deux résultats intéressants suivants:
a) Var (Yi) = i, i = 1 , 2, ..., p,
c.à.d. que la variance de la i-ème composante est la i-ème racine propre de R,
p
b)
i =1
i = p 4ce qui veut dire que la somme des variances des composantes
est égale à la somme des variances des p variables originales centrées réduites.
Il est d'usage de calculer les statistiques suivantes:
1 1 + 2 1 + 2 + 3
, , , etc. qui indiquent le pourcentage de variation totale (p)
p p p
expliqué par la première composante, par les 2 premières composantes, etc.
II.3.PRATIQUE DE L’ACP
Pour mener une ACP, il faut au préalable être en mesure de répondre à trois questions :
1. Les données sont-elles factorisables ?
2. Combien de facteurs retenir ?
3. Comment interpréter les résultats ?
II.3.1. Les données sont-elles factorisables ?
Pour répondre à cette question, dans un premier temps, il convient d’observer la matrice des
corrélations. Si plusieurs variables sont corrélées (> 0.5), la factorisation est possible. Si non,
la factorisation n’a pas de sens et n’est donc pas conseillée. Dans un deuxième temps, il faut
observer l’indice de KMO5 (Kaiser-Meyer-Olkin) qui doit tendre vers 1. Si ce n’est pas le cas,
la factorisation n’est pas conseillée.
Pour juger de l’indice de KMO, on peut utiliser l’échelle suivante :
• moins de 0,50 : l’indice est misérable.
• entre 0,50 et 0,59 : l’indice est au seuil limite.
• entre 0,60 et 0,69 : l’indice est faible.
• entre 0,70 et 0,79 : l’indice est moyen.
• entre 0,80 et 0,89 : l’indice est bon.
• plus de 0,9 : l’indice est excellent.
Enfin, on utilise le test de sphéricité de Bartlett. Si la signification (Sig.) :
4
: La trace de la matrice des variances covariances
5
Voir guide statistique
3
Cours analyse des données ISETCharguia
Coude
• Si la recherche lexicale à partir des variables ne donne rien, il faut alors donner un sens à
l’axe en s’appuyant aux individus qui ont les coordonnées extrêmes.
Si la variance expliquée est trop faible, on peut choisir d’exclure certaines variables. Pour
choisir les variables à éliminer, on observe leur qualité de représentation (c'est-à-dire le % de
4
Cours analyse des données ISETCharguia
variance de la variable extraite par tous les facteurs retenus) : plus la valeur associée à la ligne
«Extraction » est faible, moins la variable explique la variance.
6
En ACP normée.
5
Cours analyse des données ISETCharguia
- L’Indicateur utilisé est l’angle formé entre le point et sa projection sur l’axe : au plus il est
proche de 90 degrés, au moins le point est bien représenté. Lorsque l’angle est proche de 0,
c'est-à-dire que l’individu est bien représenté, le cosinus est proche de 1. Dans le cas inverse,
l’angle est proche de 90° et le cosinus est proche de 0.
- On n’interprète pas la proximité Individu (point) x Variable (vecteur), car la position de la
variable correspond à un vecteur (dont l’origine est le centre). On peut par contre, interpréter
la projection des individus sur l’axe d’une variable.
L’examen des qualités de représentation permet de mettre en évidence des proximités
éventuelles que l’on n’a pas remarquées lors de l’interprétation des axes. Elle permet aussi de
repérer les points qui ne contribuent pas fortement à l’inertie de l’axe, mais qui sont bien
représentés par cet axe, c'est-à-dire qui présentent des caractéristiques propres à l’axe.
c) Pour minimiser l’effet des erreurs de mesure dans le cas d’un échantillon de taille
assez importante, faire un Test-Retest, c'est-à-dire :
▪ découper l’échantillon et faire deux fois l’analyse
▪ garder la structure commune observée dans les deux analyses
II.3.6.Un exercice pratique :
On mène une enquête auprès d’un échantillon réduit de 10 personnes, afin de connaitre le
degré de satisfaction par rapport à deux marques A et B. le système de natation adopté est le
suivant :
0 : indifférent
1 : satisfait
6
Cours analyse des données ISETCharguia
Réponse :
1. On cherche une droite Y= a1 X1+ a2 X2 Vecteur directeur
Soit :
Var x1= 11
Var x2= 22
Cov (x,y) = 12
Var x1=
Var x2=
Var y=
7
Cours analyse des données ISETCharguia
Var y=
Ecriture matricielle :
X : vecteur directeur
Y=X U
Var y=
On aura : Var y=
M7=
Var y=
On calcule tout d’abord :
Soit maximum
7
Si les variables initiales sont centrées et réduites, la matrice considérée est la matrice de corrélation R ;
8
Cours analyse des données ISETCharguia
=0 -0.4a1 + 1.2 a2 –2 λ a2 =0
Det =0
1= 0.924
2=0.476
et a²1+ a²2=1
8
Appelé la diagonalisation de la matrice M
9
Cours analyse des données ISETCharguia
De même, on remplace par 0.476 dans le systéme Iet on cherche les coordonnées du
deuxiéme vecteur propre
2= 0.476
et a²1+ a²2=1
10
Cours analyse des données ISETCharguia
des individus selon des variables socio démographique (âge, sexe, région..), afin de pouvoir
connaitre l’origine de l’opposition entre les individus : (hommes, femmes), (jeunes, vieux)…
11
Cours analyse des données ISETCharguia
Sélectionner le type de
méthode de factorisation,
conserver « analyse en
composantes principales »
et sélectionner l’option
« graphique des valeurs
propres » appelé
également « graphique du
coude ».
12
Cours analyse des données ISETCharguia
13
Cours analyse des données ISETCharguia
Statistiques Descriptives
Moyenne Ecart-type n analyse
Chariot 4,2225 ,65653 800
Allées 2,9888 1,14903 800
Le tableau présente les
Propreté 4,1275 ,93666 statistiques800
descriptives : la
Mobiliers 3,0963 1,07979 moyenne de800 la valeur la plus
Ambiance 3,1238 1,32500 800
élevée (4,22) correspond à
Disponibilité 3,3838 1,01008 la disponibilité
800 des chariots,
Conseil 2,4200 1,04999 la moyenne800de la
Sérieux 2,5388 1,04036 variable la 800
plus faible (2,57)
Amabilité 2,3775 1,13649 correspond800
à l’orientation.
Orientation 2,5700 1,25282 Le déterminant
800 de la matrice
est de 0,002146
La règle du coude : le graphique des valeurs propres, nous indique le nombre d’axes à retenir.
On voit bien qu’il existe quatre points avant le « coude », donc on retient les quatre premiers
axes. Graphiquement, on relie par une droite les points presque alignés. Ces points
9
Indice de KMO= la somme des corrélations au carré par la somme des corrélations partielles au carré.
14
Cours analyse des données ISETCharguia
représentent les composantes qui apportent le moins d’information. On retient ensuite, les
axes qui sont au dessus de cette ligne.
La règle de Kaiser qui veut qu’on ne retienne que les facteurs aux valeurs propres supérieures
à 1, nous suggère un nombre d’axes à retenir égal à trois axes.
Matrice des composantes Avec cette structure factorielle, les mangers de cette
enseigne possèdent des éléments pour améliorer le
Repérer les variables ayant une service offert.
forte contribution (positive ou
négative) sur chaque
composante. Ces variables
donneront un sens aux
composantes.
Composantes
Les colonnes correspondent à
chacune des dimensions
1 2 3
extraites, contiennent des
Conseil ,879 -,115 ,044
coefficients de saturation, qui
Sérieux ,846 -,155 -,019
Amabilité ,839 -,198 -,150 s’interprètent comme les
Orientation ,781 -,089 ,223 coefficients de corrélation.
Disponibilité ,613 -,109 ,073 La dimension 1 est fortement
Allées ,177 ,839 ,153
corrélée avec les variables:
Mobiliers ,291 ,771 ,003
Chariot ,165 ,649 -,349 conseil ; sérieux et amabilité des
Propreté ,117 ,634 -,296 employés, la dimension 2 avec
Ambiance -,059 ,327 ,865 les allées et le mobilier du point
de vente et la dimension 3 avec
La 1ere composante regroupe les variables qui les facteurs d’ambiance du point
sont
Lelesdiagramme
plus importantesdes
danscomposantes
la satisfaction : de vente.
des clients.
15
Cours analyse des données ISETCharguia
L’étude graphique ne
doit porter que sur les
variables se trouvant
proches du cercle des
corrélations, c’est-à-dire
celles qui sont
suffisamment
représentées.
Des variables proches
représentent des
variables fortement
corrélées.
Des variables « à angle
droit » représentent des
variables non corrélées.
Les variables proches
des axes permettent de
donner un sens aux
composantes, en mettant
éventuellement en valeur
les oppositions.
Matrice de transformation des composantes
1 2 3 Rotation des
Component composantes
1 ,978 ,207 -,020 par rapport aux
2 -,193 ,938 ,290 composantes
3 ,079 -,279 ,957 principales
théoriques.
Représentation graphique des individus
La matrice des composantes permet également de calculer les coordonnées pour représenter
graphiquement les individus par rapport aux dimensions extraites, dans le but de comparer la
position de chacune des observations.
Pour tracer le graphique des individus, on recommence l’analyse factorielle et on clique sur
facteurs ensuite sur enregistrer dans des variables.
16
Cours analyse des données ISETCharguia
1. Sélectionner: graphes ;
boite de dialogue ancienne
version ; diagramme de
dispersion ; définir.
Faire glisser la
variable REGR
l’axe X et REGR
apparaitre.
Cours analyse des données ISETCharguia
le graphique: une
fenêtre d’édition de
graphiques s’ouvre
Sélectionner la
commande graphique
ligne de référence.
L’origine des axes (0, 0)
correspond à la moyenne
sur l’échantillon. La
signification des axes est
celle faite au niveau de la
matrice des composantes.
Il convient de mettre en Cliquer Ok pour
valeur : échelle X;
– les groupes d’individus Ajouter 0;
ayant un comportement Ensuite Ok.
identique. Répéter la même
– les individus isolés. opération pour
– la position relative des l’échelle Y.
individus par rapport aux
axes.
II.5.Amélioration de l’ACP
Amélioration du KMO
Si l’indice KMO est trop faible (< 0,5), il convient dés lors de supprimer la (ou les) variables
ayant le plus d’influence sur les corrélations partielles. Pour cela, on demande le calcul de la
matrice des corrélations « anti-image ». La diagonale de cette matrice correspond au KMO
pour chaque variable. Il convient donc de supprimer la variable ayant le KMO le plus faible.
ACP avec rotation
Lorsque la matrice des composantes ne permet pas de discerner clairement quelle variable
compose quelle dimension, on a recours à une rotation des axes pour modifier les
coordonnées des variables par rapport aux axes et de faciliter l'interprétation des facteurs.
Signalons l'existence de diverses méthodes de rotation dans le logiciel : les rotations
orthogonales : Varimax, Equimax, Quartimax) et les rotations obliques (Oblimin).
18
Cours analyse des données ISETCharguia
Notons que, la rotation modifie le placement des axes dans l’espace par rapport aux variables
sans modifier l’emplacement de ces derniéres. Ce qui permet de calculer une nouvelle matrice
de composantes qui facilite l’interprétation des axes.
19
Cours analyse des données ISETCharguia
20