Académique Documents
Professionnel Documents
Culture Documents
sel-khamlichi@esi.ac.ma
Chapitre 2
Analyse en Composantes Principales (ACP)
Principe
Dans la littérature, on trouve deux approches différentes de l'ACP :
• la seconde ne sera pas corrélée avec la première et aura la plus grande variance
possible parmi celles qui restent ;
• Cette valeur est une mesure de la capacité de l'axe Xv1 à expliquer l'inertie totale.
Rappel
Soit A une matrice p × p. La trace de A vérifie :
trace(A) = λ1 + … + λj+ … + λp
où λ1 ,… , λp
sont les valeurs propres de la matrice A.
• Ainsi
I = trace(Ω) = λ1 + … + λj + … + λp
• et les axes factoriels sont les vecteurs propres de la matrice Ω associés
aux valeurs propres λ1 ,… , λp
Construction des facteurs
Les questions auxquelles l'analyse factorielle permet de répondre sont:
• Quelle proportion de la variance des données peut être expliquée par un certain
nombre de dimensions majeures
➢ Pour un axe donné, les variables qui ont les plus forts coefficients (en valeur absolue)
sont celles qui contribuent le plus à la formation de cet axe.
➢ En pratique, on s’intéresse rarement aux vecteurs propres. Pour interpréter les axes, on
regarde surtout les corrélations entre les variables et les axes.
Rappel
Le coefficient de correlation est une mesure entre 2 variables Xi et Xj, il est calculé comme suit:
Pour chaque valeur propre λi, le vecteur propre vi est calculé comme suit :
Ωvi = λivi
Les étapes de la mise en œuvre de l'ACP
• Nous pouvons appliquer l’ACP comme suit :
• Étape 1: prendre p variables (X1, X2, … , Xp)
• Étape 2: retrancher la moyenne des données d’origine (la moyenne des données centrées
est égale à 0)
• Étape 3: calculer la matrice de variances-covariances (ou matrice de corrélation).
• Étape 4: Calculer les valeurs propres et les vecteurs propres unitaires de la matrice de
variances-covariances (ou matrice de corrélation).
• Étape 5: Construire la matrice de vecteurs propres, en triant les vecteurs propres par valeur
propre, de la plus grande valeur propre à la plus petite, plaçant ainsi les composantes par
ordre d'importance
• Étape 6: Déterminer le nouvel ensemble de données. Le nouvel ensemble de données est
calculé en multipliant l'ensemble de données centrées (étape 2) par matrice de vecteurs
propres(étape 5).
Les étapes de la mise en œuvre de l'ACP
• Non corrélées
avec rij sont les corrélations totales et aij sont les corrélations partielles.
➔Ce critère nous permet de poursuivre l'ACP si le coefficient KMO est proche de 1, i.e.
lorsque les corrélations partielles sont faibles.
➔En effet, en ACP, on souhaite que les corrélations soient expliquées par d'autres variables
que celles concernées. Il ne serait pas intéressant d'étudier des variables uniquement
corrélées deux à deux.
Evaluation de l'ACP : étude des corrélations entre variables
2. Le test de sphéricité de Bartlett :
• Ce test permet de tester l'hypothèse nulle selon laquelle la matrice des
corrélations R est égale à la matrice identité.
En d'autres termes, on cherche à savoir si les variables sont corrélées entre elles. La
sphéricité implique un nuage de points qui se dilate dans tous les sens. Les points
sont alors représentés par une sphère.
• Soient cj1, . . . , cjl les coordonnées d'une variable Xj sur les axes factoriels retenus
v1 ,… , vl. La qualité de représentation de la variable Xj est donnée par :
• On note que, dans le cas des données standardisées, la corrélation entre une variable Xj
et un axe factoriel vl est donnée par :
r (Xj , vl ) = c jl
Extraction des facteurs : Qualité de représentation des
variables
• L'inertie du nuage de points est décomposée en la projetant sur des directions
orthogonales. Nous rappelons que nous cherchons toujours à expliquer une
variance totale et que chaque valeur propre contribue à expliquer un certain
pourcentage.
• L'interprétation des axes factoriels se fait en se basant sur les corrélations existants
entre ces axes et les variables utilisées dans l'analyse.
• Ainsi, un axe factoriel est défini par les variables d'analyse qui lui sont les plus
corrélées.
• Pour retrouver les variables les plus corrélées à un axe factoriel, on peut utiliser les
coordonnées de ces variables sur l'axe en question puisque ces coordonnées
s'interprètent comme des corrélations.
Interprétation des axes factoriels
Exemple
Interprétation des axes factoriels
Interprétation des axes factoriels
• A partir des coordonnées des variables sur les axes factoriels, on peut
retrouver également la décomposition des valeurs propres.
• Dans l'exemple suivant, la première valeur propre est égale à
λ1 = 4, 470 et on a aussi
λ1= 0,8502 + 0,6302 + 0,7422 + 0,2002 + 0,9542 + 0,8682 +0,9262 + 0,4902
Interprétation des axes factoriels
• Il est possible de calculer les contributions de chaque variable à
l'inertie de chaque axe factoriel en divisant par le carré de ces
coordonnées par chaque valeur propre.
• Par exemple, pour λ1 = 4, 470 nous avons :
Interprétation des axes factoriels: Rotation des facteurs
• Une des difficultés des méthodes factorielles est l'interprétation des axes.