Vous êtes sur la page 1sur 26

Chapitre 3: Analyse en Composantes Principales

1 Données initiales

2 Exemple de données

3 Objectifs de point de vue technique

4 Analyse du nuage des points individus

5 Analyse du nuage des points variables

6 Inertie et choix du nombre d’axes

7 Interprétation de la carte des variables

8 Interpretation des cartes d’individus

9 ACP sous R
Données initiales

On possède un tableau rectangulaire de mesure dont les colonnes sont des


variables quantitatives (Chiffres d’affaires, taux, poids...) et dont les lignes
représentent des individus statistiques (unités élémentaires telles que des
êtres humains, des pays, des années...).

x11 x1j x1p


 
... ...  j 
 .. .. .. .. ..  x1
 . . . . .   .. 
 .
j
xip
  
xij xi1

X = 1 ...
 ; X =  j.
···   ; Xi =
 xi ... ... 
 x ..

 . .. .. .. .. 
 ..

. . i
. . 
xnj
xn1 ... xnj ... xn p
Exemple de données

PETI CHER DISPO GOUT ARRG SUCRE SATISF


cocacola 7.47 3.75 8.16 7.73 5.15 7.27 6.04
dietpepsi 6.19 4.11 7.43 4.23 6.87 4.70 4.00
sevenup 7.09 4.05 7.65 7.21 4.25 6.54 6.34
rootbeer 4.71 4.70 5.26 5.45 6.27 6.74 4.47
mountaind 6.14 5.79 5.99 5.12 5.50 6.46 4.88
pepsicola 7.56 4.35 7.98 6.85 5.35 6.93 5.40
fresta 6.28 4.46 6.67 5.98 6.22 6.07 5.16
crush 5.76 4.91 5.74 6.84 5.53 6.58 5.92
sprite 6.58 4.61 6.80 6.74 4.70 7.00 6.55
Objectifs de point de vue technique

Réduire la dimmension des données en cherchant les meilleures


visualisation planes et ceci en appliquant des projections
orthogonales.
Regrouper les groupes d’individus homogènes et identifier les
individus exceptionnels.
Analyser les relations entre les variables.
Quelques exemples pratiques à étudier

Étudier la perception d’une marque par le consommateur (Voir le


fichier boisson.csv).
Étudier l’évolution de la situation financière d’une entreprise dans le
temps (Voir le fichier groupe_petrolier.csv).
Comparer plusieurs marques de voiture sur le marché (Voir le fichier
chaises.csv).
Données centrées et réduite

 
. .
 . . . . 
 
xij −X¯j
Z =  . . zij = . . 
 
 σj 
 . . . . 
. .
Détermination des axes principaux

Axes pricipaux :
1 Les axes principaux ∆1 , ∆1 ,. . . sont déterminés en cherchant les
valeurs propres et vecteurs propres de la matrice de corrélation
R =t ZDZ . (D = n1 In appelée matrice des poids).
2 Les valeurs propres étant classées par ordre décroissant λ1 , λ2 ,. . . on
note U la matrice (pXp) des vecteurs propres correspondants uj
rangés en colonnes.
Composantes principales
1 Les coordonnées
 1des pointα individus sont
 données par le produit :
C1 . C1 . C1p
 . . . . . 
C = ZU = 
. . . . . 
Cn1 . Cnα . Cnp
2 Tout couple de colonnes de la matrice U forment une carte
factorielle.
Cartes factorielles et qualité de projection

Contribution Absolue :
La CTA du point i à l’inertie des projections sur l’axe α est :
p (Ciα )2
Ctr (i, α) = iλalpha
Contibution relative ou cos carrée :
La CTR indiquant la qualité de représentation du point i sur l’axe α
(C α )2
est : CTR(i, α) = cos 2 (zi , zˆi α ) = ||zii ||2 . où zˆi α est la projection
orthogonale de Zi sur l’axe α.
Remarques

La variable C 1 est celle qui reflète au mieux la diversité des individus.


La meilleure représentation plane du nuage des individus est celle où
tout individu est représenté par les coordonnées (Ci1 , Ci2 ).
Les variables C α sont non corrélées entre elles.
Les variables C α sont des combinaisons linéaires des variables Z j et
sont par conséquent centrées.
Pour tout α ≤ p : Var (C α ) = λα
Analyse du nuage des points variables

z1j
 

 z2j 

eme j
Cooronnées du j point variable : Z = 
 . 

 . 
znj
Les vecteurs propres (v1 , v2 , . . .) portant les axes principaux
correspondant à ce second nuage sont obtenues grâce à la relation
de transition : vα = √1λ Zuα .
α

la coordonnée
√ factorielle du point variable j sur l’axe α est donnée
par : Sjα = λα uαj
Qualité de projection des points variables

Contribution relative ou cos carrée : Par rapport à l’axe α la CTR


indiquant la qualité de représentation du point variable Z j est
donnée par le cosinus de l’angle que fait Z j avec sa projection Ẑ j,α
sur F α : CTR(j, α) = cos 2 (Z j , Ẑ j,α ) = (Sjα )2
la communalité par rapport au premier plan factorielle :
Com(j, (1, 2)) = (Sj1 )2 + (Sj2 )2
Cercle de corrélation

Les projections Ẑ j des variables Z j sur le plan principal se trouvent toutes


à l’intérieur du cercle de centre O et de rayon 1 : ce cercle est appelé cercle
des corrélations.
Inertie et choix du nombre d’axes

L’inertie total du nuage des points individus vaut N :


p
X
I(N ) = λi = p
i=1

La qualité globale de la représentation du nuage N sur le sous


espace principal engendré par (u1 , u2 , . . . , uq ) est mesurée par la
proportion de l’inertie absorbée par ce sous espace, elle vaut :
λ1 + . . . , λq
p
Ainsi le taux d’inertie absorbée par le premier plan est donnée par :
λ1 + λ2
p
Nombre d’axes à retenir

Critère du taux d’inertie : ce taux définit le pouvoir explicatif d’un


facteur : il représente la part de variance totale prise en compte par
ce facteur. Son appréciation doit cependant tenir compte du nombre
de variable et du nombre d’individu.
Exemple : un taux d’inertie relatif à un axe de 10% peut être une
valeur importante si le tableau possède 100 variables et faible s’il
n’en a que 10.
Critère de Kaiser : Il consiste à ne garder, dans une ACP normée,
que les axes dont la valeur propre est supérieure à 1 (i.e. l’inertie
moyenne).
Interprétation des cartes des variables

1 Variable à retenir : On ne garde queles variables bien représentées


sur cette carte (i.e. aux variables proches du cercle de corrélation).
2 Variable-axe : les variables fortement corrélées avec un facteur vont
contribuer à la définition de cet axe.
3 Variable-variable :
la proximité des projections de 2 variables indique une forte
corrélations positive entre elles.
4 2 points variables diamétralement opposés indique une corrélation
négative entre elles.
5 Des directions presque orthogonales indiquent une faible corrélation
linéaire.
Interprétation des cartes des variables
1 Interprétation par rapport aux axes :
La variable v6 est à exclure de l’étude.
la première composante principale est fortement corrélée aux
variables v1 , v2 et v4 .
La première composante est trés peu corrélée à v3 et v5
La première composante oppose la variable v4 aux variables v1 et v2 .
La deuxième composante oppose la variable v3 à la variable v5 .
2 Interprétation par rapport à la position des variables :
Corrélation positive entre v1 et v2 .
Corrélation négative entre v3 et v5 .
Corrélation négative entre {v1 , v2 } et v4 .
Absence de corrélation entre {v1 , v2 } et {v5 , v3 }.
Absence de corrélation entre v4 et {v5 , v3 }.
Rotation

Pour aider à l’interprétation, il peut être commode, une fois le nombre


de facteurs déterminé, d’effectuer une rotation des axes. La rotation (la
méthode varimax,. . .) permet de se rapprocher d’une structure simple :
Une composante est fortement corrélée avec quelques variables et
peu corrélée avec les autres.
Une variable est corrélée avec une seule composante. Dans ce cas,
l’information restituée par le plan factoriel reste la même mais celle
restituée par les axes change.
Facteur taille

Les variables peuvent être toutes du même coté d’un axe factoriel. Une telle
disposition apparaît lorsque toutes les variables sont corrélées positivement
entre elles. Cette caractéristiques apparaît le plus souvent sur le premier
axe que l’on appelle alors facteur taille.
Interpretation des cartes d’individus
ACP sous R

Avant de commencer :
1 Installer la library "FactoMineR" depuis le Cran mirror. Pour
effectuer l’installation il faut être connecté à internet.
2 N’oubliez jamais de changer le répertoire courant avant d’appliquer
l’ACP.
Traitement de la base de données boisson.csv

library(FactoMineR)# chargement de la library FactoMineR


don=read.csv("boisson.csv",header=T,sep=" ;",dec=",")
# importation des donnees depuis le repertoire courant
print(don) # afficher les donnees
rownames(don)=don[,2] # renommer les lignes de don
print(don) # Afficher don pour voir le changement
don=don[,c(-1,-2)] # suppression de la 1er et la 2eme colonnes
res=PCA(don, ncp = 5, graph = TRUE, axes = c(1,2))
print(res$eig) # affichage des valeurs propres les variances des axes)
print(res$var$coord) # Affichage coordonnees des points variables sur les
axes principaux (correlation avec les axes)
print(res$var$cos2) # cosinus carre pour les variables
print(res$var$contrib) # contribution des variables
print(res$ind$coord) # Affichage coordonnees des individus sur les axes
principaux
print(res$ind$cos2) # cosinus carre pour les individus
print(res$ind$contrib) # contribution des individus
Effectuer la même chose avec les bases de données :
voiture.csv
depenses.csv
budgetemps.csv
chaises.csv
groupe_petrolier.csv
Remarque : L’analyse des résultats s’effectuera dans le cours.

Vous aimerez peut-être aussi