Vous êtes sur la page 1sur 3

ANALYSE EN COMPOSANTES PRINCIPALES(ACP)

Rachid Benslimane
Ecole Suprieure de Technologie
Universit Sidi Mohamed Ben Abdellah, Fs-Maroc
But
Analyser un tableau X de donnes quantitatives de m lignes dindividus en fonction de p
colonnes de variables.
Objectif
Reprsentation des individus dans un espace de dimension rduite avec un minimum de perte
dinformations. Comme rsultat le tableau analys X sera transform en un tableau des
composantes principale Y de dimension rduite q (avec q<p).
Description sommaire de la technique
Pour passer de X (mxp) Y (mxq), il sagit de procder des transformations linaires des p
variables de X pour aboutir q composantes principales avec une perte dinformation
acceptable.
Chaque composante principale est estime Yi sexprime en fonction des Xk (k=1,..p) par la
relation linaire suivante :

chacune des p variables initiales Xk peut tre exprime comme une combinaison linaire des q
composantes :

o Vk est la variance de la variable Xk.

Les composantes principales Y1, Y2, ..., Yq vrifient les proprits suivantes :
- Y1 reprsente la direction de plus grande dispersion du nuage de points.
- Y2 reprsente la direction de plus grande dispersion des rsidus, une fois l'effet de Y1 pris en
compte.
- mme chose pour Y3, Y4, etc..
- Les variables Yk sont indpendantes : si k l , alors
- la variance de la composante principale Yk est gale la k-ime valeur propre.
Tests pralables une application de lACP

Sassurer des deux situations extrmes suivantes pour lesquelles lACP nest pas justifiable:
- dterminant de la matrice de corrlation est plus petit que 0.00001.
1

dterminant de la matrice de corrlation gal 1.0; signifiant que la matrice de


corrlation est une matrice identit. le test de sphricit de Bartlett permet de vrifier
si cest le cas.

Il est galement important dexaminer la relation de chacune des variables avec lensemble
des autres variables. Lorsquune variable nest en corrlation avec aucune autre variable, il est
recommand dcarter cette variable avant de procder une ACP. Cet examen des variables
individuelles est ralis par le calcul des mesures dadquacit de lchantillonnage de KaiserMeyer-Olkin (Measure of Sampling Adequacy, MSA ). Ces mesures peuvent prendre des
valeurs entre 0 et 1. Pour tre conserve dans une ACP, une variable doit obtenir une mesure
K-M-O dpassant 0.5. 1
Algorithme de lACP
Donnes en entre :
m : le nombre dindividus,
p : le nombre de variables principales
q : le nombre de variable de lespace rduit
X : la matrice des donnes quantitatives analyser.
Lanalyse repose sur :

La description lmentaire des variables par le calcul des moyennes arithmtiques


et des carts types selon les formules suivantes :

Le calcul de la matrice centre si les donnes sont homognes ou la matrice


centre rduite
si les donnes sont htrognes.

Le calcul de la matrice diagonaliser S. Elle est gale la matrice variance covariance ou la matrice de corrlation respectivement en cas de donnes
homognes ou htrognes.

Le calcul des vecteurs directeurs des axes principaux dinertie

qui
sont les vecteurs propres norms associs aux q plus grandes valeurs propres
de S, selon la formule :

Henry F. Kaiser, An index of Factorial Simplicity, Psykometrica, Vol 39, n1, March 1974

Le calcul de la matrice Y
avec k=1,2, q.

des composantes principales :

Calcul des aides linterprtation savoir linertie explique, les contributions


absolues et relatives, les corrlations

Les reprsentations graphiques : cercles de corrlation et graphes des individus.


Ces deux dernires tapes seront expliques sur lexemple illustratif de la
mthode.