Vous êtes sur la page 1sur 13

Session 1 : Principes de l'analyse factorielle en composantes

principales
Introduction

Les statistiques fournissent généralement leurs conclusions brutes sous forme de tableaux de
données. Ces tableaux sont multidimensionnels et comportent de très nombreuses données. Un
regard sur de tels tableaux montre immédiatement la difficulté d'en tirer des enseignements
pertinents. L'analyse en composantes principales (ACP) a pour objet d'en tirer des tendances. Plus
concrètement, l'ACP se donne pour objectif de "réduire" le nombre de données afin d'en faciliter
l'interprétation.
Dans une ACP, un tableau de données est du type "individus- variables" et se présente sous forme
d'une matrice rectangulaire à n lignes et p colonnes :

Ceci conduit à deux interprétations géométriques possibles :

La matrice x peut être analysée suivant les lignes qui représentent les individus ou suivant les colonnes
qui représentent les variables. Un individu est représenté par un point dans un espace à p dimensions
et on peut, dans cet espace Rp rechercher les ressemblances entre individus. Une variable est
représentée par un point dans un espace à n dimensions et on peut rechercher dans cet espace Rn les
correspondances entre variables.
Dans le premier cas, les individus correspondent à n points (avec p coordonnées) dans un espace Rp.
Entre les individus, on peut rechercher s'il y a des ressemblances. Dans le second cas, les variables
correspondent à p points (ou p vecteurs à n composantes) dans un espace Rn. Entre les variables, on
peut rechercher s'il y a des liaisons.
Le problème de base est le suivant : le tableau contient nxp données; ce nombre peut être très grand
et d'un tel tableau il est difficile de tirer des informations pertinentes, d’où l’objectif suivant : Chercher
une collection de données moins importantes en nombre permettant de reconstituer (le mieux possible)
le tableau x
Supposons que l’on ait pu trouver 2 vecteurs u et v tels que x = uvT , alors, avec peu d'éléments, on
peut en engendrer beaucoup :

Ainsi le tableau x de np éléments peut être reconstitué avec n + p éléments. Malheureusement, il


n'est pas possible de trouver u et v tels que x = uvT exactement.
Cependant, il est possible de trouver u1, u2, . . . . . . . , uq et v1, v2, . . . . . . ., vq (u et v ont alors même
dimension) tels que x = u1v1T+ u2v2T+ u3v3T + ... + uqvqT + E où E est une erreur supposée négligeable. x
est alors (presque) reconstitué par q.(n+p) nombres.

Exemple
n = 1000 individus et p = 100 variables : x possède 100 000 éléments ; avec l’approximation q = 10, on
réduit à 11 000 éléments.
Précisons maintenant les notations que nous allons employer. L'étude doit porter sur la forme du
nuage de points et non sur sa position par rapport à l’origine. C'est pourquoi il est intéressant de
pratiquer un changement d'origine : nouvelle origine = centre de gravité du nuage

On peut aussi mettre les valeurs des variables "à la même échelle" en divisant chaque valeur par
l'écart-type. On remplacera donc x par un nouveau tableau Y tel que

On est donc passé à des variables centrées et réduites. On emploie quelquefois l'expression
"composantes normées".

Exemple
Le tableau suivant représente des notes obtenues par des élèves dans diverses matières (l'exemple est
emprunté à F.G.Carpentier, université de Brest ). Ce tableau nous servira d'exemple pour l'ensemble
du chapitre. Nous notons qu'il contient 45 valeurs numériques (n = 9, p = 5).
Définissons le tableau Y. Les calculs peuvent être effectués facilement avec un tableur :

soit
Etude dans l'espace des individus Rp

Notion d'axe factoriel

En travaillant désormais avec les coordonnées Yij, on a toujours un nuage de n points-individus. On


recherche si les n points se situent dans un sous-espace vectoriel Rq de Rp (q ≤ p). Si c'était le cas, cela
permettrait de réduire la dimension p à q.
Dans cette hypothèse, Rq est sous-tendu par q vecteurs ua orthogonaux définissant q axes. Chaque axe
est défini par p composantes, soit qp nombres. Chaque point du nuage est défini dans Rq par q
coordonnées, soit nq nombres. Donc au total, le nuage est défini par nq + qp = (n + p)q nombres.

Il y a plusieurs façons (une infinité en fait) de trouver un système d'axes dans Rq. Nous choisirons les
axes factoriels : ce sont les axes qui ajustent "au mieux" le nuage de points (et orthogonaux 2 à 2).
Nous expliciterons l'expression "au mieux" plus loin.
Ils sont définis par les vecteurs orthonormés :

u1 , u2 , ..................., uq
qui vérifient :
Recherche des axes factoriels

Intéressons-nous d'abord au premier axe factoriel F1 : il passe par l’origine Ω et ajuste "au mieux" le
nuage. Ceci signifie que la somme des carrés des distances des points à F1 est minimale ou encore que
la somme des carrés des projections sur F1 est maximale. Nous précisons ainsi l'expression "au mieux".

On cherche donc à déterminer un vecteur u

tel que :

Pour la détermination de

effectuons les calculs suivants :


et

En définitive

où C est proportionnelle à la matrice des corrélations. En effet,

Donc, en posant cij = cor(xi, xj), on a M = nuTcu où c représente la matrice des corrélations (matrice
pxp).
On démontre que c possède p valeurs propres la positives. On les numérote par ordre décroissant :

λ1 > λ2 > λ3 > … > λ p

A chaque valeur propre λα correspond un vecteur propre uα. Tous les vecteurs propres sont
orthogonaux. On démontre les résultats mathématiques suivants que nous admettrons :
• Le 1er axe factoriel est déterminé par le vecteur propre u1 relatif à la valeur propre λ1 (la plus
grande)
• Le 2ème axe factoriel est déterminé par le vecteur propre u2 relatif à la valeur propre λ2
• Le 3ème axe factoriel est déterminé par le vecteur propre u3 relatif à la valeur propre λ3
• etc.
En définitive, la recherche des axes factoriels se résume à la recherche des valeurs et vecteurs propres
de la matrice des corrélations c.
Notons une propriété intéressante : la matrice c ne possède que des "1" sur sa diagonale et on sait que
Trace(c) = somme des valeurs propres. On doit donc avoir

La valeur de la quantité

est appelée inertie du nuage de points par rapport à l'axe défini par le vecteur uα, détermine
l'importance de l'axe dans la description du phénomène. On l'exprime usuellement en pourcentage.
Dans les axes factoriels principaux, les coordonnées des points individus sont donnés par les
colonnes de la matrice YU où U est la matrice obtenue en juxtaposant les coordonnées des vecteurs
uα :

Exemple
Reprenons l'exemple des notes d'élèves :

Calculons ma matrice des corrélations :


Le calcul des valeurs propres et vecteurs propres peut s'opérer avec le logiciel Scilab : les valeurs
propres sont, par ordre décroissant (et arrondies à deux décimales)
λ1 = 2,86
λ2 = 1,15
λ3 = 0,98
λ4 = 0,01
λ5 = 0,00
On constatera que la somme vaut bien 5. Les inerties correspondantes aux axes factoriels principaux
de 1 à 5 sont respectivement 57,20 %, 23,00 %, 19,60 %, 2,00 % et 0,00 %. Les trois premiers axes
correspondent à une inertie de 99,80 %. Autrement dit, les faits sont bien décrits par ces trois axes ce
qui signifie que l'on peut prendre q = 3.
Les vecteurs propres correspondants sont :

Il est intéressant de voir la disposition des points par rapport aux axes factoriels (rappelons que ces
axes doivent passer au mieux à travers le nuage des points). Prenons par exemple, la projection du
nuage sur le plan (u1, u2). Pour obtenir les coordonnées des points individus dans le plan considéré, il
faut effectuer le produit matriciel suivant :
Individus supplémentaires

Les individus supplémentaires sont ajoutés après analyse. On ne recommence donc pas l'analyse mais
on peut intégrer les nouveaux individus en calculant leurs coordonnées réduites et en les introduisant
dans les diagrammes.
En particulier, on peut introduire des individus de "référence" ou illustratifs.

Etude dans l'espace des variables Rn


Dans l'espace Rn on a un nuage de p points. Les axes factoriels, dont les vecteurs unitaires sont notés
ici vα, sont recherchés de manière analogue au procédé décrit pour Rp. On cherche à rendre maximale
la quantité

M' = (Yv)T(Yv) = vTYYTv

Pour cela, on diagonalise la matrice YYT qui est une matrice carrée nxn. Les valeurs propres sont :

μ1 > μ2 > μ3 > ... > μn.

Les vecteurs propres associés sont :

v1 v2 v3 ... vn . .

Ils définissent les axes factoriels.

Relation entre Rn et Rp

On se limite à q ≤ min(n,p). Soit α entier ≤ q. vα est le vecteur propre de YYT associé à la valeur
propre μα :
YYTvα =μα vα

1) Multiplions à gauche par YT :

YT(YYTvα) = μαa YTvα ou (YTY)(YTvα)=μα(YTvα) ou encore c(YTvα) = (μα/n)(YTvα)

avec c, matrice des corrélations, ce qui montre que YTvα est vecteur propre de c avec la valeur propre
μα/n .
Donc μα = nλα et YTvα =kαuα où kα est un coefficient de proportionnalité.
Les vecteurs uα et vα sont unitaires, donc

1 = uαTuα = (1/kα2)vαTYYTvα = (1/kα22)vαTYYTvα) = (1/kα2)vαT(μα vα) = (μα/kα2)vαTvα = μα/kα2 = nλα/kαa2

d'où

et, par suite,


2) Partons de l'équation aux valeurs propres cuα = λαuα, soit YTYuα = nλαuα et multiplions à
gauche par Y :

Y(YTYuα) = nλα Yuα ou (YYT)(Yuα ) = nλα (Yuα )

ce qui montre que Yuα est vecteur propre de YYT avec la valeur propre λα , donc Yuα correspond à un
vecteur propre Yuα = k'αvα et nλα = μα
Les vecteurs uα et vα étant unitaires,

1= vαT vα = (1/k'α2) uαTYTY uα = (1/k'α2) uαT(YTY uα ) = (n/k'α2) uαTc uα = (nλα/k'α2)uαTuα = nλα/ k'α2

d'où

Par suite,

ce qui montre que les axes factoriels de Rp et Rn (α ≤ q) sont reliés linéairement.

Exemple
Reprenons l'exemple des notes des élèves. Nous avions obtenu, pour la matrice Y représentative du
tableau individus-variables,

A l'aide des relations précédentes, on peut déduire les valeurs propres μα :

μ1 = 25,74 μ2 = 10,35 μ3 = 8,82 μ4 = 0,09 μ5 = 0,00 (arrondies à 2 décimales)

ainsi que les vecteurs propres vα :


Les coordonnées des variables dans les axes factoriels définis par les vecteurs vα sont données par

En calculant YTvα, on retrouve ces coordonnées :

Nous savons d'autre part que

ce qui fournit le moyen de calculer zjα à partir de uα :

Exemple
Reprenons le précédent exemple et représentons graphiquement les coordonnées des points variables
dans le plan (v1, v2).
Cercle des corrélations

Les coordonnées centrées et réduites possèdent une propriété intéressante : Tout point variable de Rn
se trouve sur une hypersphère de rayon donné.
Pour expliquer cette propriété, il suffit de calculer la "longueur" du "segment ΩMj où Mj est un point
variable j de coordonnées (Yj1, Yj2, ... Yjn). L'expression euclidienne de cette longueur (ou distance
euclidienne) est simplement (définition par le carré) :

ce qui signifie que tous les points Mj sont sur l'hypersphère de rayon √n.
La définition de la distance est toutefois différente ici. La distance entre les deux points Ω et M j de
l'espace Rn est définie par son carré

où pi est le poids statistique affecté à chaque individu. Nous avions convenu de prendre des poids
statistiques identiques pour tous les points, soit pi = 1/n de sorte que

Donc en prenant cette définition de la distance (c'est à dire en divisant chaque coordonnée Yij par la
racine carrée de n), tous les points se trouvent sur une hypersphère de rayon 1. En projection sur un
plan passant par Ω, les projections des points variables seront donc à l'intérieur d'un cercle de rayon
1. Du fait de la définition de la distance, ce cercle est appelé cercle des corrélations.

Exemple
Reprenons l'exemple précédent (en divisant les coordonnées par racine carrée de 9, soit 3 :

Vous aimerez peut-être aussi