Vous êtes sur la page 1sur 32

Chapitre II

Analyse en Composantes
principales
(ACP)
Analyse en composantes principales
(ACP)
• Les méthodes d'analyse factorielle permettent
d'obtenir des représentations graphiques qui
constituent le meilleur résumé possible de
l'information contenue dans un grand tableau de
données.
• On distingue:

• ► ACP : Analyse en Composantes Principales,


pour les tableaux de variables quantitatives.
• ► AFC : Analyse Factorielle des
Correspondances, pour les tableaux de
contingence.
Tableaux des données pour ACP
• Soient X1, X2, ….Xp p Var. quantitatives dont les
réalisations (x11, x21…,xn1) …. (x1p, x2p…,xnp) sont
reprises dans le tableau suivant:

Variables x.1 …… x.j ….. x.p


Individus
x1. x11 x1p
. .
. .
xi. xi1 xij xip
. .
. .
xn. xn1 xnp
• xij réalisation sur l’individu i de la variable Xj
• xi.=(xi1, xi2,…,xip)‘ réalisation sur l’individu i des
p Varia. X1, X2, ….Xp.
• L'ensemble de n individus peut être aperçu
comme un nuage N(I) de points dans IRp
Espace des individus
• Même chose pour les variables X1, X2, …Xp,
chaque Xj sera identifiée à son observation
x.j=(x1j, x2j,…,xnj)' de l'espace dit des
variables IRn de dimension n.
Transformation des données en
Pratique
1) En pratique, on préfère travailler soit avec la matrice centrée :

1 n
xij= xij  x j , x j   xij
n i 1

on parle alors d’ Analyse en Composantes Principales Centrée ACPC.

2) Ou bien avec la matrice centrées réduites :

xij  x j 1 n
x 'ij  , s 2j   ( xij  x j )²
sj n n i 1
On parle alors d’Analyse en Composantes Principales Normée ACPN
Rappels sur l’algèbre linéaire
 x1 
 
 .
Un vecteur de IRn est un n-uplet x=(x 1, x 2,…,x n)' =  
.
 
 xn 
 Le produit scalaire de deux vecteurs x=(x 1, x 2,…,x n)' et y = (y1, . . . , yn)' , noté  x,y , est :

 La norme d'un vecteur est: et

 On appel vecteur unité tout vecteur u dont la norme u =1. A partir d'un vecteur x
x
quelconque on peut déduire un vecteur unité u= .
x
 La projection d’un vecteur x sur un axe D (droite) du vecteur directeur u est le vecteur y
tel que x - y soit orthogonal à u:

M
x

x-y
O θ
O droite D

u y A

x, u
y= u, si u est vecteur unitaire ( u =1) alors y= x, u u
u ²
y, x  y =0
 La distance entre deux points x et y de IRn est donnée par:

d(x , y)=  x - y  donc d²(x , y)= (x – y )'( x - y)= 


i 1
( x i – yi)²

 Le centre de gravité g du nuage N de n points xi.=(x i1, x i2,…,x ip)' i=1,2…,n est :

1n 1n 1n 1n
g=  xi = (  x i1,  x i2,…,  x ip)' = ( x1 , x 2 ,...., x p )'
n i1 n i1 n i1 n i1

si on travail avec les variables centrées, on aura g=O=(0, 0, …, 0)

 L'inertie totale du nuage N de n points est :


n n

I=  d²( x , g) =  x - g²


i 1
i.
i 1
i.
Matrices carrées
 SoitM =(xij) une matrice carrée, de type (n,n), on appelle trace de M, le
nombre réel:
n
trace(M)=  xii
i 1

 On dit qu'une matrice M est diagonalisables s'il existe une matrice P inversib
et une matrice D diagonale telle que:
M=PDP-1

 On dit que le vecteur v de IRn est un vecteur propre de la matrice M, s'il exis
un nombre réel λ tel que :

Mv= λv

λ s'appelle valeur propre associé au vecteur propre v. Le polynôm


caractéristique:
P(λ)=det(M - λI)

Les racines de l'équation P(λ)=0 sont les valeurs propres de M.


Les objectifs de l’analyse en composantes
principales

• Résumer un tableau individusvariables à


l’aide d’un petit nombre de facteurs (axes) en
général deux (un plan).
• Visualiser le positionnement des individus les
uns par rapport aux autres.
• Visualiser les corrélations entre les variables.
• Interpréter les facteurs.
Analyse du nuage des individus
dans l'espace IRp
Recherche d'axe factoriel

L'idée est de chercher une première droite D1, dit


premier axe factoriel, qui passe par le centre de
gravité g, du vecteur directeur unitaire u sur
laquelle (D) on projette l'ensemble des individus et
qui ajuste au mieux les n vecteurs xi.=(xi1,
xi2,…,xip)' de IRp où i=1,2,…,n.
M
xi.

xi.- yi.
g=O θ droite D1

u yi. A

la projection yi. du vecteur xi. sur l'axe factorielle D1 du vecteur directeur unitaire u est
p

yi.= xi.,u u =(  j 1
x ij uj) u où u=(u1 , u2 ,…,up )' ;

donc la projection du nuage N constitué de n points de IRp est le vecteur y. :

n n n p

y. = 
i 1
yi.= 
i 1
 xi.,u u = (  
i 1 j 1
x ij uj )u = X.u

et l’inertie totale du nuage sur la droite factorielle D1 est

I1 =d²( y.., O) = y..² = y’. y. = (X. u)’.X.u=u’.X’.X.u

Donc la droite cherchée est celle qui maximale son inertie totale du nuage. Ce qui revient à
résoudre le problème d'optimisation suivant:

Max (u’.X’.X.u) sous contrainte u’.u = 1


C'est-à-dire maximiser une fonction de plusieurs variables sous contraintes en utilisant la
fonction lagrangien :

L(u) =(u’.X’.X.u) – λ(u’.u - 1);

L
Dont on annule la dérivée partielle: (u ) = 2 X’.X.u - 2 λu =0
u
D’où : X’.X.u = λu où V= X’.X est matrice carrée d’ordre p

Ce qui revient donc à chercher les valeurs et vecteurs propres ordinaires.

Soit t une valeur propre et ut un vecteur propre unitaire associé, alors:

ut’.X’.X.ut = k.ut’.ut = t = y..²

ce qui veux dire que t est l’inertie totale du nuage sur la droite factorielle Dt.
Analyse du nuage des variables
dans IRn
L’espace IRn des variables est constitué des
colonnes x.j=(x1j, x2j,…,xnj)' qui constituent les
réalisations de la variable Xj relevées sur les n
individus de E. Donc on peut transformer ce
problème au problème précédent en travaillant
sur le transposé X’ au lieu de X. Ce qui veut
dire que pour chercher un premier axe factoriel
D’1 du vecteur directeur v, il suffit de résoudre
le problème dual d'optimisation suivant:
Max ((X’v)’.X’.v) sous contrainte v’.v = 1
 Max (v’X.X’.v) sous contrainte v’.v = 1
Ce qui veut dire qu’on a un problème identique au cas des individus sauf qu’on
travaille avec la matrice :

V’ = X.X’ :

Au lieu de la matrice V= X’.X

On montre que si  1 >  2 >..> k> …> q sont les valeurs propres de la matrice
V=X’.X, alors  1 >  2 >..> k> …> q sont aussi les valeurs propres de la
matrice V’= X.X’ ;

et si u1, u2, .. uk …, uq sont les vecteurs propres orthogonaux de la matrice


X’.X, alors les vecteurs propres orthogonaux v1, v2, .. vk …, vq de la matrice
X.X’ sont :

1
vk  Xu k
k
Rappelons qu’en Analyse en Composantes Principales Normée ACPN , on
travaille avec les données centrées réduites :

xij  x j 1 n
, s   ( xij  x j )²
2
j
sj n n i 1

n  x  x j  x  x j ' 
donc  x.j, x.j’  = x’.j x.j’ =  
i 1
 ij  ij'
s j n  s j ' n 

  
1 1 n Cov( x. j , x. j ' )
= 
s j s j ' n i 1
( xij  x j )( xij'  x j ' ) =
s j s j'

Cov( x. j , x. j ' )
Donc : x’.j x.j’ = x.j, x.j’  = =Cor(x.j, x.j’)
s j s j'
la matrice V=X’X correspond donc à la matrice des corrélations des variables
colonne x.j
Aides à l’interprétation
• L'art de l'analyste de ACP est celui de l'interprétation
des résultats, cela nécessite à la fois la
compréhension des méthodes employées et la
connaissance du domaine des données étudiées.
L'interprétation s'appuie sur l'examen de différentes
quantités calculées et imprimées par les logiciels
statistiques d'ACP. Ces logiciels utilise l’Analyse en
Composantes Principales Normée et travaillent
directement sur le nuage des variables N(V) et
diagonalisent donc la matrice :
V’ = X.X’
on donne les valeurs propres de cette matrice et, en
général, on ne retient que les valeurs propres
supérieures à 1 .
Choix du nombre d’axes à retenir
Deux critères empiriques pour sélectionner le
nombre d’axes à retenir :
• Critère de Kaiser: on ne retient que les axes dont l’inertie est
supérieure à l’inertie moyenne I/p= p/p=1: On ne retiendra donc
que les axes associés à des valeurs propre supérieures à 1.
• Critère du Scree-test de Cattell : On trace un graphique
illustrant la taille des valeurs propres des différentes
composantes en fonction de leur ordre d’extraction. Ce critère
nous amène à arrêter l’extraction
des composantes à l’endroit où se
manifeste le changement de pente
dans le graphique
Conclusion:
• Si on note 1 > 2 >..>k> …>p>0 les valeurs propres de la
matrice X’.X classées par ordre décroissant et : u1, u2, ...
uk ,… up les vecteurs propres orthogonaux associés,
alors : p

 L'inertie totale du nuage N est : I= i = p


t 1
 L’inertie totale du nuage sur la droite factorielle Dk
engendré par le vecteur uk est : Ik=k
 L'inertie expliquée par le sous espace vectoriel Fk engendré
par la famille (u1, u2, …,k uk) est:
 It =   t
k

t 1 t 1 k
 Le taux d'inertie pour la droite factorielle Dk est : t Dk = p
 Le taux d'inertie pour le sous espace vectoriel Fk est :
k


tk = t 1
t

p
Interprétation des axes
• Pour chaque axe retenu et chaque nuage, on regarde

1) Quelles sont les variables qui participent le plus à la


formation de l’axe (ce sont celles qui ont une grande
coordonnée en valeur absolue sur l’axe.)
2) Quels sont les individus qui participent le plus à la
formation de l’axe
 Outil de mesure : contributions des points (individus
et variables) à l’inertie de cet axe:
Ce sont les points dont la contribution est supérieure à
la moyenne qui permettent de donner un sens à l’axe.
Qualité de représentation d’une variable ou
d’un individu
• On mesure la qualité de représentation d’une variable ou
d’un individu sur le kème axe factoriel par le cosinus carré de
l’angle entre le vecteur x et l’axe factoriel Dk engendrer par
le vecteur uk :
x x

θ θ Dk
Dk

y y
2
x, u k
QLTk(x) = 2
=( cos(xi.,uk) )²
x

• Où les (c1, c2, …, cp) dans sont les coordonnées de x


Projection du nuage des variables N(V)
L’interprétation se déroule en 2 étapes, d’abord on intéresse au nuage
N(V) des variables pour interpréter les axes : les positions des variables
initiales x.j permettent de donner un sens aux axes :

Comme :  x.j = 1,

sa projection sur la plan factoriel F2 se trouvera dans le disque de rayon 1


et de centre 0. Et on sait que la composante du vecteur x.j sur la droite
factorielle Dk est :

 x.j,uk = Cor(x.j, uk)

Les variables x.j proches du bord du disque sont les mieux représentées
par le plan factoriel.

Il est possible d’interpréter les axes en tenant compte des variables proches du cercle
et des Axes .
qualité de représentation
d’une variable
• La qualité de représentation d’une variable j sur le kème
axe factoriel est mesurée par le cosinus carré de l’angle
entre le vecteur x.j et l’axe factoriel k engendrer par le
vecteur uk :
2
x. j , u k
QLTk(j)= Cos²(x.j, uk)= 2
= Cor²(x.j, uk)
x. j

La contribution d’une variable j à l’inertie expliquée par un


facteur principal Dk est la quantité :
2
x. j , uk Cor 2 ( x. j , u k )
CTRk(j)  
k k
D2 Bien représenté
Plan F2

. x.j
Cor(x .j , u2 )

, u2
D1

Cor(x .j , u1 )
, u1
. x.j’

. x.j"

Mal représenté

Pour la composante principale D2


– elle est très corrélée positivement avec x.j ;
– elle est très corrélée négativement avec x.j" ;
– D2 oppose donc la variable x.j à x.j" .
Remarques
• La qualité de représentation d'une variable j par le plan formé
par les deux premiers axes principaux est :
QLT1(j) + QLT2(j)
• La somme des qualités de représentation de tous les
variables = 1
• La somme des contributions de tous les variables =1
• En pratique: On retient pour l’interprétation des axes que les
variables dont la contribution est > à la contribution moyenne :
2 2
1 p x. j , uk 1 x. j 1

p k 1 2

p x 2

p
x. j .j

(>1/p), le sens de la contribution dépend du signe de Cor(x.j, uk).


Projection du nuage des individus N(I)
La qualité de la représentation des individus
Le sens donné aux axes factoriels lors de l’interprétation du nuage
des variables va permettre une interprétation du nuage des individus. Le
nuage N(I) est projeté sur le plan F2 d'origine O le centre de gravité du
nuage d'individus, donc un point se trouvant proche du centre aura donc
des valeurs proches de la moyenne de la population pour les variables
représentées par les facteurs principaux.
La qualité de la représentation d’un individu i à sur l’axe facteur principal
Dk est la quantité
2
xi . , u k cik2
QLTk(i)  2 = 2
xi . xi.

Au plus elle est proche de 1 au mieux l’individu est représenté sur l’axe.
Notons que :  xi.,uk =  xi.cos(xi.,uk) 
Contribution des individus à l’inertie de l’axe k

Contribution de l’individu i à l’inertie de l’axe k :


2
xi. , uk ck2
CTRk(i) = nk
=n 
k

Les points i du nuage N(I) explicatifs de la variance son


ceux qui sont les plus extrêmes et dont la contributio
absolue ctr(i) est supérieure à la moyenne de
contributions 1/n. On rangera donc les points explicatifs e
2 catégories ; les uns de contribution forte avec un
coordonnée négative, les autres de contribution forte ave
une coordonnée positive.
coordonnée négative - coordonnée positive +
-
forte contribution sur D2
D2 mais faible contribution
Plan F2 sur D1
. xi.
, u2

D1

g=O , u1
Résumé de l’ACP
• Le tableau des données se résume à une matrice X,
où les lignes sont des individus et les colonnes des
variables
• La méthode consiste à calculer les vecteurs propres et
les valeurs propres de la matrice X’X.
• En ACP normée, la matrice X’X se confond avec la
matrice des corrélations entre les variables
• Chaque vecteur propre de la matrice X’X correspond à
une nouvelle variable, combinaison linéaire des
variables d’origine
• Le but est de choisir les 2 ou 3 plus grandes valeurs
propres et projeter les nuage les plans engendrer par
les premiers vecteurs propres.
Remarque
• L’examen des plans factoriels permette de
visualiser les corrélations entre les
variables et d’identifier les groupes
d’individus ayant pris des valeurs proches
sur certaines variables. mais il faut avant
de lire directement les graphiques
s’assurer que la projection est
fidele a la réalité.
• Il peut en effet arriver que les axes
retenus, bien que représentant une part
importante de l’inertie globale du nuage,
ne suffisent pas à expliquer correctement
certains individus ou variables : deux
individus peuvent être proches en
projection sur les axes factoriels retenus
tout en étant très éloignés en réalité, si
leurs représentations sur ces axes ne sont
pas de bonne qualité.
Résumé de l’ACP
• Le tableau des données se résume à une matrice X,
où les lignes sont des individus et les colonnes des
variables
• La méthode consiste à calculer les vecteurs propres et
les valeurs propres de la matrice X’X.
• En ACP normée, la matrice X’X se confond avec la
matrice des corrélations entre les variables
• Chaque vecteur propre de la matrice X’X correspond à
une nouvelle variable, combinaison linéaire des
variables d’origine
• Le but est de choisir les 2 ou 3 plus grandes valeurs
propres