Vous êtes sur la page 1sur 29

Introduction

Repr
esentation des individus
Repr
esentation des variables
Conclusion

Analyse en Composantes Principales


Anne B Dufour

Septembre 2008

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Introduction
Soit X un tableau contenant p variables mesurees sur n individus.

Situation A : n points-lignes dans Rp


I Situation B : p points-colonnes dans Rn
Objectif :
I

Projection dun nuage de points sur des axes qui maximisent


linertie projetee
Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Enonce (1)
Deux variables x et y sont mesurees sur n individus.

Letude de la liaison entre x et y est la recherche dune droite


optimum. Quel est le crit`ere doptimisation ?
Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Enonce (2)

1.5

Cette droite minimise


n
1 X
Mi mi 2
n

0.5

0.5

1.5

i=1

o`
u

Mi est le point i du plan

mi est la projection orthogonale de Mi sur la droite.

Elle est dite direction principale du nuage centre.

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Nuage centre ?

La droite qui minimise la moyenne des carres des distances des


points `a cette droite passe par le point moyen de coordonnees
(m(x), m(y))
Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Demonstration
Soient deux droites D et D 0 parall`eles, la premi`ere passant par le
point moyen et la deuxi`eme ne passant pas par ce point moyen.
2

k Mi mi0 k

= k Mi + mi mi mi0 k

= k Mi mi k2 + k mi mi0 k + 2hMi mi |mi mi0 i


Les vecteurs mi mi0 sont tous egaux. On note w = mi mi0 et
on obtient la relation suivante :
n
1X
2
k Mi mi0 k =
n
i=1

>

n
1X
k Mi mi k2 + k w k2
n
i=1

n
1X
k Mi mi k2
n
i=1

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Inertie Totale
Rappel :
1. X est une matrice `a n lignes et p colonnes : X = [xij ].
2. Chaque point a un poids

1
n

(ponderation uniforme).

Lensemble des n points forme un nuage dont linertie autour de


lorigine vaut :
p
n
n
1X
1 XX 2
2
IT =
k Mi k =
xij
n
n
i=1

i=1 j =1

Cest la variabilite totale de la position des points dans lespace.

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Exemple en dimension 2
La droite passe par le point moyen. Donc on place lorigine au
centre de gravite en utilisant les nouvelles coordonnees centrees :

Xi = xi m(x)
Yi = yi m(y)
IT

n

1X
Xi2 + Yi2
n

n

1 X
(xi m(x))2 + (yi m(y))2
n

n
n
1X
1X
2
(xi m(x)) +
(yi m(y))2
n
n

i=1

i=1

i=1

i=1

= v (x) + v (y)
Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Decomposition de linertie totale


Quand on prend dans Rp un vecteur unitaire u, il definit un axe. Le
point Mi se projette sur cet axe en mi . On a :
Mi = mi + (Mi mi ) et k Mi k2 = k mi k2 + k Mi mi k2
n
n
1X
1X
2
k mi k +
k Mi mi k2
IT = IS (u) + IM (u) =
n
n
i=1

IT =

i=1

IS (u)
+ IM (u)
| {z }
| {z }
`a maximiser `a minimiser

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Recherche du vecteur directeur u (1)

La matrice X contient les n points centres.

x1 m(x) y1 m(y)

..
..
X=

.
.
xn m(x) yn m(y)
Le vecteur

 u recherche est unitaire. On lecrit sous la forme
a
u=
avec a 2 + b 2 = 1.
b

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Recherche du vecteur directeur u (2)

Linertie statistique ou inertie projetee est :




n
1X
1
1 T
2
T
T
IS (u) =
k mi k = (Xu) Xu = u
X X u
n
n
n
i=1

 
v (x) c(x, y)
a
= [a b]
c(x, y) v (y)
b
= v (x)a 2 + 2c(x, y)ab + v (y)b 2

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Recherche du vecteur directeur u (3)





v (x) c(x, y)
est dite matrice de
c(x, y) v (y)
variance-covariance des deux variables. On la note

La matrice

C=

1 T
X X
n

Elle est symetrique. Son polyn


ome

v (x) c(x, y)
|C I2 | =
c(x, y) v (y)

Anne B Dufour

catacteristique secrit :


= 2 (v (x) + v (y))c 2 (x, y)

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Recherche du vecteur directeur u (4)


I

Le polynome caracteristique a toujours deux racines donc C a


toujours deux valeurs propres et deux vecteurs propres.
Les valeurs propres sont en general distinctes. On les note 1
et 2 .
I
I

1 + 2 = v (x) + v (y)
1 2 = v (x) v (y) + c 2 (x, y)

Toute matrice symetrique admet une base de vecteurs propres


orthogonaux. Donc,
C = UUT




u11 u21
1 0
avec U =
et =
u12 u22
0 2
Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Recherche du vecteur directeur u (5)

IS (u) = uT Cu




 
u11 u21
1 0
u11 u12
a
= [a b]
u12 u22
0 2
u21 u22
b



1 0

= [ ]
0 2

= 1 2 + 2 2 1 2 + 1 2 = 1


represente les coordonnees du vecteur u dans la base des

vecteurs propres.
Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Recherche du vecteur directeur u (6)

Linertie
 ne peut
 depasser la premi`ere valeur propre et latteint

1
pour
=
, donc le premier vecteur propre.

0
Conclusion dans le cas de 2 variables :
Laxe principal dun nuage bivari
e est le premier vecteur
propre de la matrice de variance-covariance des deux
variables.

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Recherche du vecteur directeur u (7)

Generalisation `a p variables
C = UUT admet une base de p vecteurs propres orthonormes.
I

Le premier vecteur propre norme u1 est un vecteur de Rp qui


maximise linertie projetee.

Le deuxi`eme vecteur propre norme u2 est un vecteur de Rp ,


orthogonal `a u1 qui maximise `a nouveau linertie projetee.

et ainsi de suite pour u3 . . . up axes suivants.

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Coordonnees des projections

Si uk est le vecteur propre de rang k , les coordonnees des


projections des n points sont obtenus simplement par :


Pp

l1k
hM1 |uk i
j =1 (x1j xj )ujk

..
..
lk = ... =
=

.
.
Pp
lnk
hMn |uk i
j =1 (xnj xj )ujk
soit en ecriture matricielle : lk = Xuk .

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Axes principaux et coordonnees


I
I

uk est appele axe principal de rang k .


lk est appele vecteur des coordonn
ees sur laxe principal.
Cest une variable artificielle de moyenne nulle et de variance
k .
m(lk ) =

p
n
n
1 XX
1X
lik =
(xij xj )ujk
n
n

i=1
p
X

ujk

j =1

v (lk ) =
=

i=1 j =1

1
n

n
X

(xij xj ) = 0

i=1

n
1X 2
1
lik = (Xuk )T Xuk = uT
k Cuk
n
n

i=1
k uT
k uk

= k

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

Le graphe des valeurs propres


I

La coordonnees sur laxe de rang k est donc centree de


variance k .

La somme des valeurs propres est linertie totale.


p
X

j =

j =1

p
X

v (xj )

j =1

o`
u xj est la variable j du tableau X.
Le graphe des valeurs propres exprime la mani`ere dont la variabilite
des donnees se repartit dans lespace.
Cest une representation en batons avec k sur laxe horizontal et
k sur laxe vertical . En anglais, on parle de screeplot.
Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Exemple en deux dimensions


Inertie dun nuage de points
Repr
esentations graphiques

La carte factorielle

La representation du nuage projete sur un couple daxes principaux


est appelee carte factorielle. Cest une mani`ere de voir
linformation multidimensionnelle.
La carte factorielle des axes 1 et 2 est dite premier plan factoriel et
represente la part maximale de la variabilite. Chaque point i est
positionne par ses deux coordonnees (li1 , li2 ).

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Retour `
a l
enonc
e
Recherche du vecteur y norm
e

Enonce (1)
On vient detudier la projection dun nuage de n points sur des
axes qui maximisent linertie projetee (situation A).

On sinteresse maintenant `a lensemble de p points dans Rn


(situation B).
Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Retour `
a l
enonc
e
Recherche du vecteur y norm
e

Enonce (2)
Le point de vue de cette analyse a ete propose par Hotelling
(1933) dans le cas o`
u les donnees sont centrees reduites.
Soit y une variable quelconque. On peut calculer sa correlation
avec chacune des variables de depart xj (j = 1, p). Le lien entre y
et X peut se mesurer par la relation :
L (y, X) =

p
X

r 2 y, xj

j =1

Objectif : Trouver une variable y qui optimise cette quantite.


Le probl`eme reste inchange si on suppose y de moyenne nulle et de
variance 1.
Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Retour `
a l
enonc
e
Recherche du vecteur y norm
e

Enonce (3)


r 2 y, xk est :
I

le carre de la norme du projete de y sur le vecteur xk , vecteur


centre reduit,

le carre de la norme du projete de xk sur le vecteur y.

Le lien est alors linertie projetee du nuage des variables sur y en


pensant que le poids de chaque variable est 1 et que le produit
scalaire de Rn est D = n1 In .
Cest donc le meme probl`eme que precedemment.

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Retour `
a l
enonc
e
Recherche du vecteur y norm
e

Donnees centrees reduites

Reprenant les resultats de la representation des individus lorsque les


variables du tableau X sont centrees reduites. Il est alors note X .
On cherche les axes principaux, vecteurs propres de la matrice
1 T
e de la matrice de variance-covariance C `a la
n X X . On est pass
matrice des correlations R.
R=

1 T
X X = UUT et L = X U
n

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Retour `
a l
enonc
e
Recherche du vecteur y norm
e

Recherche du vecteur y (1)

L (y, X) =

p
X



r 2 y, xk = 1hy|xk i2

k =1


L (y, X) =

1 T
X y
n

T 

1 T
X y
n


=

1 T
y X XT
y
n2

OnPcherche y norme pour le produit scalaire D sous la contrainte


n
1
2
i=1 yi = 1.
n

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Retour `
a l
enonc
e
Recherche du vecteur y norm
e

Recherche du vecteur y (2)


On note que

1
n

Pn  1 2
2 peut s
yi
.
e
crire
=
y
i=1 i
i=1
n

Pn

On pose donc z = 1n y et on cherche z norme pour le produit


scalaire ordinaire maximisant :
1 T
z X XT
z
n
On pose S = n1 X XT
etrique qui admet
. Cest une matrice sym
une base de vecteurs propres orthogonaux :
S = VVT

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Retour `
a l
enonc
e
Recherche du vecteur y norm
e

Vecteurs propres de S

SL =

1
X XT
X U = X RU = X U = L
n

Les matrices S et R ont les memes valeurs propres non nulles.

Les vecteurs que lon cherche sont connus : `a une constante


de normalisation pr`es, les coordonnees des individus sur les
axes principaux.
V = L1/2

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Retour `
a l
enonc
e
Recherche du vecteur y norm
e

Solution et representation graphique


L (y, X) ne peut pas depasser 1 et latteint pour la variable
normee 1 l1 .
1
Ce vecteur est appele premi`
ere composante principale. Cest la
variable qui est la plus correlee avec toutes les variables du tableau.
Quand on projette les variables sur les composantes principales, on
obtient les coordonnees des variables.
K=

1
1 T
X L1/2 = XT
X U1/2 = RU1/2 = U1/2
n
n

La representation liant variables et composantes principales est


appelee cercle des corr
elations.

Anne B Dufour

Analyse en Composantes Principales

Introduction
Repr
esentation des individus
Repr
esentation des variables
Conclusion

Conclusion

LAnalyse en Composantes
Principales dite A.C.P. est letude du

triplet X, Ip , n1 In .
I

Si les donnees sont centrees, on parle d ACP centr


ee.

Si les donnees sont normees, on parle d ACP norm


ee.

Pour des complements dinformations, consulter les fiches de


cours : BS4, BS5.

Anne B Dufour

Analyse en Composantes Principales

Vous aimerez peut-être aussi