Vous êtes sur la page 1sur 11

Analyse de donnes Module 2 : Lanalyse en composantes principales - Exercices prparatifs M2

Module 2 : Lanalyse en composantes principales -


Exercices prparatifs

Lanalyse en composantes principales est note ACP. Elle sapplique tous les tableaux de donnes
o les variables sont de type quantitatif. Cest la mthode de rfrence pour deux raisons :
- cest la plus facile exposer sur le plan mathmatique,
- cest une mthode qui peut servir de support dautres techniques statistiques comme par
exemple la rgression orthogonale, la construction dindicateurs synthtiques, la prvision
dune chronique ou encore complter une information manquante dans un tableau.
Avant de prsenter formellement la mthode de lACP (Module suivant), on va essayer dans ce
module, dintuiter la dmarche travers deux exemples.

1er exemple

On considre le tableau suivant :


Individus\variables Y X
1 20 10
2 82 40
3 44 20
4 65 30
5 25 15
Somme 236 115

((ri , rj ), ri = rj = 1, ri * rj = 0), conduit au nuage des individus (nuage de rgression)


La reprsentation graphique des individus dans lespace R des deux variables, en utilisant une base
orthonorme
Y
suivant :

100

90

80 2 nuage de rgression

70
4
60

50
G( X, Y )
3
40

30
5
20 1

r10 r
j i
0 X
0 10 20 30 40 50 60 70 80 90 100

1 / 11
Analyse de donnes Module 2 : Lanalyse en composantes principales - Exercices prparatifs M2

Avec la rgression, il est parfois possible de visualiser linformation contenue dans le nuage de
rgression (les proximits relatives des 5 points)
Le tableau des calculs permettant de trouver les lments dune rgression sur donnes centres
(x,y) et non centre (X,Y) est le suivant :.
2
Ind Y X X2 XY Y2 y = Y Y x = X X y x2 xy Y
1 20 10 100 200 400 -27,20 -13,00 739,84 169,00 353,60 18,99
2 82 40 1600 3280 6724 34,80 17,00 1211,04 289,00 591,60 84,09
3 44 20 400 880 1936 -3,20 -3,00 10,24 9,00 9,60 40,69
4 65 30 900 1950 4225 17,80 7,00 316,84 49,00 124,60 62,39
5 25 15 225 375 625 -22,20 -8,00 492,84 64,00 177,60 29,84
Somme 236 115 3225 6685 13910 0,00 0,00 2770,80 580,00 1257,00 236,00
Il permet de calculer les caractristiques qui conduisent aux paramtres de la rgression.

Yi =
1 236
Y= = 47.2
n 5

Xi =
1 115
X= = 23
n 5

V [Y ] = Yi2 Y2 = (47.2)2 = 554.16


1 13910
n 5

[Y ] = V [Y ] = 554.16 = 23.54

V [X] = Xi2 X2 = (23 )2 = 116


1 3225
n 5

[X] = V [X ] = 116 = 10.77

cov[X, Y ] 1 XY nXY 1 ( 6685 5 * 47.2 * 23)


[X] [Y ]
rYX = = 0.9916 rXY = = = 0.9916
n X Y 5 10.77 * 23.54

r 2 = 0.98

r 2 , le coefficient de dtermination, nous indique que 98% du nuage de rgression est expliqu par la
droite de rgression Y = aX + b .
Il est donc possible dutiliser cette droite pour rsumer le nuage de rgression.
La mthode de calcul des paramtres a et b de la droite de rgression consiste minimiser la somme
des carrs des rsidus entre les valeurs observes Yi et le valeurs calcules Yi

La minimisation de la somme des carts au carr porte le nom de mthode des MCO. Cela scrit :

(
Min Yi Yi )2
On dmontre que :
cov (X, Y ) [Y ] 23.54
[X]
a = =r = 0.9916 * = 2.17
V( X) 10.77

b = Y aX 47.2 2.17 * 23 = 2.71 (la droite passe par le point G( X, Y ) qui est le centre de
gravit du nuage des points des individus).

Y = 2.17 X 2.71

2 / 11
Analyse de donnes Module 2 : Lanalyse en composantes principales - Exercices prparatifs M2

Le nuage de rgression permet de connatre linformation concernant les individus du tableau. Par
exemple, on visualise le point 1 proche du point 5 et le point 1 loin du point 2. Il est possible aussi de
quantifier cette information en calculant toutes les distances au carr (thorme de Pythagore) entre
les paires de points et de les classer par ordre croissant.
Le graphe de rgression montre que le nuage de point est insr dans une ellipse aux bords aplatis ,
ce qui signifie que ce nuage peut tre rsum au moyen dune droite de rgression. Cette observation
est confirme par le calcul du coefficient de corrlation r = 0.99 , ce qui signifie quil existe une
relation troite et positive entre X et Y. Il est donc possible de substituer au nuage de rgression, la
droite Y = 2.17 X 2.71 ou encore la droite sur variables centres y = 2.17 x qui a pour origine le
point G( X, Y ) . (Cf le tableau prcdent pour le dtail des calculs)

On peut donc calculer les projections au sens des moindre carrs (paralllement laxe des
ordonnes) des 5 points sur la droite de rgression.

Ces projections sont donnes pour les variables non centres par les calculs Y1, L , Y5 . On constate
alors que si on calcule la distance, par exemple, entre Y1 et Y5 au carr, on trouve environ celle du
nuage de rgression entre le point 1 et le point 5.

Par consquent, linformation concernant les 5 points sur laxe Y est conserve par rapport celle du
nuage de rgression. On peut donc dire que lanalyse de donnes a eu lieu puisque linformation est
pratiquement identique sur laxe que dans le plan.
On peut aussi rsumer linformation contenue dans le nuage de points en utilisant non pas les
projections sur la droite de rgression des points au sens des MCO, mais leurs projections
orthogonales sur cette mme droite, en conservant pour origine de laxe, le point G et en construisant
un vecteur unitaire dont on connat les coordonnes dans lespace R ; les projections orthogonales
des 5 points sur cette droite dont donnes par le produit scalaire entre le vecteur unitaire et un
vecteur qui a pour origine le point G et pour extrmit le point projeter. On pourrait constater que,
dans ce cas aussi, la distance au carr par exemple entre le point 1 et le point 5 projets est
approximativement identique celle du plan entre les mmes points. Lanalyse de donnes est donc
encore ralisable en procdant de la sorte.
Remarque importante :
r r
lorsque lon travaille sur les variables centres, on a les coordonnes suivantes des vecteurs x et y :

13 27.2

17 34.8
X X = x = 3 Y Y = y = 3.2

r r

7 17.8
8 22.2
r r
Le produit scalaire entre les vecteurs x et y scrit :

x * y = ( 13) * ( 27.2) + L + ( 8 ) * ( 22.2) = 1257 = xiy i


r r
i

xy = cov( x, y)
r r
x*y
De ce fait : =
n n

( x )2
r
Do : V ( x ) = cov( x, x ) =
n

et (x ) =
r
x
n

3 / 11
Analyse de donnes Module 2 : Lanalyse en composantes principales - Exercices prparatifs M2

r r
x*y r r
cov( x, y ) n x*y
De plus : r = = r r = r r
( x ) ( y ) x y x y
*
n n
Par ailleurs on sait que :

x * y = x * y * cos avec langle form par les deux vecteurs.


r r r r

Do : r = cos .
Ainsi, lorsque les variables sont centres, le coefficient de corrlation entre les 2 variables est
gal au cosinus de langle form par les vecteurs reprsentant ces variables.

Yi Y
Quand on centre et on rduit des variables (par exemple y i = ), on forme des vecteurs qui ont
Y
tous la mme dimension. ( V( y ) = 1 ). De ce fait, la variance est la distance commune tous les
vecteurs (ils se situent sur un cercle de rayon 1) et ils se positionnent les uns par rapport aux autres
par le coefficient de corrlation linaire que lon dduit partir de langle form par les deux vecteurs.

Exemple 2
Soit le tableau de donnes suivant :
Ind\var x1 x2
1 4 5
X (3,2) = 2 6 7

3 8 0

( )
Reprsentation graphique du nuage des 3 points individus dans lespace R des variables ( x1 en
rr
abscisse, x 2 en ordonne). Le systme daxes est orthonorm : base i , j telle que
r r r r
i = j = 1, i * j = 0 .
x2

8
Les 3 points du nuage constituent
7 2 linformation des lignes du tableau. Les
positions relatives de ces 3 points
6
peuvent tre calcules en utilisant la
distance euclidienne.
5 1

1 r r
j i 3
0 x1
0 1 2 3 4 5 6 7 8 9

4 / 11
Analyse de donnes Module 2 : Lanalyse en composantes principales - Exercices prparatifs M2

(r r r )
3
Reprsentation graphique du nuage des 2 points variables dans lespace R des individus. Le
systme daxes est orthonorm : base i , j,k telle que :
r r r r r r r r r
i = j = k = 1, i * j = 0 i * k = 0 j * k = 0 .

x2

r
j r
i
1
x1 r
k

Les points du nuage constituent linformation donne par les colonnes du tableau. Ici aussi, on peut
calculer la distance euclidienne entre les deux point.
Calcul des caractristiques des colonnes du tableau
Calcul de la moyenne et de lcart type de x1 et x 2 :

18 12
x1 = =6 x2 = =4
3 3
116
V ( x1) = 62 = 2.67 ( x1) = 1.633
3
74
V ( x2 ) = 42 = 8.67 ( x2 ) = 2.944
3
Calcul de la moyenne et de lcart type de 1, 2, 3 :
9 13 8
1= = 4.5 2= = 6 .5 3= =4
2 2 2
41
V (1) = ( 4.5 )2 = 0.25 (1) = 0.5
2
85
V ( 2) = ( 6.5)2 = 0.25 ( 2) = 0.5
2
64
V ( 3) = ( 4 )2 = 16 (3 ) = 4
2

5 / 11
Analyse de donnes Module 2 : Lanalyse en composantes principales - Exercices prparatifs M2

Construction du tableau des variables centres et rduites :


x1 x2 x1 x1 x 2 x2 x x1 x2 x2
z1 = 1 z2 =
( x1) ( x 2 )
1 4 5 -2 1 -1.225 0.34
Z( 3,2) = 2 6 7 0 3 0 1.02

3 8 0 2 -4 1.225 -1.36
18 12 0 0 0 0

on vrifie que : z1 = z 2 = 0 , V ( z1 ) = V( z 2 ) = 1 et Cov (z1, z 2 ) = rz1, z 2

( )
Reprsentation graphique du nuage des 3 points individus dans lespace R des variables rcentres
2
r
rduites ( z1 en abscisse et z 2 en ordonne). Le systme daxes est orthonorm : base i , j telle
r r r r
que i = j = 1, i * j = 0 . Dans cet espace, lorigine des axes (point 0) est confondu avec le centre
de gravit du triangle (Point G ( z1 = 0, z 2 = 0)

Z2
2

1 2
r r
1 j i
0 Z1
-2 -1 0 G 1 2

-1
3

-2

3
Dans lespace R des individus, se situent les deux variables centres rduites. Avec un systme
daxes orthonorm on peut calculer :
En utilisant les variables centres rduites dans lespace trois dimensions des individus avec un
systme orthonorm on peut calculer :

3 3
d (0, z1 ) = +0+ =3
2 2

2
2
2
Do

d (0, z1 ) = 1 la variance de z1
1 2
3

3
d (0, z 2 ) = + 3 2 + 4 3 = 3
2 2 2

26 26 26
2

d (0, z 2 ) = 1 la variance de z2
1 2
3

6 / 11
Analyse de donnes Module 2 : Lanalyse en composantes principales - Exercices prparatifs M2

Dans cet espace, la distance au carr entre lorigine et une variable est, N = 3 prs, la variance de la
variable. Quand les variables sont centres et rduites, toutes les variables sont quidistantes de
lorigine. Cette distance est, au nombre dobservations prs, la variance des variables.
Rcapitulatif : prsentation des calculs :

x1 x2
1 4 5
X = 2 6 7
( 3,2)
3 8 0
xij x j
Zij =
x j
x 6 4

x j 2 26
2
3 3

Tableau des variables centres rduites :


z1 z2 z1 z1
1 3 3
-1,225 0,34
2 26 x ij x j
2 avec zij = .
Z = 3 3 = xi
( 3,2)
0 = 0 1,02
26
3 4 3
3
1,225 -1,36
2 26

Z 0 0 La moyenne des variables


centres et rduites est gale 0.

Lcart type des variables centres et


z j 1 1
rduites est gal 1.

De plus :
cov
r=
( x ) ( y )
comme ( x ) = 1 et ( y ) = 1, le coefficient de corrlation linaire r entre 2 variables est gal la
covariance.
Remarque : on peut aussi traiter linformation contenue dans le tableau de dpart en utilisant le
tableau des individus centrs rduits.
x1 x2 xi ( xi )
1 4 5 4.5 0.5
X( 3,2) = 2 6 7 6.5 0.5
3 8 0 4 4

7 / 11
Analyse de donnes Module 2 : Lanalyse en composantes principales - Exercices prparatifs M2

-1 1
x ij x i
Q ( 3,2) = -1 1 avec qij =
( xi )
1 -1

Il est possible de reprsenter linformation contenue dans ce nouveau tableau comme prcdemment
et den tirer des conclusions.

ZZ
1
Calcul du produit matriciel
N


3 3
15 5

1 1
3 3 2 26
1 2 0 2 13 = 1 0.69
0 3
=
2 13 =

4 3
3 3
26 3 15 5
2
3 3 3 1 0.69 1
26 2 3 2 3
3 3
26 3 4 3
2
26
26

Le rsultat de ce calcul est une matrice carre, de dimension (2,2), note R, contenant les coefficients
de corrlation linaires des variables.
Cette matrice carre R a pour dimension le nombre de variables. Elles possde les proprits
suivantes :
- Elle est symtrique.
- elle a des 1 sur la diagonale principale (les variances des variables)
- Elle a des valeurs infrieures ou gales 1 en valeur absolue.
Dans cette matrice R, on a sur la diagonale les variances des variables, or dans lexercice prcdent
on a vu que cette variance tait, au nombre dobservations prs, la distance de la variable lorigine.
Elle contient de part et dautre de la diagonale le coefficient de corrlation linaire entre les deux
variables. Or dans lexercice prcdent, on a vu que ce coefficient de corrlation tait le cosinus de
langle form par les deux variables. Langle form par les deux variables peut donc en tre dduit.
Avec la matrice R, il est donc possible de reprsenter dans lespace les positions relatives des
variables entre elles. Cette matrice R nous donne donc linformation recherche concernant les
variables. Cest la raison pour laquelle elle porte le nom de matrice dinformation des variables.
Calcul du produit matriciel ZZ :



3 3
21 51
3 13 26
9
3
36
2 26

26
2 = 9 = V
0
ZZ' = 0 3
3 3 2 27
26 4 3 26 26 (3,3)
4 3 26 51 36 87
3 3 26
3 26
2 26 26
26
26 26

Cette matrice V nest pas une matrice de corrlation, mais elle y ressemble. On lui donne le nom de
matrice dinformation des individus. Elle est symtrique ; sa diagonale est la somme des carrs des
individus lignes du tableau et de part et dautre on trouve la somme des produits lignes deux deux
des individus
Caractristiques de la matrice R
Les caractristiques dune matrice sont donnes par les vecteurs propres associs aux valeurs
propres de la matrice.

8 / 11
Analyse de donnes Module 2 : Lanalyse en composantes principales - Exercices prparatifs M2

On appelle vecteur propre associ la valeur propre de la matrice R la solution du systme


dquation homogne RX = X [R-I]X = 0.
On sait que si dans ce systme dquation le dterminant de la matrice R 0 , alors ce systme
possde une et une seule solution qui est X = 0 et que lon appelle la solution triviale. Cest la raison
pour laquelle pour que ce systme ait des solutions autres que celle-ci, il faut que le dterminant
R = 0 . Or ce dterminant conduit une quation (quation caractristique) qui a pour variable
et pour degr la dimension de la matrice R.
Les racines de cette quation donnent les diffrentes valeurs de et portent le nom de valeurs
propres. Pour chacune des valeurs propres, on pourra calculer partir du systme de dpart, une
infinit de vecteurs X quon appelle les vecteurs propres. Parmi cette infinit de vecteurs propres, on
recherche par la suite le vecteur propre de norme 1 (cest--dire le vecteur unitaire).
Dans ce cas on a :
R X = X avec R
( 2,2 ) ( 2,1) ( 2,1)

[R ] X = 0
1 0.69 1 0 x1 0
R= =
0.69 1 0 1 x 2 0

1 0.69 x1 0
R= =
0.69 1 x 2 0

(1 )x1 0.69 x 2 = 0

0.69 x1 + (1 )x 2 = 0
Calcul du dterminant :

1 0.69
R = = (1 ) ( 0.69 )
0.69 1
2 2

= (1 0.69 )(1 + 0.69 )


= (0.31 )(1.69 )
1 = 1.69
2 = 0.31
deux valeurs propres de R.

Si on additionne 1.69 + 0.31 = 2, on obtient la dimension de la matrice (le nombre de variables du


tableau).
Calcul des vecteurs propres associs
 pour 1 = 1.69

[T ]X = 0
1 0.69 1.69 0 x1
= 0
0.69 1 0 1.69 x 2

0.69 0.69 x1
= 0
0.69 0.69 x 2

0.69 x1 0.69 x 2 = 0

0.69 x1 0.69 x 2 = 0

9 / 11
Analyse de donnes Module 2 : Lanalyse en composantes principales - Exercices prparatifs M2

x1 + x 2 = 0

k
V1 = k R
k
r

On a une infinit de vecteurs propres ports par la seconde bissectrice du plan (x1, x 2 ) .
r r

Pour trouver un vecteur propre norm il faut que :

1 2
k 2 + k 2 = 1 2k 2 = 1 k 2 = k =
2 2
En retenant pour k la valeur positive, on dfinit :

2

b1 = 2 = vecteur propre norm de R.
r
2
2

 Pour 2 = 0.31

0.69 0.69 x1
= 0
0.69 0.69 x 2

0.69 x1 0.69 x 2 = 0

0.69 x1 + 0.69 x 2 = 0
x1 x 2 = 0 x 2 = x1

k
V2 = k R
r
k
Pour trouver un vecteur propre norm il faut que :

2
k 2 + k 2 = 2k 2 = 1 k =
2
2

b 2 = 2 = vecteur propre norm de R.
r
2
2

Ces vecteurs propres norms constituent une nouvelle base orthonorme dans laquelle la norme de
chaque vecteur =1 et leur produit scalaire est nul :

2 2

2 * 2 = 2 2 = 0
r
2 2
=
b1 = 1
2 2 2
2
2
r r


et b * b

1

r
b2 = 1
2 2
On peut alors placer les coordonnes (dans lancienne base) de ces vecteurs dans une matrice
B ( 2,2) , dans lordres dcroissant de leurs valeurs propres.

10 / 11
Analyse de donnes Module 2 : Lanalyse en composantes principales - Exercices prparatifs M2

2 2

B ( 2,2) = 2 2 coordonns des vecteurs b et b dans lancien systme daxes.
2
2
1 2

2
2

Cette matrice est une matrice orthogonale et vrifie donc : B = B , soit BB = I


1

Caractristique de la matrice V

Si on calcule comme prcdemment les valeurs propres de la matrice V : V = 0 c'est--dire :

1.62 0.35 1.96


0.55 1.04 1.38 = 0
1.96 1.38 3.35

1 = 5.07
on trouve : 2 = 0.93
3 = 0
Si on porte dans un tableau les valeurs propres de V et de R on a :
V R
1 = 5.07 1 = 1.69
2 = 0.93 2 = 0.31
3 = 0
j = 6 j = 2 = n
On voit que si on multiplie les valeurs propres de la matrice R par 3, on obtient les deux premires
valeurs propres de la matrice V et que la dernire valeur propre de V est nulle.

On peut dmonter que les valeurs propres de la matrice V sont gales aux
valeurs propres de R multiplies par N et quil y a dans la matrice V, N-n
valeurs propres nulles.

On peut aussi dmontrer quil est possible de calculer les vecteurs propres de V connaissant ceux de
R. Et donc, quen dfinitive, les caractristiques de R permettent de calculer celles de V et
rciproquement.

11 / 11

Vous aimerez peut-être aussi