Vous êtes sur la page 1sur 17

I Les donnees quantitatives

II Formulation matricielle
III Geometrie des nuages de points
IV Approche matricielle du probleme
Variables quantitatives : V Les elements de lACP
analyse en composantes VI Aspects pratiques

principales VII Qualite de lanalyse


VIII Interpretation externe
IX LACP en trois transparents

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 1

Description de donnees quantitatives Moyenne arithmetique

Definition On appelle variable un vecteur x de taille n. Chaque coordonnee xi


correspond a un individu. On sinteresse ici a des valeurs numeriques.
Definition On note n
Poids Chaque individu peut avoir un poids pi, tel que p1 + + pn = 1, notamment 1X
x = xi ,
quand les individus nont pas la meme importance (echantillons redresses, donnees n i=1
regroupees,...). On a souvent p = 1/n. ou pour des donnees ponderes
Resumes on dispose dune serie dindicateurs qui ne donne quune vue partielle des n
X
donnees : effectif, moyenne, mediane, variance, ecart type, minimum, maximum, eten- x = p i xi .
due, 1er quartile (25% inferieurs), 4eme quartile (25% superieurs), ... Ces indicateurs i=1
mesurent principalement la tendance centrale et la dispersion. Proprietes la moyenne arithmetique est une mesure de tendance centrale qui depend
On utilisera principalement la moyenne, la variance et lecart type. de toutes les observations et est sensible aux valeurs extremes. Elle est tres utilisee a
cause de ses bonnes proprietes mathematiques.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 3 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 4
Variance et ecart-type Mesure de liaison entre deux variables

Definition la variance de x est definie par Definitions la covariance observee entre deux variables x et y est
n n
1X X n
X n
X
x2 = (xi x)2 ou x2 = pi(xi x)2
n i=1 xy = pi(xi x)(yi y) = pixiyi xy.
i=1
i=1 i=1

Lecart-type x est la racine carree de la variance.


et le coefficient de r de Bravais-Pearson ou coefficient de correlation est donne par
Proprietes La variance satisfait la formule suivante
Pn
n
xy i=1 pi (xi x)(yi y)
X rxy = = pPn pPn .
x2 = pix2i (x)2 xy i=1 pi (xi x)
2
i=1 pi (yi y)
2

i=1
Ces deux grandeurs sont symetriques : xy = yx et rxy = ryx.
La variance est la moyenne des carres moins le carre de la moyenne . Lecart-type,
qui a la meme unite que x, est une mesure de dispersion.
Attention ! les calculatrices utilisent lestimateur sans biais de la variance dans lequel
le 1/n est remplace par 1/(n1).

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 5 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 6

Proprietes du coefficient de correlation Le coefficient de correlation par lexemple


0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

0.8
x1 0.13
0.99 0.099

0.4
Borne On a toujours (inegalite de Cauchy-Schwarz)

0.0

0.8

0.89






x2 0.15

0.4





0.0
1 rxy 1.

0.0




1.5 1.0 0.5














x3 0.10




Variables liees |rxy | = 1 si et seulement si x et y sont lineairement liees :


0.8





x4

0.4










0.0

0.0 0.2 0.4 0.6 0.8 1.0 1.5 1.0 0.5 0.0

axi + byi = c, pour tout 1 i n.


Interpretation on a 4 variables numeriques avec 30 individus. Les variables 1 et 2
En particulier, rxx = 1. sont independantes ; les variables 1 et 3 ont une relation lineaire ; les variables 2 et 4
Variables decorrelees si rxy = 0, on dit que les variables sont decorrelees. Cela ne ont une relation non-lineaire.
veut pas dire quelles sont independantes !

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 7 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 8
Que signifie une correlation lineaire ?
Quest ce qui est significatif ? si on a assez de donnees, on peut considerer quune I Les donnees quantitatives
correlation superieure a 0, 5 est forte, et une correlation entre 0, 3 et 0, 5 est moyenne.
Une correlation egale a un indique que les deux variables sont equivalentes. II Formulation matricielle
Quest-ce que cela veut dire ? une correlation significative indique une liaison III Geometrie des nuages de points
entre deux variables, mais pas necessairement un lien de causalite. Exemple :
IV Approche matricielle du probleme
Le nombre de pompiers presents pour combattre un incendie est correle aux
degats de lincendie. Mais ce ne sont pas les pompiers qui causent les degats. V Les elements de lACP
Et une decorrelation ? voici un exemple ou r = 0 VI Aspects pratiques
VII Qualite de lanalyse

5

VIII Interpretation externe



4

IX LACP en trois transparents



3
y

4 2 0 2 4

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 9

Pense-bete matrices (1/2) Pense-bete matrices (2/2)


Matrice tableau de donnees carre ou rectangulaire, note par un lettre majuscule
Transposition echange des lignes et des colonnes dune matrice ; on note A0 la
grasse (ex : A).
transposee de A.
Vecteur matrice a une seule colonne, note par une lettre minuscule grasse (ex : x).
Cas particuliers matrice identite a n lignes et n colonnes et vecteur unite de dimen- (A0)0 = A, (A + B)0 = A0 + B0, (AB)0 = B0A0
sion n :
Trace la trace dune matrice carree est la somme des termes de sa diagonale
1 0 1
In = ... , 1n = .. .
Tr(AB) = Tr(BA), Tr(ABC) = Tr(CAB) = Tr(BCA) 6= Tr(CBA)
0 1 1
Addition Possible quand les dimensions sont egales ; on ajoute les coefficients. Inverse si A et B sont carrees de taille n, alors
A+B=B+A
AB = In = BA = In On note B = A1 (inverse de A)
Produit Contrainte lignes/colonnes : A B = C
(np) (pk) (nk)
Nombre de colonnes de la premiere matrice egal au nombre de lignes de la seconde

AB 6= BA, InA =AIp = A, (A + B)C = AC + BC

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 11 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 12
Tableau de donnees La matrice des poids

Definition on associe aux individus un poids pi tel que


On note xji la valeur de la j-eme variable pour le i-eme individu. X est une matrice
rectangulaire a n lignes et p colonnes. p1 + + pn = 1

x11 x21 xp1 xj1 et on represente ces poids dans la matrice diagonale de taille n
x12 x22 xj
.. 2

X = (x , . . . , x ) =
1 p

et donc xj =

.
p1 0
xji p2
.. ... .. D=
...
.

x1n xpn xjn 0 pn

xj est une variable. Un individu est represente par Cas uniforme tous les individus ont le meme poids pi = 1/n et D = n1 In.

e0i = [x1i , . . . , xji , . . . , xpi]

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 13 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 14

Point moyen et tableau centre Matrice de variance-covariance


Point moyen cest le vecteur g des moyennes arithmetiques de chaque variable :

g0 = (x1, . . . , xp), Definition cest une matrice carree de dimension p


2
1 12 1p
ou n 21
X V= ,
j
x = pixji . .. ...
i=1 p1 p2
On peut aussi ecrire g = X0D1n. ou kl est la covariance des variables xk et x` et j2 est la variance de la variable xj
Tableau centre il est obtenu en centrant les variables autour de leur moyenne Formule matricielle
V = X0DX gg0 = Y0DY.
yij = xji xj

ou, en notation matricielle,

Y = X 1ng0 = (I 1n10nD)X

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 15 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 16
Matrice de correlation
I Les donnees quantitatives
II Formulation matricielle
Definition Si lon note rk` = k`/k `, cest la matrice p p
III Geometrie des nuages de points
1 r12 r1p
r21 1 IV Approche matricielle du probleme
R=
.. ...
,
V Les elements de lACP
rp1 1
VI Aspects pratiques
Formule matricielle R = D1/ VD1/ , ou VII Qualite de lanalyse
VIII Interpretation externe
1
1 0
... IX LACP en trois transparents
D1/ =
1
0 p

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 17

Lanalyse de composantes principales (ACP) Exemple en dimension 2


On veut passer de 2 variables a 1 seule.
x2
Contexte chaque individu est considere comme un point dun espace vectoriel F de
dimension p. Lensemble des individus est un nuage de points dans F et g est son
centre de gravite.
Principe on cherche a reduire le nombre p de variables tout en preservant au maxi-
mum la structure du probleme.

Pour cela on projette le nuage de points sur un sous-espace de dimension


inferieure.

x1

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 19 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 20
Exemple en dimension 2 (suite) Distance entre individus
On cherche la direction qui differencie le plus les points entre eux.
Motivation afin de pouvoir considerer la structure du nuage des individus, il faut
x2 definir une distance, qui induira une geometrie.
Distance euclidienne classique la distance la plus simple entre deux points de Rp
est definie par
p
X
d2(u, v) = (uj vj )2 = ku vk2
j=1

Generalisation simple on donne un poids mj > 0 a la variable j

p
X
2
d (u, v) = mj (uj vj )2
j=1


Utiliser ce poids est equivalent a multiplier la coordonnee j par mj

x1

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 21 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 22

Metrique Proprietes du produit scalaire

Definition soit M = diag(mj ), ou m1, . . . , mp sont des reels strictement positifs.


On pose
Le produit scalaire est commutatif
p
X
kuk2M 0
= u Mu = mj u2j , hu, viM = hv, uiM
j=1

d2M(u, v) = ku vk2M. Le produit scalaire est lineaire

Espace metrique il est defini par le produit scalaire hu, v + wiM = hu, viM + hu, wiM,
hu, viM = hu, viM pour tout R.
p
X
hu, viM = u0Mv = mj uj vj .
Identite remarquable
j=1

On notera que kuk2M = hu, uiM. ku + vk2M = kuk2M + kvk2M + 2hu, viM

Orthogonalite on dit que u et v sont M-orthogonaux si hu, viM = 0.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 23 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 24
Le cas de la metrique D1/2 Utilisation des metriques

Pourquoi cette metrique ?


pour que les distances soient independantes des unites de mesure Utiliser une metrique est donc equivalent a tordre les donnees, par exemple pour
pour quelles ne privilegient pas les variables dispersees. les rendre comparables
x2 x2
Equivalence avec les donnees reduites on a D1/2 = D1/ D1/ et donc

hu, viD1 = hD1/ u, D1/ vi.


/ 2

Travailler avec la metrique D1/2 est equivalent a diviser chaque variable par son ecart-
type et a utiliser la metrique I.
Donnees centrees reduites cest le tableau Z contenant les donnees

xji xj x1 x1
zij = ,
j
Exemple utiliser la metrique reduite est equivalent a travailler sur les donnees centrees
qui se calcule matriciellement comme Z = YD1/ . reduites Z = YD1/ .

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 25 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 26

Inertie Metriques particulieres


Definition linertie en un point v du nuage de points est
n
X n
X
Iv = pikei vk2M = pi(ei v)0M(ei v). Metrique usuelle M = Ip correspond au produit scalaire usuel et
i=1 i=1
p
X
Inertie totale cest Ig , qui est la plus petite inertie possible, puisque Ig = Tr(V) = i2
j=1
Iv = Ig + kv gk2M
Metrique reduite obtenue quand M = D1/2 = D21/
Autres relations Ig mesure la moyenne des carres des distances entre les individus
n X
X n Ig = Tr(D1/2 V) = Tr(D1/ VD1/ ) = Tr(R) = p.
2Ig = pipj kei ej k2M.
i=1 j=1

Linertie totale est aussi donnee par la trace de la matrice VM (ou MV)

Ig = Tr(VM) = Tr(MV),

la trace dune matrice etant la somme de ses elements diagonaux.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 27 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 28
Lanalyse de composantes principales (version 2)
I Les donnees quantitatives
II Formulation matricielle
Principe on cherche a projeter le nuage de points sur un espace Fk de dimension
k < p. III Geometrie des nuages de points

Critere on veut que la moyenne des carres des distances entre les points projetes soit IV Approche matricielle du probleme
maximale (elle est toujours plus petite que pour le nuage original).
V Les elements de lACP
VI Aspects pratiques
VII Qualite de lanalyse
Pour cela on cherche Fk , sous espace de dimension k de Fp, tel que
linertie du nuage projete sur Fk soit maximale. VIII Interpretation externe
IX LACP en trois transparents

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 29

Rappels : valeurs propres et vecteurs propres Valeurs et vecteurs propres : un exemple concret
Definition un vecteur v 6= 0 de taille p est un vecteur propre dune matrice A de
taille p p sil existe C telle que
La matrice
5 1 1
Av = v. 2 4 2
1 1 3
est une valeur propre de A associee a v.
a pour vecteurs propres
Domaine En general, les vecteurs propres et valeurs propres sont complexes ; dans
tous les cas qui nous interessent, ils seront reels.

0 1 1
Interpretation des vecteurs propres ce sont les directions dans lesquelles la ma- v1 = 1 , v2 = 0 , v3 = 1 .
trice agit. 1 1 0

Interpretation des valeurs propres cest le facteur multiplicatif associe a une


On verifie facilement que les valeurs propres associees sont
direction donnee.
Non unicite des vecteur propres Si v est un vecteur propre de A associe la valeur 1 = 2, 2 = 4, 3 = 6.
propre , alors, pour tout C, v est aussi vecteur propre de A :

A(c) = Av = v = (v).

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 31 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 32
Valeurs et vecteurs propres : cas particuliers Quelques matrices diagonalisables

Matrice nulle sa seule valeur propre est 0, et tout vecteur est vecteur propre. Matrice symetrique une matrice symetrique reelle (A0 = A) possede une base de
vecteurs propres orthogonaux et ses valeurs propres sont reelles
Matrice identite tout vecteur est vecteur propre de I avec valeur propre 1, puisque
Iv = v.
hvi, vj i = 0 si i 6= j, et i R.
Matrice diagonale si D est une matrice diagonale avec les coefficients 1, . . . , p,
alors le i-eme vecteur coordonnee est vecteur propre de D associe a la valeur propre Matrice M-symetrique une matrice M-symetrique reelle (A0M = MA) possede
i . une base de vecteurs propres M-orthogonaux et ses valeurs propres sont reelles
Laction dune matrice diagonale est de multiplier chacune des coordonnees dun
vecteur par la valeur propre correspondante.
hvi, vj iM = 0 si i 6= j, et i R.
Matrice diagonalisable cest une matrice dont les vecteurs propres forment une
base de lespace vectoriel : tout vecteur peut etre represente de maniere unique comme Matrice definie positive cest une matrice symetrique dont les valeurs propres sont
combinaison lineaire des vecteurs propres. strictement positives
Une matrice A de taille p p qui a p valeurs propres reelles distinctes est diagona-
lisable dans R et hvi, vj i = 0 si i 6= j, et i > 0.
Tr(A) = 1 + 2 + + p.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 33 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 34

Analyse de VM Resultat principal

Valeurs propres la matrice VM est M-symetrique : elle est donc diagonalisable et


ses valeurs propres 1, . . . , p sont reelles. Theoreme principal (Admis)
Axes principaux dinertie ce sont les p vecteurs a1, . . . , ap tels que 1. Si Fk est le sous-espace de dimension k portant linertie principale, alors

VMak = k ak , avec hak , a`iM = 1 si k = `, 0 sinon. Fk+1 = Fk fk+1,

Ils sont M-orthonormaux. ou fk+1 est le sous espace de dimension 1 M-orthogonal a Fk portant linertie
maximale : les solutions sont embotees ;
Signe des valeurs propres les valeurs propres de VM sont positives et on peut les 2. Fk est engendre par les k vecteurs propres de VM associes aux k plus grandes
classer par ordre decroissant valeurs propres.

1 2 3 p 0. Interpretation du theoreme lACP sur k + 1 variables est obtenue par ajout dune
variable dinertie maximale a lACP sur k variables. Il nest pas necessaire de refaire tout
le calcul.
Idee du lien avec linertie on sait que Tr(VM) = 1 + + p. Si on ne garde
que les donnees relatives a a1, . . . , aq , on gardera linertie 1 + + q , et cest le
mieux quon puisse faire.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 35 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 36
Les composantes principales
I Les donnees quantitatives Pp
Coordonnees des individus supposons que ei g = `=1 ci` a` , alors
II Formulation matricielle
p
X
III Geometrie des nuages de points
hei g, ak iM = ci`ha`, ak iM = cik
IV Approche matricielle du probleme `=1

V Les elements de lACP La coordonnee de lindividu centre ei g sur laxe principal ak est donc donne par
la projection M-orthogonale
VI Aspects pratiques
VII Qualite de lanalyse cik = hei g, ak iM = (ei g)0Mak .
VIII Interpretation externe
Composantes principales ce sont les variables ck = (c1k , . . . , cnk ) de taille n
IX LACP en trois transparents
definies par
ck = YMak .
Chaque ck contient les coordonnees des projections M-orthogonales des individus
centres sur laxe defini par les ak .

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 38

Representation des individus dans un plan principal Proprietes des composantes principales

Quest-ce que cest ? pour deux composantes principales c1 et c2, on represente Moyenne arithmetique les composantes principales sont centrees :
chaque individu i par un point dabscisse ci1 et dordonnee ci2.
ck = c0k D1n = a0k MY0D1n = 0
Axe 2
e6 car Y0D1n = 0 (les colonnes de Y sont centrees).
e1 Variance la variance de ck est k car
e7

e4 V (ck ) = c0k Dck = a0k MY0DYMak


e2
= a0k MVMak = k a0k Mak = k .
e5 Axe 1
e3 Covariance de meme, pour k 6= `,
e8

cov(ck , c`) = c0k Dc` = = `a0k Ma` = 0.

Quand ? Elle est utile quand les individus sont discernables. Les composantes principales ne sont pas correlees entre elles.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 39 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 40
Facteurs principaux Formules de reconstruction
Reconstruction Les ck et uk permettent de reconstruire le tableau centre Y
p
X p
X
Definition on associe a un axe principal ak le facteur principal uk = Mak de taille
Y= ck a0k = ck u0k M1.
p. Cest un vecteur propre de MV car
k=1 k=1

MVuk = MVMak = k Mak = k uk Preuve il suffit de calculer


Calcul en pratique, on calcule les uk par diagonalisation de MV, puis on obtient les X p  p
X
ck = Yuk . Les ak ne sont pas interessants. ck a0k Ma` = ck a0k Ma` = c` = YMa`.
k=1 k=1
Interpretation Si on pose u0k = (u1k , . . . , upk ), on voit que la matrice des ujk
sert de matrice de passage entre la nouvelle base et lancienne Comme M est inversible et que les ak forment une base, on obtient Y.
p
X Approximation Les k premiers termes fournissent la meilleure approximation de Y
cik = yij ujk par une matrice de rang k au sens des moindres carres (theoreme de Eckart-Young).
j=1
Interpretation Si on pose a0k = (ak1, . . . , akp), on voit que la matrice des akj sert
de matrice de passage entre lancienne base et la nouvelle
p
X
yij = cik akj
k=1
Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 41 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 42

LACP sur les donnees centrees reduites


I Les donnees quantitatives
II Formulation matricielle
Matrice de variance-covariance cest la matrice de correlation car
III Geometrie des nuages de points
IV Approche matricielle du probleme Z0DZ = D1/ Y0DYD1/ = D1/ VD1/ = R.
V Les elements de lACP
Metrique on prend la metrique M = Ip.
VI Aspects pratiques Facteurs principaux ce sont les p vecteurs propres orthonormes de R,
VII Qualite de lanalyse
Ruk = k uk , avec huk , u`i = 1 si k = `, 0 sinon.
VIII Interpretation externe
IX LACP en trois transparents dont les valeurs propres sont classes par valeur decroissante

1 2 3 p 0

Composantes principales elles sont donnees par ck = Zuk .

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 44


Nombre daxes a retenir Nombre daxes a retenir (suite)

Dimension de lespace des individus LACP visant a reduire la dimension de Eboulis des valeurs propres on cherche un coude dans le graphe des valeurs
lespace des individus, on veut conserver aussi peu daxes que possible. Il faut pour cela propres
que les variables dorigine soient raisonnablement correlees entre elles.
Les seuls criteres utilisables sont empiriques.

3.5

3.0
Interpretation des axes on sefforce de ne retenir que des axes a propos desquels
une forme dinterpretation est possible (soit directement, soit en terme des variables

2.5
avec lesquels ils sont tres correles). On donnera des outils a cet effet plus loin dans le

2.0
cours.

1.5
Critere de Kaiser (variables centrees-reduites) on ne retient que les axes asso-

1.0

cies a des valeurs propres superieures a 1, cest-a-dire dont la variance est superieure a

0.5

celle des variables dorigine.

Une autre interpretation est que la moyenne des valeurs propres etant 1, on ne garde

0.0
2 4 6 8 10

que celles qui sont superieures a cette moyenne.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 45 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 46

Lespace des variables Correlation entre composantes et variables initiales


Metrique D il faut munir lespace des variables dune metrique raisonnable. On
choisit toujours la metrique D des poids : Quand on travaille sur les variables centrees-reduites, la correlation entre une com-
posante principale ck et une variable zj est
hx, yiD = x0Dy, kxk2D = x0Dx.
cov(zj , ck ) (zj )0Dck
r(zj , ck ) = p =
Interpretation pour deux variables centrees x et y, on a V (ck ) k

cov(x, y) = hx, yiD, V (x) = kxk2D, et donc le vecteur des correlations de ck avec Z est
hx, yiD
cor(x, y) = c
= cos(xy). Z0Dck
kxkDkykD r(Z, ck ) = (r(z1, ck ), . . . , r(zp, ck ))0 = .
k

Exemple les vecteurs ck / k forment une base D-orthonormale
Comme Z0Dck = Z0DZuk = Ruk = k uk , on a finalement
  (
ck c` 1, si k = `, p p
, = cor(ck , c`) = r(Z, ck ) = k uk , et donc r(zj , ck ) = k ujk .
k ` D 0, sinon.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 47 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 48
Le cercle des correlations Le cercle des correlations (suite)

Quest-ce que cest ? cest une representation ou, pour deux composantes princi- Pourquoi un cercle ? comme les ck / k forment une base D-orthonormale,
pales, par exemple c1 et c2, on represente chaque variable zj par un point dabscisse
r(zj , c1) et dordonnee r(zj , c2). Xp   Xp
j ck j ck ck
z = ,z = r(ck , zj )
k=1
k D k i=1
k

et donc p
X
kzj k2D = V (zj ) = 1 = r2(ck , zj ).
k=1
Les points sont bien a linterieur dun cercle de rayon 1.
Interpretation
les points sont la projection orthogonale dans D des variables dans le plan defini
par les composantes principales c1 et c2.
Il ne faut interpreter la proximite des points que sils sont proches de la circonfe-
Effet taille cela arrive quand toutes les variables sont le meme signe de correlation
rence.
avec la premiere composante principale (positif ou negatif). Cette composante est alors
appelee facteur de taille , la seconde facteur de forme .

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 49 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 50

Contribution dun individu a une composante Individus sur-representes

Pn
Definition On sait que V (ck ) = k = i=1 pic2ik . La contribution de lindividu i Quest-ce que cest ? cest un individu qui joue un role trop fort dans la definition
a la composante k est donc dun axe, par exemple
pic2ik pic2ik
> 0, 25
k k
Interpretation la contribution dun individu est importante si elle excede dun facteur Effet il tire a lui laxe k et risque de perturber les representations des autres points
le poids pi de lindividu concerne, cest-a-dire sur les axes de rang k. Il est donc surtout problematique sur les premiers axes. Un
tel individu peut etre le signe de donnees erronees.
pic2ik
pi, Solution on peut le retirer de lanalyse et le mettre en individu supplementaire .
k

ou de maniere equivalente
p
|cik | k
Choix de selon les donnees, on se fixe en general une valeur de lordre de 2 a 4,
que lon garde pour tous les axes

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 51 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 52
Qualite globale de la representation
I Les donnees quantitatives
II Formulation matricielle
Calcul de linertie on se souvient que Ig = Tr(VM) ; comme la trace dune matrice
III Geometrie des nuages de points est la somme de ses valeurs propres, on a
IV Approche matricielle du probleme
Ig = 1 + 2 + + p.
V Les elements de lACP
VI Aspects pratiques Definition la qualite de la representation obtenue par k valeurs propres est la pro-
portion de linertie expliquee
VII Qualite de lanalyse
VIII Interpretation externe 1 + 2 + + k
1 + 2 + + p
IX LACP en trois transparents
Si par exemple 1 + 2 est egal 90% de Ig , on en deduit que le nuage de points
est aplati autour du premier plan principal.
Utilisation cette valeur sert seulement a evaluer la projection retenue, pas a choisir
le nombre daxes a garder.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 54

Qualite locale de la representation Angle entre un individu et un axe principal

But on cherche a determiner si le nuage de points est tres aplati par la projection sur Il est defini par son cosinus carre. Le cosinus de langle entre lindividu centre i et
les sous-espaces principaux. Dans ce cas, deux individus eloignes pourraient artificielle- laxe principal k est
ment sembler proches les uns des autres. hei g, ak iM
cos(e[i , ak ) = .
kei gkM
car les ak forment une base orthonormale. Comme hei g, ak iM = cik ,

c2ik
cos2(e[
i , ak ) = Pp 2
.
`=1 ci`

Cette grandeur mesure la qualite de la representation de lindividu i sur laxe principal


aj .

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 55 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 56
Angle entre un individu et un sous-espace principal
I Les donnees quantitatives
Cest langle entre lindividu et sa projection orthogonale sur le sous-espace. La II Formulation matricielle
Pq
projection de ei g sur le sous-espace Fq , q p, est k=1 cik ak , et donc III Geometrie des nuages de points
Pq IV Approche matricielle du probleme
2 \ c2ik
cos (ei, Fq ) = Pk=1
p 2
.
k=1 cik V Les elements de lACP
VI Aspects pratiques
La qualite de la representation de lindividu i sur le plan Fq est donc la somme des
qualites de representation sur les axes formant Fq . Elle est significative quand le point VII Qualite de lanalyse
ei nest pas trop pres de g.
VIII Interpretation externe
Criteres Un cos2 egal a 0, 9 correspond a un angle de 18 degres. Par contre, une
valeur de 0, 5 correspond a un angle de 45 degres ! On peut considerer par exemple les IX LACP en trois transparents
valeurs superieures a 0, 80 comme correctes.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 57

Variables supplementaires quantitatives Variables supplementaires qualitatives

Representation on peut representer par des symboles differents les individus de


Motivation les composantes principales etant definies pour maximiser les contribu- chaque categorie sur les axes principaux. Pour savoir si les etiquettes sont liees a laxe k,
tions, le fait que les correlations obtenues soient proches de 1 peut ne pas etre significatif. on peut calculer la coordonnee ck de leur barycentre sur cet axe. Probleme : comment
Par contre, une correlation forte entre une composante principale et une variable nayant linterpreter ?
pas participe a lanalyse est tres significative.
Valeur-test on considere les n individus ayant une certaine caracteristique (homme,
Methode on met de cote certaines variables pour quelles ne soient pas utili- femme...) et la coordonnee ck de leur barycentre sur la k-ieme composante principale.
sees dans lanalyse (on diminue donc la dimension de R en enlevant des lignes et des La valeur-test est
colonnes). On cherche ensuite a savoir si elles sont liees a un axe donne. r r
n n 1
Correlation on calcule la correlation de la variable avec les composantes principales et ck .
on la place dans le cercle des correlations. Si z est le vecteur centre-reduit correspondant k n n
a cette variable, on calcule Quand n est assez grand, elle est significative si sa valeur absolue est superieure a 2 ou
3.
n
cov(z, ck ) hz, ck iD 1 X Idee du calcul Si les n individus etaient pris au hasard, ck serait une variable aleatoire
cor(z, ck ) = p = = pizicik .
V (ck ) k k i=1 centree (les z sont de moyenne nulle) et de variance nk nn
n1 car le tirage est sans remise.

On peut eventuellement utiliser un test statistique pour determiner si une correlation


est significative.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 59 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 60
Individus supplementaires
I Les donnees quantitatives
II Formulation matricielle
Methode on met de cote certains individus pour quils ne soient pas utilisees dans
lanalyse (ils ne sont pas pris en compte dans le calcul des covariances). On cherche III Geometrie des nuages de points
ensuite a savoir si ils sont lies a un axe donne.
IV Approche matricielle du probleme
Cas des individus sur-representes on peut decider dutiliser ces points en indi-
V Les elements de lACP
vidus supplementaires, en particulier quand les points constituent un echantillon et ne
presentent pas dinteret en eux-memes. VI Aspects pratiques
Representation on les ajoute a la representation sur les plans principaux. Pour cal- VII Qualite de lanalyse
culer leur coordonnee sur un axe fixe, on ecrit
VIII Interpretation externe
p
X
ck = hz, uk i = z j ujk , IX LACP en trois transparents
j=1

ou les z j sont les coordonnees centrees-reduites dun individu supplementaire z.


Ces individus peuvent servir dechantillon-test pour verifier les hypotheses tirees de
lACP sur les individus actifs.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 61

Un Deux
Donnees les donnees representent les valeurs de p variables mesurees sur n individus ;
les individus peuvent avoir un poids. En general (et dans ce resume), on travaille sur
des donnees centrees reduites Z (on retranche la moyenne et on divise par lecart type). Nombre daxes on se contente en general de garder les axes interpretables de valeur
propre superieure a 1 (critere de Kaiser).
Matrice de correlation cest la matrice R de variance-covariance des variables
centrees reduites. Elle possede p valeurs propres 1 p 0. Cercle des correlations il permet de visualiser comment les variables sont correlees
Inertie totale cest la moitie de la moyenne des distances au carre entre les individus ; (positivement ou negativement) avec les composantes principales. A partir de la, on
elle mesure letendue du nuage de points. Cest la grandeur quon cherche a garder peut soit trouver une signification physique a chaque composante, soit montrer que les
maximale et elle peut secrire composantes separent les variables en paquets.
Representation des individus pour un plan principal donne, la representation des
Ig = 1 + 2 + + p = p. projections des individus permet de confirmer linterpretation des variables. On peut
aussi visualiser les individus aberrants (erreur de donnee ou individu atypique).
Facteurs principaux uk ce sont des vecteurs propres orthonormes de R associes
aux k : Ruk = k uk . Leur j-ieme composante (sur p) ujk est le poids de la variable Contribution dun individu a une composante cest la part de la variance dune
j dans la composante k. composante principale qui provient dun individu donne. Si cette contribution est su-
perieur de 2 a 4 fois au a son poids, lindividu definit la composante. Si elle est tres
Composantes principales ck ce sont les vecteurs Zuk de dimension n. Leur i- superieure aux autres, on dit quil est sur-represente et on peut avoir interet a mettre
ieme coordonnee cik est la valeur de la composante k pour lindividu i. Les ck sont lindividu en donnee supplementaire.
decorrelees et leur variance est V (ck ) = k .

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 63 Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 64
Trois

Qualite globale de la representation cest la part de linertie totale Ig qui est


expliquee par les axes principaux qui ont ete retenus. Elle permet de mesurer la precision
et la pertinence de lACP.
Qualite de la representation dun individu elle permet de verifier que tous les
individus sont bien representes par le sous-espace principal choisi ; elle sexprime comme
le carre du cosinus de langle entre lindividu et sa projection orthogonale.
Individus supplementaires quand un individu est sur-represente sur un des premiers
axes, on peut le supprimer de lanalyse et le reintroduire dans la representation comme
individu supplementaire.
Variables supplementaires quantitatives certaines variables peuvent etre mises
de cote lors de lACP et reportees separement sur le cercle des correlation.
Variables supplementaires qualitatives elles peuvent etre representees sur la pro-
jection des individus, et leur liaison aux axes est donnee par les valeurs-test.

Cours danalyse de donnees Jean-Marc Lasgouttes annee 2012-2013. 65