Académique Documents
Professionnel Documents
Culture Documents
Jean-Marc Lasgouttes
quantitatives n
X
var(x) = pi x2i − (x̄)2
i=1
Description de données quantitatives
Définition On appelle « variable » un vecteur x de taille La variance est « la moyenne des carrés moins le carré de
n. Chaque coordonnée xi correspond à un individu. On la moyenne ». L’écart-type, qui a la même unité que x, est
s’intéresse ici à des valeurs numériques. une mesure de dispersion.
Poids Chaque individu peut avoir un poids pi , tel que Attention ! les calculatrices utilisent l’estimateur sans biais
p1 + · · · + pn = 1, notamment quand les individus n’ont de la variance dans lequel le 1/n est remplacé par 1/(n−1).
pas la même importance (échantillons redressés, données
regroupées,...). On a souvent p = 1/n.
n
X Propriétés du coefficient de corrélation
x̄ = pi xi .
i=1
Borne On a toujours (inégalité de Cauchy-Schwarz)
Propriétés la moyenne arithmétique est une mesure de
tendance centrale qui dépend de toutes les observations et −1 ≤ cor(x, y) ≤ 1.
est sensible aux valeurs extrêmes. Elle est très utilisée à
cause de ses bonnes propriétés mathématiques.
Variables liées | cor(x, y)| = 1 si et seulement si x et y
sont linéairement liées :
Variance et écart-type
axi + byi = c, pour tout 1 ≤ i ≤ n.
Définition la variance de x est définie par
En particulier, cor(x, x) = 1.
n n
1X X
var(x) = σx2 = (xi − x̄)2 ou var(x) = pi (xi − x̄)2
n i=1 i=1 Variables décorrélées si cor(x, y) = 0, on dit que les va-
riables sont décorrélées. Cela ne veut pas dire qu’elles sont
L’écart-type σx est la racine carrée de la variance. indépendantes !
1
Le coefficient de corrélation par l’exemple Cas particuliers matrice identité à n lignes et n colonnes
et vecteur unité de dimension n :
0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
1 0 1
0.8
x1 −0.13
−0.99 −0.099
. .
0.4
In =
.. , 1n = .. .
0.0
● ●
●
0 1 1
0.8
0.89
●
●
●
● ● ●
●
● ●
x2 0.15
0.4
● ●●
● ● ●●
● ●
●
0.0
● ● ● ●
● ●
●
●
● ●
●
● ●
●
A+B=B+A
0.8
● ● ●
x4
Produit Contrainte lignes/colonnes : A × B =⇒
● ● ●
● ● ●
0.4
● ● ●
●● ● ● ●
●
●
● ●
●
● ●●● ● ●●● ● ● ●●● ●
●●● ● ●● ●● ● ● ●
● ●● ●● ●● ● ●● ●
● ●● ● ● ● ● ● ● ● ● ● ● ● ●●
(n×p) (p×k)
0.0
● ● ● ● ● ● ●
● ● ●
0.0 0.2 0.4 0.6 0.8 1.0 −1.5 −1.0 −0.5 0.0
C
(n×k)
Nombre de colonnes de la première matrice égal au nombre
Interprétation on a 4 variables numériques avec 30 indivi- de lignes de la seconde
dus. Les variables 1 et 2 sont indépendantes ; les variables 1
et 3 ont une relation linéaire ; les variables 2 et 4 ont une AB 6= BA, In A =AIp = A, (A+B)C = AC+BC
relation non-linéaire.
Pense-bête matrices (2/2)
Que signifie une corrélation linéaire ? Transposition échange des lignes et des colonnes d’une
matrice ; on note A0 la transposée de A.
Qu’est ce qui est significatif ? si on a assez de données,
on peut considérer qu’une corrélation supérieure à 0, 5 est (A0 )0 = A, (A + B)0 = A0 + B0 , (AB)0 = B0 A0
forte, et une corrélation entre 0, 3 et 0, 5 est moyenne. Trace la trace d’une matrice carrée est la somme des termes
Une corrélation égale à un indique que les deux variables de sa diagonale
sont équivalentes.
Tr(AB) = Tr(BA),
Qu’est-ce que cela veut dire ? une corrélation significa- Tr(ABC) = Tr(CAB) = Tr(BCA) 6= Tr(CBA)
tive indique une liaison entre deux variables, mais pas né- Inverse si A et B sont carrées de taille n, alors
cessairement un lien de causalité. Exemple :
AB = In =⇒ BA = In On note B = A−1 (inverse de A)
Le nombre de pompiers présents pour com-
battre un incendie est corrélé aux dégâts de l’incen-
die. Mais ce ne sont pas les pompiers qui causent Tableau de données
les dégâts.
On note xji la valeur de la variable xj pour le i-ème
Et une décorrélation ? voici un exemple ou cor(x, y) = 0 individu. X = (x1 , . . . , xp ) est une matrice rectangulaire à
n lignes et p colonnes.
· · · xp1
1
x1 x21
j
x1
xj x12 x22
● ●
5
2
.
..
j
x = , X = .
j
● ●
4
· · · x i
.
.
● ●
.
. ..
. ..
3
y
xjn xn 1 p
xn
● ●
2
Tableau centré il est obtenu en centrant les variables au- Exemple en dimension 2
tour de leur moyenne
On veut passer de 2 variables à 1 seule.
yij = xji − x̄j
x2
Y = X − 1n g0 = (In − 1n 10n Dp )X
Matrice de variance-covariance
Définition c’est une matrice carrée de dimension p
x1
σ12
σ12 ··· σ1p
σ21
V=
.. .. ,
Exemple en dimension 2 (suite)
. .
σp1 σp2 On cherche la direction qui différencie le plus les points
entre eux.
où σkl est la covariance des variables xk et x` et σj2 est la x2
variance de la variable xj
Formule matricielle
V = X0 Dp X − gg0 = Y0 Dp Y.
Matrice de corrélation
Définition Si l’on note rk` = σk` /σk σ` , c’est la matrice
p×p
x1
1 r12 · · · r1p
r21 1
R= . ,
.. . .. Distance entre individus
rp1 1
Motivation afin de pouvoir considérer la structure du
Formule matricielle R = D1/σ VD1/σ , où nuage des individus, il faut définir une distance, qui induira
une géométrie.
1
0
σ1 Distance euclidienne classique la distance la plus simple
D1/σ =
.. entre deux points de Rp est définie par
.
1 p
0 σp
X
d2 (u, v) = (uj − vj )2 = ku − vk2
j=1
Métrique
Définition soit M = diag(mj ), où m1 , . . . , mp sont des
réels strictement positifs. On pose
x1 x1
p
X
kuk2M = u0 Mu = mj u2j , Exemple utiliser la métrique réduite est équivalent à tra-
j=1 vailler sur les données centrées réduites Z = YD1/σ .
d2M (u, v) = ku − vk2M .
hu, v + wiM = hu, viM + hu, wiM , L’inertie totale est aussi donnée par la trace de la matrice
hu, λviM = λhu, viM pour tout λ ∈ R. VM (ou MV)
hu, viD1/σ2 = hD1/σ u, D1/σ vi. Métrique réduite obtenue quand M = D1/σ2 = D21/σ
Matrice identité tout vecteur est vecteur propre de I avec où fk+1 est le sous espace de dimension 1 M-orthogonal
valeur propre 1, puisque Iv = v. à Fk portant l’inertie maximale.
cik = hei − g, ak iM = (ei − g)0 Mak . Covariance et produit scalaire pour deux variables cen-
trées x et y, on a
Composantes principales ce sont les variables ck =
(c1k , . . . , cnk ) de taille n définies par cov(x, y) = hx, yiDp , var(x) = kxk2Dp ,
ck = YMak . hx, yiDp
cor(x, y) = = cos(xy).
kxkDp kykDp
c
Chaque ck contient les coordonnées des projections M-
√
orthogonales des individus centrés sur l’axe défini par les ak . Exemple les vecteurs ck / λk forment une base Dp -
orthonormale
Représentation des individus dans un plan (
ck c` 1, si k = `,
principal √ ,√ = cor(ck , c` ) =
λk λ` Dp 0, sinon.
Qu’est-ce que c’est ? pour deux composantes principales
c1 et c2 , on représente chaque individu i par un point d’abs- Facteurs principaux
cisse ci1 et d’ordonnée ci2 .
Définition on associe à un axe principal ak le facteur prin-
Axe 2 cipal uk = Mak de taille p. C’est un vecteur propre de MV
car
e6
e1
e7 MVuk = MVMak = λk Mak = λk uk
e4 e2
Calcul en pratique, on calcule les uk par diagonalisation
de MV, puis on obtient les ck = Yuk . Les ak ne sont pas
e5 Axe 1 intéressants.
e3
e8
Interprétation Si on pose u0k = (u1k , . . . , upk ), on voit
que la matrice des ujk sert de matrice de passage entre la
nouvelle base et l’ancienne
Quand ? Elle est utile quand les individus sont discer-
nables. p p
X X
cik = yij ujk c’est-à-dire ck = yj ujk
Propriétés des composantes principales j=1 j=1
3.5
●
obtient Y.
3.0
●
2.5
Approximation Les k premiers termes fournissent la
2.0
meilleure approximation de Y par une matrice de rang
1.5
k au sens des moindres carrés (théorème de Eckart-Young).
1.0
●
●
0.5
●
●
●
●
0.0
2 4 6 8 10
base et la nouvelle
p
X p
X
yij = cik akj c’est-à-dire yj = ck akj Corrélation entre composantes et variables
k=1 k=1
initiales
Partie VI. Aspects pratiques Sur les variables centrées-réduites, cette corrélation s’écrit
p
X p
X
j
L’ACP sur les données centrées réduites cov(z , ck ) = cov a`j c` , ck = a`j cov(c` , ck ) = λk akj
`=1 `=1
j
Matrice de variance-covariance c’est la matrice de corré- cov(z , ck ) λk akj p
cor(zj , ck ) = p = √ = λk ujk
lation car var(ck ) λk
Z0 Dp Z = D1/σ Y0 Dp YD1/σ = D1/σ VD1/σ = R. Position dans un plan On sait que var(zj ) = 1, mais on
peut aussi écrire
Métrique on prend la métrique M = Ip .
X p Xp
Facteurs principaux ce sont les p vecteurs propres ortho- var(zj ) = cov(zj , zj ) = cov zj , akj ck = akj cov(zj , ck )
normés de R, k=1 k=1
p p
X X 2
Ruk = λk uk , avec huk , u` i = 1 si k = `, 0 sinon. λk a2kj = cor(zj , ck ) .
=
k=1 k=1
dont les valeurs propres vérifient
Par conséquent, les 2 premières coordonnées sont dans un
λ1 +λ2 +λ3 +· · ·+λp = p et λ1 ≥ λ2 ≥ λ3 ≥ · · · ≥ λp ≥ 0 disque de rayon 1, puisque
2 2
cor(zj , c1 ) + cor(zj , c2 ) ≤ 1
Composantes principales elles sont données par ck =
Zuk .
Le cercle des corrélations
Nombre d’axes à retenir
Qu’est-ce que c’est ? c’est une représentation où, pour
Dimension de l’espace des individus L’ACP visant à ré- deux composantes principales, par exemple c1 et c2 , on repré-
duire la dimension de l’espace des individus, on veut conser- sente chaque variable zj par un point d’abscisse cor(zj , c1 )
ver aussi peu d’axes que possible. Il faut pour cela que les et d’ordonnée cor(zj , c2 ).
variables d’origine soient raisonnablement corrélées entre
elles.
Les seuls critères utilisables sont empiriques.
Interprétation des axes on s’efforce de ne retenir que des
axes à propos desquels une forme d’interprétation est pos-
sible (soit directement, soit en terme des variables avec
lesquels ils sont très corrélés). On donnera des outils à cet
effet plus loin dans le cours.
Critère de Kaiser (variables centrées-réduites) on ne re-
tient que les axes associés à des valeurs propres supérieures Le cercle des corrélations (suite)
à 1, c’est-à-dire dont la variance est supérieure à celle des
variables d’origine. Interprétation Les variables qui déterminent les axes sont
Une autre interprétation est que la moyenne des valeurs celles dont la corrélation est supérieure en valeur absolue à
propres étant 1, on ne garde que celles qui sont supérieures une certaine limite (0, 9, 0, 8... selon les données) ; on essaie
à cette moyenne. d’utiliser la même limite pour tous les axes.
Trois
Qualité globale de la représentation c’est la part de l’iner-
tie totale Ig qui est expliquée par les axes principaux qui
ont été retenus. Elle permet de mesurer la précision et la
pertinence de l’ACP.
Qualité de la représentation d’un individu elle permet
de vérifier que tous les individus sont bien représentés par
le sous-espace principal choisi ; elle s’exprime comme le
carré du cosinus de l’angle entre l’individu et sa projection
orthogonale.
Individus supplémentaires quand un individu est sur-
représenté sur un des premiers axes, on peut le supprimer
de l’analyse et le réintroduire dans la représentation comme
individu supplémentaire.
Variables supplémentaires quantitatives certaines va-
riables peuvent être mises de coté lors de l’ACP et reportées
séparément sur le cercle des corrélation.
Variables supplémentaires qualitatives elles peuvent être
représentées sur la projection des individus, et leur liaison
aux axes est donnée par les valeurs-test.