Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Marie Chavent
1 / 72
Introduction
Les lignes correspondent à ce qu’on appelle des individus (ici des eaux minérales) et
les colonnes à des variables (ici des descipteurs sensoriels).
L’objectif est alors de savoir :
I quels individus se ressemblent,
I quelles variables sont liées.
2 / 72
Pour cela on peut faire de la statistique descriptive bivariée et visualiser les données
par paires de variables :
2.2 2.6 3.0 4.5 5.5
4.0
saveur.amère
3.5
3.0
3.0
saveur.sucrée
2.6
2.2
saveur.salée
4.5
4.8
saveur.alcaline
4.4
4.0
3.0 3.5 4.0 2.5 3.0 3.5 4.0 4.0 4.4 4.8
3 / 72
On peut aussi regarder :
4 / 72
Il existe aussi des méthodes de statistique descriptive multivariée comme l’ACP pour :
I visualiser sur des graphiques distances entre les individus et des corrélations
entre les variables.
1.0
3
saveur.salée
2
0.5
St Yorre
Perrier
1
saveur.acide
Dim 2 (12.48%)
Dim 2 (12.48%)
Quézac Chateauneuf Vichy
0
0.0
saveur.amère
Arvie saveur.sucrée
Badoit saveur.alcaline
−1
Salvetat
−0.5
−2
−3
−1.0
−4 −2 0 2 −1.0 −0.5 0.0 0.5 1.0
5 / 72
I Constuire des nouvelles variables "résumant" au mieux les variables initiales et
ainsi réduire la dimension.
Dim.1 Dim.2
St Yorre 1.85 1.19
Badoit -0.49 -0.64
Vichy 2.77 0.24
Quézac -1.72 0.11
Arvie 1.93 -0.48
Chateauneuf 0.09 0.00
Salvetat -0.93 -1.39
Perrier -3.49 0.97
6 / 72
Plan
Notions de base
7 / 72
Notions de base
On notera :
X = (xij )n×p la matrice des données brutes où xij ∈ R est la valeur du i ème
individu sur la j ème variable.
xi1 x1j
. .
xi = .. ∈ Rp xj = .. ∈ Rn
xip xnj
la description du i ème individu la description de la j ème variable
(ligne de X) (colonne de X).
8 / 72
Exemple : mesure de la tension arterielle diastolique, systolique et du taux de
cholestérol de 6 patients.
load("chol.RData")
print(X)
n= p= X= x3 = x2 =
9 / 72
Le premier nuage de points est le nuage des individus.
Vincent
Brigitte
6.2
6.0 Alex
Marie
Manue
5.8
syst
chol
150
5.6
Fred
140
130
5.4
120
110
5.2
100
90
5.0
80
60 65 70 75 80 85 90
diast
10 / 72
Dans le nuage des individus :
I chaque individu i est un point xi de Rp (une ligne de X),
I chaque individu i est pondéré avec un poids wi . En pratique :
1
- wi = n pour des tirage aléatoire par exemple.
1
- wi 6= n pour des échantillons redressés, des données regroupées,etc.
11 / 72
Matrice X des données brutes Matrice Y des données centrées
Ici :
1
Pn
I x̄ j = n
x
i=1 ij
est la moyenne de la variable j non centrée (colonne j de X),
12 / 72
Exemple : le nuage des 6 patients.
13 / 72
I Centrer les données revient à faire une translation du nuage de individus.
Vincent
Brigitte
Alex
0.4
Marie
0.2
Manue
0.0
Fred
syst
chol
−0.2
20
10
0
−0.4
−10
−20
−0.6
−30
−40
−0.8
−50
−15 −10 −5 0 5 10 15
diast
14 / 72
Matrice X des données brutes Matrice Z des données centrées-réduites
1 ... j ... p 1 ... j ... p
1 1
. . . .
. . . .
. . . .
i ... xij ... i ... zij ...
. . . .
. . . .
. . . .
n n
x̄ ... x̄ j ... z̄ ... 0 ...
s ... sj ... s ... 1 ...
Ici :
1
Pn
I sj2 = n i=1
(xij − x̄ j )2 est la variance de la variable j (colonne j de X),
xij −x̄ j
I zij = sj
est le terme général de la matrice Z des données centrées-réduites.
15 / 72
Exemple : le nuage des 6 patients.
16 / 72
I Centrer-réduire les données revient à faire une translation et une normalisation
du nuage des individus.
Vincent
Brigitte
Alex
1.5
1.0
Marie
0.5
Manue
0.0
chol
syst
Fred
−0.5
1.0
0.5
0.0
−1.0
−0.5
−1.0
−1.5
−1.5
−2.0
−2.0
−2.5
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
diast
17 / 72
En résumé, trois nuages de points-individus.
8
6
6
4
4
chol
chol
chol
syst
syst
syst
2
2
150 150 150
100 100 100
0
0
50 50 50
0 0 0
−2
−2
−2
−50 −50 −50
−20 0 20 40 60 80 100 −20 0 20 40 60 80 100 −20 0 20 40 60 80 100
diast diast diast
I Centrer les données ne modifie pas les distances entre les individus :
d 2 (xi , xi 0 ) = d 2 (yi , yi 0 ).
d 2 (xi , xi 0 ) 6= d 2 (zi , zi 0 ).
18 / 72
La proximité entre deux individus se mesure avec la distance Euclidienne.
I Lorsque les données sont brutes (pas de pré-traitement) la distance Euclidienne
entre deux individus i et i 0 (deux lignes de X) est :
p
X
d 2 (xi , xi 0 ) = (xij − xi 0 j )2 .
j=1
On en déduit que :
I si les variables (les colonnes de X) sont mesurées sur des échelles différentes, les
variables de forte variance auront plus de poids dans le calcul de la distance
Euclidienne que les variables de petite variance,
I centrer-réduire les données permet donc de donner le même poids à toutes les
variables dans le calcul de la distance entre deux individus.
19 / 72
Exemple : distance entre Brigitte et Marie
Données brutes (X) : Données centrées-réduites (Z)
I Lorsque les données sont brutes (pas de pré-traitement), l’inertie des individus
(les n lignes de X) est :
n
1 X
I(X) = d 2 (xi , x̄).
n
i=1
21 / 72
Exemple : Inertie du nuage des 6 patients
I(Z) = 1 + 1 + 1 = 3
22 / 72
Le second nuage de points associé à une matrice de données quantitatives est le nuage
des variables.
23 / 72
Dans le nuage des variables :
I chaque variable j est un point xj de Rn (une colonne de X),
I chaque variable j est pondérée par un poids mj . En pratique :
I mj = 1 en ACP,
I mj 6= 1 en ACM (Analyse des Correspondances Multiples) par exemple.
24 / 72
La liaison entre deux variables se mesure avec la covariance ou la corrélation.
25 / 72
On en déduit que la variance s’écrit comme une norme (au carré) :
1
Pn
I var (xj ) = n i=1
(xij − x̄ j )2 = kyj k2N ,
1
Pn
I var (zj ) = n i=1
(zij − z̄ j )2 = kzj k2N .
26 / 72
On en déduit une écriture matricielle de la matrice C des covariances et de la matrice
R des corrélations :
I C = YT NY,
I R = ZT NZ.
Exemple :
27 / 72
Enfin on en déduit que la corrélation s’écrit comme un cosinus :
0
<yj ,yj >N 0
I rjj 0 = 0 = cos θN (yj , yj ),
kyj kN kyj kN
0 0
I rjj 0 =< zj , zj >N = cos θN (zj , zj ).
28 / 72
En ACP on peut analyser :
I la matrice des données centrées Y,
I la matrice des données centrées-réduites Z.
29 / 72
Plan
Notions de base
30 / 72
Analyse du nuage des individus
31 / 72
Exemple des 6 patients décrits sur les 3 variables centrées-réduites.
Brigitte
Vincent
Brigitte Vincent
1
Alex
1.5
Dim 2 (35.07%)
1.0
0
Marie Marie Alex
Manue
0.5
Manue
0.0
chol
Fred
−1
syst
−0.5
1.0
0.5
0.0
−1.0
−0.5
−1.0
−1.5
−2
−1.5 Fred
−2.0
−2.0
−2.5
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−3 −2 −1 0 1
diast
Dim 1 (52.69%)
L’objectif est de trouver le plan de projection qui conserve le mieux possible les
distances entre les individus (et donc la variabilité i.e. l’inertie du nuage de points).
32 / 72
Projection d’un individu (un point de Rp ) sur un axe.
33 / 72
Exemple : les 6 individus (les patients) sont les lignes la matrice des données
centrées-réduites 1.50 0.48 0.78
−1.50 −2.16 0.52
0.00 0.24 1.04
Z=
−0.50 0.72 0.26
1.00 0.00 −0.78
−0.50 0.72 −1.83
On veut projeter les 6 individus du nuage centré-réduit sur deux axes orthogonaux ∆1
et ∆2 de vecteurs directeurs :
! !
0.641 0.4433
v1 = 0.72 , v2 = −0.0652 .
−0.265 0.894
34 / 72
Les vecteurs f 1 et f 2 des coordonnées des projections des 6 individus sur ∆1 et ∆2
sont :
1.5 0.48 0.78 1.09
. . . .
f 1 = Zv1 = 0.641 .. +0.72 .. −0.265 .. = ..
−0.5 0.72 −1.82 0.683
1.5 0.48 0.78 1.333
. . . .
f 2 = Zv2 = 0.4433 .. −0.0652 .. −0.894 .. = ..
−0.5 0.72 −1.82 −1.9
35 / 72
Brigitte
Vincent
1.0
Vincent
Brigitte
Alex
0.5
1.5
Marie Alex
1.0
0.0
Marie Manue
0.5
Manue
f2
−0.5
0.0
chol
Fred
syst
−0.5
1.0
−1.0
0.5
0.0
−1.0
−0.5
−1.5
−1.0
−1.5
−1.5
−2.0
Fred
−2.0
−2.5
−2.0
−1.5 −1.0 −0.5 0.0 0.5 1.0 1.5
−2 −1 0 1
diast
f1
En ACP les vecteurs directeurs v1 et v2 sont définis pour maximiser l’inertie du nuage
des individus projeté et conserver ainsi au mieux les distances entre les individus.
36 / 72
Axes de projection des individus en ACP.
∆1 est l’axe de vecteur directeur v1 ∈ Rp qui maximise la variance des n individus
projetés :
= arg max vT Rv
kvk=1
où
1 T
R= Z Z
n
est la matrice des corrélations entre les p variables.
f¯1 = 0,
Var (f 1 ) = λ1 .
37 / 72
∆2 est l’axe de vecteur directeur v2 ⊥ v1 qui maximise la variance des n individus
projetés :
f¯2 = 0,
Var (f 2 ) = λ2 ,
38 / 72
En résumé :
1 ... α ... q
1
. .
. .
. .
i ... fiα ...
F=
. .
. .
. .
n
moy ... 0 ...
var ... λα ...
39 / 72
Exemple des 6 patients : matrice F des q = 2 premières CP
## f1 f2
## Brigitte 1.10 1.334
## Marie -2.66 -0.057
## Vincent -0.10 0.918
## Alex 0.13 -0.035
## Manue 0.85 -0.257
## Fred 0.68 -1.903
Brigitte
Vincent
1
Dim 2 (35.07%)
Marie Alex
Manue
−1
−2
Fred
−3 −2 −1 0 1
Dim 1 (52.69%)
40 / 72
Plan
Notions de base
41 / 72
Analyse du nuage des variables
42 / 72
Exemple des 6 patients décrits sur 3 variables centées-réduites.
1.0
## syst 0.5 -2.2 0.2 0.7 0.0 0.7 chol
0.5
diast
Dim 2 (35.07%)
0.0
syst
−0.5
−1.0
−1.0 −0.5 0.0 0.5 1.0
Dim 1 (52.69%)
L’objectif est de trouver le plan de projection qui permet de représenter au mieux les
variable et ainsi conserver le mieux possible les angles entre les variables (et donc leur
corrélations).
43 / 72
Projection d’une variable (un point de Rn ) sur un axe.
La projection N-orthogonale d’une variable zj ∈ Rn sur un axe Gα de vecteur directeur
uα (uT
α Nuα = 1) a pour coordonnée :
1
N= In .
n
44 / 72
Exemple : les 3 variables (diast, syst, chol) sont les colonnes la matrice des données
centrées-réduites 1.50 0.48 0.78
−1.50 −2.16 0.52
Z=
0.00 0.24 1.04
−0.50 0.72 0.26
1.00 0.00 −0.78
−0.50 0.72 −1.83
0.87 1.30
−2.11 −0.06
−0.08 0.90
u1 = , u2 = −0.03 .
0.10
0.67 −0.25
0.54 −1.8
45 / 72
Les vecteurs a1 et a2 des coordonnées des projections des 3 variables sur G1 et G2
sont :
! ! ! !
1.5 −1.5 −0.5 0.81
1 T 0.87 −2.11 +0.54
a = Z Nu1 = 0.48 −2.16 + ... 0.72 = 0.91
6 0.78 6 0.52 6 −1.83 −0.33
! ! ! !
1.5 −1.5 −0.5 0.45
2 T 1.30 −0.06 −1.80
a = Z Nu2 = 0.48 −2.16 + ... 0.72 = −0.07
6 0.78 6 0.52 6 −1.83 0.92
46 / 72
1.0
chol
diast
0.5
syst
0.0
a2
−0.5
−1.0
a1
En ACP les vecteurs directeurs u1 et u2 sont définis pour maximiser la somme des
cosinus (au carré) des angles entre les variables et les axes de projection.
47 / 72
Axes de projection des variables en ACP.
G1 est l’axe de vecteur directeur u1 ∈ Rn qui maximise la somme des carrés des
cosinus des angles avec les variables.
p
X
u1 = arg max cos2 θN (zj , u)
kukN =1
j=1
1
On peut montrer qu’avec N = I
n n
:
1
I u1 est le vecteur propre associé à la plus grand valeur propre de n
ZZT ,
1
I la plus grand valeur propre de n
ZZT est aussi la première valeur propre λ1 de
R = n1 ZT Z,
I λ1 est la somme des carrés des cosinus entre les variables et u1 :
p
X
λ1 = cos 2 θN (zj , u1 )
j=1
48 / 72
G2 est l’axe de vecteur directeur u2 ⊥N u1 qui maximise la somme des carrés des
cosinus des angles avec les variables :
p
X
u2 = arg max cos2 θN (zj , u)
kukN =1,u2 ⊥N u1
j=1
49 / 72
En résumé :
1
1. On effectue la décomposition en valeurs propres de n
ZZT et on choisit q.
1 ... α ... q
1
. .
. .
. .
A= i ... aiα ...
. .
. .
. .
p
√
norme ... λα ...
50 / 72
Exemple des 6 patients : matrice A pour q = 2.
## a1 a2
## diast 0.81 0.455
## syst 0.91 -0.067
## chol -0.33 0.917
1.0
chol
diast
0.5
syst
0.0
a2
−0.5
−1.0
a1
51 / 72
Formules de passage.
On en déduit que :
F = UΛ
A = VΛ
√ p
où Λ = diag( λ1 , . . . , λq )
52 / 72
On en déduit aussi que
fα
uα = √ ,
λα
I Les loadings sont les corrélations entre les variables et les composantes
principales :
ajα = cor (xj , f α ).
Cette relation est en rouge car elle est fondamentale pour l’interprétation des
résultats en ACP.
53 / 72
Plan
Notions de base
54 / 72
Interprétation des résultats
Variance des composantes principales.
Var (f α ) = λα
On en déduit que l’inertie des individus décrits par les q premières composantes
principales vaut :
I(F) = λ1 + . . . + λq .
donc
Var (f 1 ) = 1.58
Var (f 1 ) = 0.05
et l’inertie des individus décrits par q = 2 composantes principales est :
55 / 72
Inertie totale.
L’inertie totale en ACP normée est l’inertie des individus décrits par les p variables
centrées-réduites (colonnes de Z) :
p
X
I(Z) = Var (zj ) = p.
j=1
Lorsque q = r l’inertie des individus décrits par toutes les composantes principales est
égale à l’inertie totale :
I(F) = λ1 + . . . + λr = I(Z) = p
56 / 72
Qualité de la réduction de dimension.
57 / 72
Exemple des 6 patients.
res$eig
58 / 72
Combien de composantes retenir ?
59 / 72
Exemple des 6 patients.
0.5
On choisit de retenir q = 2 composantes principales pour
résumer les données décrites sur p = 3 variables.
comp 2
comp 3
60 / 72
Interprétation des plans factoriels des individus.
Si deux individus sont bien projetés, alors leur distance en projection est proche de leur
distance dans Rp .
I On mesure la qualité de la projection d’un individu i sur l’axe ∆α par le carré du
cosinus de l’angle θiα entre le vecteur zi et l’axe ∆α :
2
fiα
cos2 (θiα ) =
kzi k2
I On mesure la qualité de la projection d’un individu i sur le plan (∆α , ∆α0 ) par
le carré du cosinus de l’angle θi(α,α0 ) entre le vecteur zi et le plan (∆α , ∆α0 ) :
2 +f2
fiα iα0
cos2 (θi(α,α0 ) ) =
kzi k2
61 / 72
Exemple des 6 patients.
Coordonnées factorielles des patients cos2 des patients sur les axes
Les cos2 des patients sur les axes peuvent être retrouvés avec les distance des patients à
l’origine :
62 / 72
Brigitte est très bien représentée sur le premier plan factoriel car son cos 2 sur ce plan
vaut 0.966 = 0.3907 + 0.57504.
De même on trouve que les cos2 des 6 patients sur le premier plan factoriel sont :
## Fred Marie Brigitte Vincent Manue Alex
## 0.994 0.982 0.966 0.743 0.487 0.022
Brigitte
Vincent
1
Dim 2 (35.07%)
Marie
−1
−2
Fred
−3 −2 −1 0 1
Dim 1 (52.69%)
63 / 72
Les individus qui contribuent de manière excessive à l’inertie des individus projetés
sont source d’instabilité.
Pn 2 avec souvent w = 1
I L’inertie (la variance) sur l’axe ∆α est λα = i=1
wi fiα i n
.
I La contribution relative d’un individu i à l’inertie de l’axe ∆α est
2
wi fiα
Ctr (i, α) = .
λα
1
Si les poids wi des individus sont tous identiques (wi = n
par exemple), les individus
excentrés sont ceux qui contribuent le plus.
64 / 72
Exemple des patients.
## f1 f2 ## Delta1 Delta2
## Brigitte 1.10 1.334 ## Brigitte 12.75 28.186
## Marie -2.66 -0.057 ## Marie 74.44 0.052
## Vincent -0.10 0.918 ## Vincent 0.11 13.352
## Alex 0.13 -0.035 ## Alex 0.18 0.020
## Manue 0.85 -0.257 ## Manue 7.59 1.046
## Fred 0.68 -1.903 ## Fred 4.93 57.345
## lambda1 lambda2
## 1.6 1.1
65 / 72
Les contributions des 6 patients à l’inertie du premier plan factoriel sont :
## Marie Fred Brigitte Vincent Manue Alex
## 44.71 25.87 18.92 5.40 4.98 0.11
Brigitte
1
Dim 2 (35.07%)
Marie
−1
−2
Fred
−3 −2 −1 0 1
Dim 1 (52.69%)
66 / 72
Interprétation des cercles de corrélations des variables.
Si deux variables sont bien projetées, alors leur angle en projection est proche de leur
angle dans Rn et la la corrélation entre ces deux variables est proche du cosinus de
l’angle entre leurs projections.
I On mesure la qualité de la projection d’une variable j sur le plan (Gα , Gα0 ) par
le carré du cosinus de l’angle θj(α,α0 ) entre le vecteur zj et le plan (Gα , Gα0 ) :
p
cos2 (θj(α,α0 ) ) est donc la "longueur de la flèche".
67 / 72
Exemple des 3 variables décrivant les patients.
Coordonnées factorielles des variables cos2 des variables sur les axes
## a1 a2 ## G1 G2
## diast 0.81 0.455 ## diast 0.65 0.2068
## syst 0.91 -0.067 ## syst 0.82 0.0045
## chol -0.33 0.917 ## chol 0.11 0.8410
Le cos2 de la variable diast sur G1 est 0.65 et le cos 2 de la variable diast sur (G1 , G2 )
est 0.65 + 0.2068 = 0.8568.
La variable diast est donc bien représentée
√ sur ce plan et la longueur de sa flèche dans
le cercle des corrélation sera donc de 0.8568 = 0.92563.
68 / 72
1.0
chol
0.5
diast
Dim 2 (35.07%)
0.0
syst
−0.5
−1.0
Dim 1 (52.69%)
69 / 72
Les contributions des variables aux axes permettent de donner une interprétation aux
axes.
Pp Pp
I La qualité de l’axe Gα est λα = a2
j=1 jα
= j=1
cos 2 θjα .
I 0 ) est
La contribution relative d’une variable j au plan (Gα , Gα
2 + a2
ajα jα0
Ctr (j, (α, α0 )) = .
λα + λ0α
70 / 72
Exemple des 3 variables décrivant les patients.
## G1 G2
## diast 41 19.65
## syst 52 0.42
## chol 7 79.92
50
40 60
30
40
20
20
10
0 0
syst
diast
chol
chol
diast
syst
71 / 72
Interprétation du plan factoriel des individus à partir du cercle des corrélations.
1.0
chol
Brigitte
Vincent
1
0.5
diast
Dim 2 (35.07%)
Dim 2 (35.07%)
Alex
0
Marie
Manue
0.0
syst
−1
−0.5
−2
Fred
−1.0
−3 −2 −1 0 1 −1.0 −0.5 0.0 0.5 1.0
Interpreter la position des patients (gauche, doite, haut, bas) en fonction des variables.
72 / 72