Vous êtes sur la page 1sur 12

Analyse en composantes principales

Lanalyse en composantes principales (ACP), dveloppe en France dans les annes 1960 par J-
P. Benzcri, est une mthode de statistique exploratoire permettant de dcrire un grand tableau de
donnes de type individus / variables. Lorsque les individus sont dcrits par un nombre important de 5
variables, aucune reprsentation graphique simple ne permet de visualiser le nuage de points form par
les donnes. LACP propose une reprsentation dans un espace de dimension rduite, permettant ainsi
de mettre en vidence dventuelles structures au sein des donnes. Pour cela, nous recherchons les
sous-espaces dans lesquels la projection du nuage dforme le moins possible le nuage intial.
Dans la suite, nous identions un vecteur x R
p
avec la matrice colonne de ses coordonnes dans la 10
base canonique, que nous notons x = (x
1
, . . . , x
p
)
t
, o pour une matrice A, A
t
dsigne sa transpose.
1 Les donnes
Les donnes sont sous la forme dun tableau n lignes et p colonnes, que lon stocke sous la forme
dune matrice X de taille n p :
chaque ligne (x
1
i
, . . . , x
p
i
) de X reprsente les valeurs prises par lindividu i sur les p variables, 15
de mme chaque colonne (x
j
1
, . . . , x
j
n
)
t
de X reprsente les valeurs de la variable j pour les n
individus.
Par simplicit de langage, lindividu i sera indenti au vecteur x
i
= (x
1
i
, . . . , x
p
i
)
t
de R
p
tandis que la
variable j sera identie au vecteur x
j
= (x
j
1
, . . . , x
j
n
)
t
de R
n
.
20
Lexemple que nous traiterons tout au long de ce document est le suivant : lors dun concours
agricole, un jury a donn des notes 10 marques de cidres relativement 10 critres de dgustation. Le
Tableau 1 reprend ces notes. Dans notre formalisme dACP, les marques de cidres sont les individus et
les critres gustatifs sont les variables.
1.1 Point moyen du nuage des individus 25
Le vecteur g des moyennes arithmtiques de chacune des p variables dnit le point moyen du
nuage des individus :
g = ( x
1
, . . . , x
p
)
t
(1)
o x
j
=
1
n

n
i=1
x
j
i
est la moyenne
1
des valeurs prises par la j-me variable.
En retranchant x
j
aux valeurs de la variable j prises par les individus, on construit le tableau Y des 30
donnes centres : y
j
i
= x
j
i
x
j
. La matrice Y correspondante scrit en fonction de X de la faon
1
Notez que nous supposons ici que tous les individus ont le mme poids, ce qui nest pas systmatique en ACP.
1
cidre odeur sucre acide amer astringence suffocante piquante alcool parfum fruite
1 2,14 1,86 3,29 2,29 2 0,14 2,29 1,86 1,29 1,29
2 2,43 0,79 2,71 2,57 2 0,43 2,57 2,86 0,43 0,14
3 2,71 3,14 2,57 2,57 1,43 0,14 2,14 0,86 2,29 1,71
4 3 3,71 2,14 2,07 1,57 0 1,29 1 3,14 3,14
5 3,43 1,29 2,86 3,14 2,17 1 1,86 2,86 1,14 0,29
6 3,14 0,86 2,86 3,79 2,57 0,14 1,71 3,29 0,14 0
7 3,14 1,14 2,86 2,86 2 0,43 1,71 1,86 0,14 0
8 2,43 3,71 3,21 1,57 1,71 0 1 0,57 2,57 2,86
9 5,1 2,86 2,86 3,07 1,79 1,71 0,43 1,43 0,57 2,71
10 3,07 3,14 2,57 3 2 0 0,43 1,29 2,57 3,07
TAB. 1 Notes obtenues par 10 marques de cidres sur 10 critres lors dun concours agricole.
suivante : Y = X1g
t
o 1 est le vecteur de R
n
dont toutes les composantes valent 1. Le terme centr
signie que les moyennes des variables y
j
sont nulles.
1.2 Matrice de variance
On note s
2
j
=
1
n

n
i=1
(x
j
i
x
j
)
2
la variance de la variable j, sa racine carr s
j
est lcart-type et 35
v
kl
=
1
n

n
i=1
(x
k
i
x
k
)(x
l
i
x
l
) est la covariance des variables k et l.
On appelle matrice de variance la matrice symtrique V contenant les variances s
2
j
sur la diagonale
et les covariances v
kl
en dehors de la diagonale (ligne k colonne l pour v
kl
). Cette matrice scrit :
V =
1
n
X
t
X gg
t
=
1
n
Y
t
Y. (2)
De mme, on dnit le coefcient de corrlation linaire entre les variables k et l par r
kl
=
v
kl
s
k
s
l
. 40
Ce coefcient exprime le niveau de corrlation (linaire) entre les variables k et l : plus il est proche
de 1, plus les variables sont corrles positivement, plus il est proche de -1, plus elles sont corrles
ngativement. Un coefcient de corrlation nul indique labsence de corrlation linaire.
En divisant chaque colonne j du tableau centr Y par lcart-type s
j
de la variable j, on construit le
tableau Z des donnes centres rduites : z
j
i
= (x
j
i
x
j
)/s
j
. La matrice Z sexprime en fonction de 45
X par Z = (X 1g
t
)D
1/s
o D
1/s
est la matrice diagonale contenant
1
s
1
, . . . ,
1
sp
sur sa diagonale. Le
terme rduit signie que les variances des variables z
j
sont gales 1.
La matrice R = D
1/s
V D
1/s
est dite de corrlation. Regroupant les coefcients de corrlation linaire
entre les p variables prises deux deux, elle rsume la structure des dpendances linaires entre les p
variables. Elle est symtrique et sa diagonale est compose de 1. 50
La matrice de corrlation pour lexemple des cidres est la suivante (Table 2, les corrlations impor-
tantes apparaissent en gras).
2
odeur sucre acide amer astringence suffocante piquante alcool parfum fruite
odeur 1,00 0,08 -0,16 0,49 0,04 0,84 -0,61 0,03 -0,29 0,18
sucre 0,08 1,00 -0,29 -0,60 -0,77 -0,19 -0,61 -0,92 0,87 0,95
acide -0,16 -0,29 1,00 -0,08 0,34 0,14 0,14 0,15 -0,40 -0,27
amer 0,49 -0,60 -0,08 1,00 0,71 0,38 -0,03 0,70 -0,63 -0,50
astringence 0,04 -0,77 0,34 0,71 1,00 0,07 0,14 0,86 -0,66 -0,64
suffocante 0,84 -0,19 0,14 0,38 0,07 1,00 -0,23 0,22 -0,50 -0,10
piquante -0,61 -0,61 0,14 -0,03 0,14 -0,23 1,00 0,48 -0,33 -0,73
alcool 0,03 -0,92 0,15 0,70 0,86 0,22 0,48 1,00 -0,76 -0,83
parfum -0,29 0,87 -0,40 -0,63 -0,66 -0,50 -0,33 -0,76 1,00 0,80
fruite 0,18 0,95 -0,27 -0,50 -0,64 -0,10 -0,73 -0,83 0,80 1,00
TAB. 2 Matrice de corrlation des critres nots sur les cidres.
2 Les espaces des individus et des variables
2.1 Lespace des individus 55
2.1.1 La mtrique
Dans lespace des individus, que nous supposerons ici tre R
p
, chaque individu est reprsent par
un point, formant ainsi un nuage de points. Lobjectif de lACP est de visualiser ce nuage de point
dans un espace de faible dimension le plus dlement possible. Lanalyse repose donc sur les distances
entre individus dans R
p
, et le choix de la mtrique aura donc une inuence sur le rsultat de lACP. 60
La distance d(i, j) entre deux individus i et j peut scrire de faon gnrale :
d
2
(i, j) = d
2
(x
i
, x
j
) = ||x
i
x
j
||
2
M
=< x
i
x
j
, x
i
x
j
>
M
= (x
i
x
j
)
t
M(x
i
x
j
). (3)
o M est une matrice symtrique dnie positive de taille p spciant la distance choisie, < , >
M
et || ||
M
tant le produit scalaire et la norme associs la mtrique M.
Lorsque toutes les variables sont exprimes dans la mme unit (ce qui est le cas dans lexemple des 65
cidres) et que les variances ne sont pas trop diffrentes (de sorte que chaque variable ait la mme
importance dans le calcul des distances entre points), la distance euclidienne convient. La mtrique est
alors la matrice identit M = I et la distance euclidienne scrit classiquement :
d(i, j) =
_
p

k=1
(x
k
i
x
k
j
)
2
_1
2
. (4)
Dans le cas contraire, la mtrique la plus couramment utilise est la mtrique des inverses des variances 70
M = D
1/s
2, o D
1/s
2 est la matrice diagonale contenant
1
s
2
1
, . . . ,
1
s
2
p
sur sa diagonale. Cette mtrique
permet la fois de saffranchir de lunit de mesure et de donner chaque variable la mme importance
dans le calcul de la distance. Cest cette mtrique que nous utiliserons dans ce document.
Remarque 2.1. La matrice de la mtrique des inverses des variances peut scrire M = D
1/s
2 =
D
1/s
D
1/s
. Ainsi, la distance entre deux individus i et j est 75
d
2
(i, j) = (x
i
x
j
)
t
D
1/s
D
1/s
(x
i
x
j
) = (D
1/s
x
i
D
1/s
x
j
)
t
(D
1/s
x
i
D
1/s
x
j
). (5)
3
Travailler avec la mtrique M = D
1/s
2 sur le tableau X revient donc travailler avec la mtrique
identit sur le tableau rduit D
1/s
X, ou encore sur le tableau centr rduit Z. LACP usuelle revient
donc centrer et rduire les variables puis utiliser la mtrique identit : cest ce quon appelle une
ACP norme. 80
2.1.2 Linertie
Linertie est une notion fondamentale en ACP, puisquelle est une mesure de la dispersion du nuage
de points autour de son centre de gravit g. Linertie totale du nuage autour de son centre de gravit g
est :
I
g
=
1
n
n

i=1
d
2
(g, x
i
) =
1
n
n

i=1
(x
i
g)
t
M(x
i
g). (6)
Plus linertie est grande, plus le nuage est dispers, et au contraire plus elle est petite, plus le nuage
est concentr sur son centre de gravit.
Lorsque M = I, linertie totale peut scrire
I
g
=
1
n
n

i=1
p

j=1
(x
j
i
x
j
)
2
=
p

j=1
1
n
n

i=1
(x
j
i
x
j
)
2
=
p

j=1
s
2
j
(7)
qui nest autre que la trace de la matrice de variance V 90
I
g
= tr(V ). (8)
Ce rsultat se gnralise au cas dune mtrique M quelconque en I
g
= tr(V M)) (cf. Annexe 5.1).
Dans le cas de lACP norme, la matrice de variance du tableau Z est la matrice de corrlation R et sa
trace est donc gale au nombre p de variables I
g
= p.
Linertie du nuage par rapport un axe passant par le centre de gravit g est 95
I

=
1
n
n

i=1
d
2
(, x
i
) =
1
n
n

i=1
d
2
(h
i
, x
i
) (9)
o h
i
est la projection orthogonale de x
i
sur laxe . Cette inertie mesure la proximit du nuage des
individus laxe.
De mme, linertie du nuage par rapport un sous-espace vectoriel F passant par le centre de
gravit g est 100
I
F
=
1
n
n

i=1
d
2
(h
Fi
, x
i
) (10)
o h
Fi
est la projection orthogonale de x
i
sur le sous-espace F.
Soit F

le supplmentaire orthogonal de F dans R


p
, alors daprs le thorme de Pythagore (cf. Figure
1 en dimension 3) on a
d
2
(h
Fi
, x
i
) +d
2
(h
F

i
, x
i
) = d
2
(g, x
i
) = d
2
(g, h
Fi
) +d
2
(g, h
F

i
). (11)
4
F
x
i
F

g
h
Fi
h
F

i
FIG. 1
On en dduit le thorme de Huygens :
I
F
+I
F
= I
g
. (12)
Lorsque F est un axe, linertie I
F
par rapport son supplmentaire orthogonal mesure alors lal-
longement du nuage de points selon cet axe F, et est appele linertie porte par laxe ou inertie 110
explique par laxe. Ainsi, en projetant le nuage des individus sur un sous-espace F, on perd linertie
mesure par I
F
et on ne conserve que I
F
.
Attention ne pas confondre I
F
, linertie par rapport laxe F, et I
F
linertie explique ou porte par
ce mme axe, qui nest autre que linertie par rapport son orthogonal.
Expression de linertie I

u
porte par un axe
u
Linertie porte par laxe
u
de vecteur directeur 115
u est
I

u
=
1
n
n

i=1
d
2
(h

u
i
, x
i
) (13)
Comme on peut sen convaincre sur la Figure 2, d(h

u
i
, x
i
) =< x
i
, u >
M
.
x
i
u
u

u
d(h

u
i
, x
i
) =< x
i
, u >
M
FIG. 2
Ainsi ,
I

u
=
1
n
n

i=1
< x
i
, u >
2
M
=
1
n
n

i=1
(x
t
i
Mu)
2
=
1
n
n

i=1
u
t
Mx
i
x
t
i
Mu (14)
5
car (x
t
i
Mu)
t
= x
t
i
Mu puisque cest un scalaire et que M est symtrique,
I

u
= u
t
M
_
1
n
n

i=1
x
i
x
t
i
_
Mu =
1
n
u
t
MX
t
XMu. (15)
Ainsi, si X est centre de matrice de variance V , on a
I

u
= u
t
MV Mu (16)
125
2.2 Lespace des variables
Chaque variable est considre comme un vecteur dun espace de dimension n, lespace des va-
riables. La mtrique utilise pour le calcul des distances entre variables est la mtrique identit, car on
suppose que tous les individus ont le mme poids. Si ce nest pas le cas une mtrique spcique doit
alors tre utilise. 130
Soit y
1
, . . . , y
p
les variables x
1
, . . . , x
p
centres. On a les proprits suivantes :
le produit scalaire entre deux variables y
k
et y
l
(sous la mtrique identit) est
< y
k
, y
l
>=
n

i=1
y
k
i
y
l
i
= v
kl
, (17)
le carr de la norme dune variable est gale sa variance
||y
k
||
2
= s
2
k
(18)
et lcart-type de la variance reprsente donc sa longueur,
le cosinus de langle
kl
entre deux variables y
k
et y
l
est leur coefcient de corrlation linaire :
cos(
kl
) =
< y
k
, y
l
>
||y
k
||||y
l
||
=
v
kl
s
k
s
l
= r
kl
. (19)
Nous nous intressons donc, dans lespace des variables, aux angles entre variables plutt quaux
distances, et on reprsente les variables comme des vecteurs et non des points. 140
3 Lanalyse en composantes principales
Nous travaillons dsormais en ACP norme, avec le tableau de donnes centres Z = (X
1g
t
)D
1/s
et la mtrique identit. Les individus et les variables sont dsormais les z
i
et z
j
.
LACP consiste chercher un sous-espace F
k
de dimension k infrieure celle de lespace de dpart,
tel que le nuage, une fois projet dans ce sous-espace, soit au minimum dform. Comme la projec- 145
tion diminue ncessairement les distances, on cherche le sous-espace F
k
qui maximise la moyenne des
carrs des distances entre individus :
1
n
2
n

i=1
n

j=1
d
2
(i, j) = 2I
g
. (20)
Il faut donc que linertie du nuage projet soit maximale.
150
6
Thorme 3.1. Soit F
k
un sous-espace portant linertie maximale, alors le sous-espace de dimen-
sion k + 1 portant linertie maximale est la somme directe de F
k
et du sous-espace de dimension 1
orthogonal F
k
portant linertie maximale.
La dmonstration de ce thorme gure en annexe 5.2.
Il est donc possible de rechercher le sous espace F
k
squentiellement axe par axe, en cherchant tout 155
dabord laxe portant linertie maximale, puis celui orthogonal ce dernier portant linertie maximale,
et ainsi de suite.
3.1 Recherche de laxe portant linertie maximale
On cherche laxe
u
tel que linertie I

u
explique par cet axe soit maximale. Cela revient
chercher
u
tel que I
u
soit minimale daprs le thorme de Huygens (12). Puisquen projetant 160
sur laxe
u
on perd linertie I
u
, on aura bien une inertie restante I

u
maximale, ce qui revient
dformer le moins possible le nuage des individus.
Comme on est en ACP norme la mtrique M est lidentit et la matrice de variance V est gale
la matrice de corrlation R (cf. remarque 2.1). Linertie explique par laxe
u
est alors I

u
=
u
t
Ru daprs (16). Il faut donc trouver le vecteur unitaire u solution du problme doptimisation sous 165
contrainte suivant :
_
max
u
u
t
Ru
u
t
u = 1
(21)
La matrice de corrlation R tant symtrique elle est diagonalisable : R = PP
t
, o est la matrice
diagonale compose des valeurs propres
1
. . .
j
. . .
p
, et o la matrice de passage P est
la matrice orthogonale dont les colonnes sont les vecteurs propres v
j
de R. Il vient alors que 170
u
t
Ru =
p

j=1

j
< u, v
j
>
2
. (22)
En nommant u
j
les composantes du vecteur u (norm) dans la base des vecteurs propres, on a
u
t
Ru =
p

j=1

j
u
2
j

1
(u
2
1
+. . . +u
2
p
. .
=u
t
u=1
)
1
. (23)
Le vecteur u maximisant cette quantit nest autre que v
1
, le vecteur propre associ la plus grande
valeur propre
1
de R, pour lequel on a donc I

v
1
=
1
. 175
3.2 Recherche des axes suivants
Nous cherchons cette fois un vecteur unitaire u, orthogonal au prcdent (v
1
), et maximisant la
quantit u
t
Ru. En nommant encore u
j
les composantes de ce vecteur u dans la base des vecteurs
propres, on a :
u
t
Ru =
p

j=2

j
u
2
j

2
(u
2
2
+. . . +u
2
p
)
2
. (24)
7
Le vecteur u maximisant cette quantit nest autre que v
2
, le vecteur propre associ la seconde plus
grande valeur propre
2
de R, pour lequel on a donc I

v
2
=
2
.
Et ainsi de suite. On en dduit ainsi le thorme suivant.
Thorme 3.2. Le sous-espace F
K
de dimension K portant linertie maximale est engendr par les
K vecteurs propres associs aux K plus grandes valeurs propres de la matrice de corrlation R du 185
nuage des individus.
3.3 Notations
Les axes
v
k
sont appels axes factoriels ou axes principaux.
Linertie explique par laxe
v
k
est la valeur propre
k
Linertie explique par le sous-espace factoriel F
K
engendr par les axes factoriels est 190
I
F

K
=
1
+. . . +
K
, (25)
et le pourcentage dinertie expliqu par ce sous-espace est donc

1
+...+
K
p
.
On appelle k-ime composante principale les coordonnes c
k
R
n
des n individus sur laxe
factoriel
v
k
, qui sont les projections des individus sur ces axes :
c
k
= Zv
k
. (26)
Les composantes principales peuvent tre vue comme les nouvelles variables dans le sous-
espace factoriel.
4 Interprtation des rsultats dune ACP
4.1 Qualit de reprsentation sur les axes factoriels
Un des points les plus dlicats de lACP est dapprcier la perte dinformation engendre par la 200
rduction de la dimension. On a vu prcdemment que la qualit de reprsentation du nuage dans le
sous-espace factoriel est exprime par le pourcentage dinertie explique

1
+...+
K
p
.
Cette mesure globale doit tre complte par dautres considrations comme la reprsentation des in-
dividus et des variables dans ce sous-espace factoriel. Il peut en effet arriver que les axes retenus, bien
que reprsentant une part importante de linertie globale du nuage, ne sufsent pas expliquer correc- 205
tement certains individus ou variables : deux individus peuvent tre proches en projection sur les axes
factoriels retenus tout en tant trs loigns en ralit, si leurs reprsentations sur ces axes ne sont pas
de bonne qualit.
La qualit de reprsentation dun individu i sur un axe factoriel est mesur par le cosinus carr
de langle entre laxe factoriel et le vecteur z
i
. Plus le cosinus est grand, plus z
i
sera proche de laxe 210
factoriel et donc sera bien reprsent sur cet axe.
La qualit de reprsentation dune variable j sur le k-me axe factoriel est exprime par le coef-
cient de corrlation linaire r(c
k
, z
j
) entre la variable initiale z
j
et la nouvelle variable, composante
principale, c
k
. La valeur de cette corrlation sera galement trs importante pour interprter les nou-
veaux axes factoriels en fonction des variables initiales. Le calcul de cette corrlation, non dvelopp 215
dans ce document, montre que
r(c
k
, z
j
) =
_

k
v
j
k
, (27)
8
o v
j
k
est la j-me coordonne du vecteur v
k
.
Ainsi, bien quayant retenu un sous-espace factoriel expliquant une part importante de linertie totale,
il est possible que certaines variables ou individus dintrt soient mal reprsents dans ce sous-espace. 220
Il sera alors intressant de complter le sous-espace factoriel en ajoutant des axes factoriels supplmen-
taires de sorte que ces variables ou individus dintrt soient bien reprsents.
4.2 Slection du nombre k daxes factoriels retenir
La slection du nombre daxes retenir, aborde prcdemment, est une tape importante dune
ACP. Les critres utiliss sont en gnral empiriques : la mthode du coude qui consiste dtecter un 225
coude sur le diagramme des valeurs propres, ou le critre de Kaiser. Ce dernier consiste ne retenir
que les valeurs propres suprieures la moyenne : puisquon est en ACP norme la somme des valeurs
propres est gale au nombre p de ces valeurs propres, et la moyenne des valeurs propres est donc gale
1. On ne retiendra donc par le critre de Kaiser que les valeurs propres suprieures 1.
4.3 Interprtation 230
La mthode la plus naturelle pour interprter les composantes principales (ou les axes factoriels)
est de les relier aux variables initiales, en utilisant les corrlations prcdemment introduites. Gnra-
lement, pour un couple de composantes principales c
1
et c
2
, on reprsente les corrlations dans une
gure appele cercle de corrlation (Figure 3), o chaque variable z
j
est reprsente par un point de
coordonnes (r(c
1
, z
j
), r(c
2
, z
j
)). 235
Une fois les composantes principales interprtes, on reprsente les individus dans les plans factoriels
forms en croisant deux deux les axes factoriels retenus (Figure 4). Chaque reprsentation est inter-
prte en essayant de reprer des groupes dindividus et en donnant ces groupes une signication en
fonction de leur place dans les plans factoriels.
5 Application lexemple des cidres 240
Une ACP norme a t ralise sur les donnes de cidres prcdemment introduites, et nous pr-
sentons une analyse synthtique des rsultats dans cette section.
La premire tape consiste slectionner le nombre daxes factoriels que lon souhaite conserver. En
utilisant le critre de Kaiser, nous slectionnons les 3 premires valeurs propres (Tableau 3), qui ex-
pliquent ensemble plus de 87% de linertie totale du nuage de points. Nanmoins, comme le troisime

1

2

3

4

5

6

7

8

9

10
valeur propre 5,154 2,502 1,097 0,834 0,194 0,14 0,049 0,024 0,006 0
inertie explique (%) 51,54 25,02 10,97 8,34 1,94 1,40 0,49 0,24 0,06 0
inertie expl. cumule (%) 51,54 76,56 87,53 95,87 97,81 99,21 99,70 99,94 100 100
TAB. 3 Tableau des valeurs propres.
245
axe nest corrl signicativement quavec une seule variable, la variable acidit, nous ne le consid-
rons pas dans linterprtation synthtique prsente dans ce document.
Le cercle des corrlations pour le plan form des deux premiers axes factoriels est reprsent Figure
3. Excepte la variable acidit, qui est fortement corrle avec le troisime axe factoriel, toutes les
9
FIG. 3 Cercle des corrlations pour le premier plan factoriel.
variables sont bien reprsentes dans ce plan factoriel puisque leurs corrlations avec les axes sont 250
relativement importantes (les projections sont proches du cercle de corrlation). Linterprtation que
lon peut faire des deux premiers axes factoriels est la suivante :
le premier axe factoriel semble opposer le cidre doux (fruit, sucr, parfum) au cidre brut (plus
alcoolis et astringent),
le second axe factoriel semble opposer les cidres ayant une particularit olfactive (forte odeur) 255
aux cidres ayant une certaine particularit gustative (piquance).
Ce plan factoriel tant interprt, nous pouvons y projeter les individus (Figure 4).
Aprs avoir vri que les individus taient bien reprsents sur le plan factoriel en examinant les
valeurs des cosinus carrs des angles entre les individus et les axes factoriels (valeurs des cosinus
carrs non prsentes dans ce document), il semble se dgager 4 groupes de cidres : 260
groupe 1 : les cidres 3, 8, 4 et 10 qui sont des cidres doux,
groupe 2 : les cidres 2, 5, 6 et 7 qui sont des cidres bruts,
groupe 3 : le cidre 9 qui est un cidre particulirement odorant et suffocant,
groupe 4 : le cidre 1 qui est particulirement piquant.
10
FIG. 4 Projections des individus dans le premier plan factoriel.
Annexes 265
5.1 Annexe 1 : dmonstration de la formule de linertie totale I
g
= tr(V M)
I
g
=
1
n
n

i=1
(x
i
g)
t
M(x
i
g) =
1
n
n

i=1
y
t
i
My
i
=
1
n
n

i=1
tr(y
t
i
My
i
) (28)
= tr(
1
n
n

i=1
y
i
y
t
i
M) = tr(
1
n
Y
t
Y M) (29)
= tr(V M) (30)
5.2 Annexe 2 : dmonstration du thorme 3.1 270
Soit E
k+1
un espace de dimension k + 1.
Comme dimE
k+1
= k + 1 et dimF

k
= p k on a :
dim(E
k+1
+F

k
)
. .
p
= dimE
k+1
+ dimF

k
. .
=p+1>p
dim(E
k+1
F

k
) (31)
do ncessairement dim(E
k+1
F

k
) 1.
Soit v un vecteur de E
k+1
F

k
. 275
11
Posons E
k+1
= vGo Gest le supplmentaire orthogonal de v dans E
k+1
. Gest donc de dimension
k. Soit F
k+1
= F
k
v.
Comme v est orthogonal G et F
k
, on a :
I
E
k+1
= I
v
+I
G
, (32)
I
F
k+1
= I
F
k
+I
v
. (33)
Comme F
k
tait le sous-espace de dimension k dinertie maximale, on a I
G
I
F
k
donc I
E
k+1
I
F
k+1
, 280
et ce quel que soit E
k+1
.
Le maximum dinertie est donc ralis pour lespace F
k+1
= F
k
v o v doit tre de sorte que I
v
soit
maximale.
12

Vous aimerez peut-être aussi