Vous êtes sur la page 1sur 113

Cours dAnalyse Multidimensionnelle

Sbastien Faure

Septembre 2012
ii
Table des matires

Introduction ix
0.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
0.2 Tableaux de donnes de grande taille et classification (sommaire)
des techniques danalyse des donnes . . . . . . . . . . . . . . . . x
0.2.1 Principaux types de tableaux se prtant une analyse
factorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . x
0.2.2 Classement (sommaire) des techniques danalyse factorielles x
0.2.3 Les mthodes de classification . . . . . . . . . . . . . . . . x
0.3 Organisation du cours . . . . . . . . . . . . . . . . . . . . . . . . x
0.4 Un bref historique de lanalyse en composantes principales (A.C.P) x

I Mthodes factorielles 1
1 Lanalyse en composantes principales (A.C.P) : la mthode 3
1.1 Les lments essentiels de lA.C.P . . . . . . . . . . . . . . . . . . 3
1.1.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Quelques remarques et questions de "bon sens" . . . . . . 4
1.1.3 But de la mthode . . . . . . . . . . . . . . . . . . . . . . 5
1.1.4 Analyse en composantes principales : la mthode . . . . . 6
1.2 Le dtail des diffrentes tapes . . . . . . . . . . . . . . . . . . . 6
1.2.1 Prliminaires de Statistique descriptive . . . . . . . . . . 6
1.2.2 Diagonalisation de V ou de R . . . . . . . . . . . . . . . . 8
1.2.3 Lespace des individus N (I) . . . . . . . . . . . . . . . . 14
1.2.4 Lespace des variables N (J ) . . . . . . . . . . . . . . . . 18

2 Lanalyse en composantes principales (A.C.P) : les calculs 31


2.1 La dmarche statistique de lA.C.P . . . . . . . . . . . . . . . . . 31
2.1.1 Le but de lA.C.P . . . . . . . . . . . . . . . . . . . . . . 31
2.1.2 Les diffrentes tapes dans la dmarche de lA.C.P . . . . 32
2.2 A.C.P en dimension 3 . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2.1 Prliminaires statistiques . . . . . . . . . . . . . . . . . . 32
2.2.2 Diagonalisation de R ou V . . . . . . . . . . . . . . . . . . 34
2.2.3 Lespace des variables : N (J ) . . . . . . . . . . . . . . . 36

iii
iv TABLE DES MATIRES

2.2.4 Lespace des individus : N (I) . . . . . . . . . . . . . . . . 41

3 Analyse des correspondances (A.F.C) 47


3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.3 Nuage, masses et distances . . . . . . . . . . . . . . . . . . . . . 48
3.3.1 Construction des nuages de points . . . . . . . . . . . . . 48
3.3.2 Choix des distances . . . . . . . . . . . . . . . . . . . . . 48
3.4 Analyse dans IRp . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.4.1 Changements dchelles . . . . . . . . . . . . . . . . . . . 48
3.4.2 Coordonnes du centre de gravit du nuage de points dans
IRp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4.3 Matrice diagonaliser . . . . . . . . . . . . . . . . . . . . 49
3.4.4 Remarques pour le calcul . . . . . . . . . . . . . . . . . . 50
3.5 Analyse dans IRn . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.5.1 Changements dchelles . . . . . . . . . . . . . . . . . . . 50
3.5.2 Coordonnes du centre de gravit du nuage de points dans
IRp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.5.3 Matrice diagonaliser . . . . . . . . . . . . . . . . . . . . 50
3.6 Relation entre les deux espaces IRp et IRn . . . . . . . . . . . . . 51
3.7 Tableau rcapitulatif des rsultats prcdents . . . . . . . . . . . 52
3.8 Aides linterprtation . . . . . . . . . . . . . . . . . . . . . . . . 54
3.8.1 Contributions absolues . . . . . . . . . . . . . . . . . . . . 54
3.8.2 Contributions relatives . . . . . . . . . . . . . . . . . . . . 54

4 Lanalyse factorielle des composantes multiples (A.F.C.M ou


A.C.M) 57

5 Lanalyse discriminante (A.D) 59

II Mthodes de classification 61
6 Classification hirarchique ascendante 63
6.1 Hirarchie et arbres de classification . . . . . . . . . . . . . . . . 63
6.1.1 Hirarchie de parties dun ensemble . . . . . . . . . . . . 63
6.1.2 Arbre associ une hirarchie de parties . . . . . . . . . . 64
6.1.3 Arbres hirarchiques quivalents . . . . . . . . . . . . . . 65
6.1.4 Hirarchie indice (H, ) . . . . . . . . . . . . . . . . . . 66
6.2 Hirarchie indice associe un critre dagrgation . . . . . . . 66
6.2.1 Les critres dagrgation usuels . . . . . . . . . . . . . . . 66
6.3 Algorithme de base de construction dune hirarchie indice (sur
un exemple) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.4 Qualits dune classification . . . . . . . . . . . . . . . . . . . . . 69
6.5 Critre de WARD . . . . . . . . . . . . . . . . . . . . . . . . . . 71
TABLE DES MATIRES v

6.5.1 Inertie intra-classe et compacit des classes dune parti-


tion P de I . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.5.2 Inertie inter-classe et sparabilit des classes dune parti-
tion P de I . . . . . . . . . . . . . . . . . . . . . . . . . . 71
6.5.3 Complmentarit des inerties inter-classe et inter-classe . 72
6.5.4 Nouvelle expression du critre de WARD . . . . . . . . . 72
6.5.5 Dcomposition de linertie IT otale suivant les noeuds de la
hirarchie . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
6.6 Exercice rsolu : algorithme classique de construction ascendante 74
6.6.1 Cas o la distance est le city-block et le critre dagrga-
tion est celui du diamtre . . . . . . . . . . . . . . . . . . 74
6.6.2 Cas o la distance est la distance euclidienne et le critre
dagrgation est celui de Ward . . . . . . . . . . . . . . . 76
6.7 Application du logiciel Statistica un exemple . . . . . . . . . . 77

6.7.1 Le problme pos. . . . . . . . . . . . . . . . . . . . . . . 77


6.7.2 Rsolution du problme ( en utilisant Statistica) . . . . . 78

7 La classification automatique 83

A Notions dalgbre linaire 85


A.1 Espace vectoriel de dimension finie . . . . . . . . . . . . . . . . . 85
A.1.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
A.1.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
A.1.3 Sous-espace vectoriel . . . . . . . . . . . . . . . . . . . . . 86
A.2 Base dun espace vectoriel de dimension finie . . . . . . . . . . . 86
A.2.1 Combinaison linaire de vecteurs . . . . . . . . . . . . . . 86
A.2.2 Indpendance et dpendance linaires . . . . . . . . . . . 87
A.2.3 Base dun espace vectoriel . . . . . . . . . . . . . . . . . . 87

A.2.4 Dimension dun espace vectoriel E . . . . . . . . . . . . . 87


A.2.5 Base canonique de IRp considr comme espace vectoriel . 88
A.2.6 Composantes dun vecteur dans une base . . . . . . . . . 88
A.2.7 Dcomposition dun espace vectoriel en somme directe de
sous-espaces vectoriels . . . . . . . . . . . . . . . . . . . . 88
A.3 Rsultats lmentaires sur les matrices . . . . . . . . . . . . . . . 89

A.3.1 Application linaire . . . . . . . . . . . . . . . . . . . . . 89


A.3.2 Noyau et image dune application linaire f . . . . . . . . 89

A.3.3 Rang de f . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.3.4 Matrice dune application linaire . . . . . . . . . . . . . . 90
A.4 Oprations sur les matrices . . . . . . . . . . . . . . . . . . . . . 90
A.4.1 Addition de deux matrices . . . . . . . . . . . . . . . . . . 90
A.4.2 Multiplication dune matrice par un nombre rel . . . . . 91
A.4.3 Produit de deux matrices . . . . . . . . . . . . . . . . . . 91
vi TABLE DES MATIRES

A.4.4 Matrices particulires . . . . . . . . . . . . . . . . . . . . 92


A.4.5 Inverse dune matrice carre . . . . . . . . . . . . . . . . . 92
A.4.6 Trace dune matrice carre . . . . . . . . . . . . . . . . . 93
A.4.7 Dterminant dune matrice carre . . . . . . . . . . . . . 93
A.4.8 Rang dun systme de vecteurs, rang dune matrice . . . . 94

A.4.9 Valeurs propres et vecteurs propres dune matrice . . . . . 94

B Espaces Euclidiens 97
B.1 Formes bilinaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.1.1 dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.1.2 Cas particulier . . . . . . . . . . . . . . . . . . . . . . . . 97
B.1.3 Un exemple : la covariance . . . . . . . . . . . . . . . . . 97
B.2 Produit scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.2.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.2.2 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
B.2.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
B.2.4 Reprsentation matricielle du produit scalaire . . . . . . . 98

B.2.5 Notions lies au produit scalaire . . . . . . . . . . . . . . 99

B.3 Mtriques : proprit et exemples . . . . . . . . . . . . . . . . . . 100


B.3.1 Proprit (admise) . . . . . . . . . . . . . . . . . . . . . . 100
B.3.2 Exemples de mtriques . . . . . . . . . . . . . . . . . . . . 100
Preface

vii
viii PREFACE
Introduction

0.1 Gnralits
Dans ces dix heures de cours, on sintresse un certain nombre de tech-
niques statistiques, permettant de rsoudre des problmes se posant en sciences
humaines, et en particulier en psychologie.
On considre en France que lanalyse des donnes recouvre principalement
deux ensembles de techniques : les premires qui relvent de la gomtrie eucli-
dienne et conduisent lextraction de valeurs et vecteurs propres, sont appeles
analyses factorielles ; les secondes, dites de classification automatique sont
caractrises par le choix dun indice de proximit et dun algorithme dagrga-
tion ou de dsagrgation qui permettent dobtenir une partition ou un arbre de
classification.
On peut dcrire les grands traits de cette cole danalyse des donnes, fran-
aise par
Une mfiance vis--vis de la statistique infrentielle classique : remise en
cause du modle probabiliste priori et en particulier du modle Gaus-
sien ; priorit aux donnes et particulirement aux donnes multidimen-
tionnelles.
Un retour la gomtrie : abandon du langage de la statistique mathma-
tique, position critique lgard du langage matriciel ; exploitation syst-
matique de la dualit.
La diversit des problmes abords : lanalyse factorielle est devenue un
outil dinvestigation ordinaire qui est utilis sans peine, grce aux pro-
grammes existants, par le mdecin, lingnieur, le gestionnaire, le psycho-
logue, etc.
La place privilgie occupe par certaines techniques danalyse factorielle :
lanalyse factorielle des correspondances est trs apprcie en France mais
moins utilise dans les pays anglo-saxons (ce qui est peut-tre moins vrai
ces dernires annes !) alors que lon ne fait plus trop appel lanalyse
factorielle au sens de SPEARMAN (cole psychomtrique amricaine).
Un rcit rapide sur lvolution des ides et techniques en analyse factorielle
permettra de bien diffrentier lanalyse factorielle au sens de SPEARMAN, des
techniques relevant de lanalyse en composantes principales ou lanalyse cano-
nique.

ix
x INTRODUCTION

On sappuie sur les diffrents types de tableaux, pour soumettre lanalyse


factorielle, une classification sommaire de ces techniques.
Le langage utilis sera la plupart du temps, gomtrique. Il permettra de
prsenter de faon concise et lgante, les principales stratgies et techniques
qui sen dduisent, utilises en analyse factorielle.

0.2 Tableaux de donnes de grande taille et clas-


sification (sommaire) des techniques dana-
lyse des donnes
0.2.1 Principaux types de tableaux se prtant une ana-
lyse factorielle
0.2.2 Classement (sommaire) des techniques danalyse fac-
torielles
0.2.3 Les mthodes de classification

0.3 Organisation du cours


0.4 Un bref historique de lanalyse en compo-
santes principales (A.C.P)
Premire partie

Mthodes factorielles

1
Chapitre 1

Lanalyse en composantes
principales (A.C.P) : la
mthode

1.1 Les lments essentiels de lA.C.P

Pour permettre aux tudiants de sattacher aux principes plutt quaux cal-
culs mathmatiques lis la mthode, la technique de lanalyse en composantes
principales (A.C.P) sera prsente sur lexemple suivant. Les calculs (lmen-
taires) ninterviendront que lors du deuxime chapitre (A.C.P. en dimensions 2
et 3). La formalisation mathmatique (non-exigible) sera renvoye en annexe.

1.1.1 Exemple introductif

Le tableau prsent ci-aprs donne les rsultats de lheptathlon lors de la


finale des jeux olympiques de Soul.1
Vingt-cinq athltes fminines ont pass 7 preuves ; le 100m-haies, le saut en
hauteur, le lancer de poids, le 200m, le saut en longueur, le lancer de javelot, le
800m.
Les variables sont :

1 Cet exemple est tir du livre "Handbook of Statistical Analyses" de B., Everitt et T.

Hothorn (2009).

3
4CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

Codage Intitul de la variable Unit de la variable


Ha Temps mis au 100m-haies seconde
Sh Hauteur franchie lors du saut en hauteur centimtre
L Rsultat lpreuve du poids mtre
C200 Temps mis au 200m seconde
SL Longueur franchie lors du saut en longueur mtre
J Jet du javelot mtre
C800 Temps mis au 800m seconde
Sco Score lheptathlon pont

1.1.2 Quelques remarques et questions de "bon sens"


Le tableau prcdent fait partie en statistique de ce que lon appelle "les
grands tableaux" ; cest un tableau qui comporte 25 8 = 200 donnes, rsultats
des 25 comptitrices values sur les 8 variables.
LA.C.P peut-elle sexercer sur nimporte quel tableau
Les variables ne sont pas mesures avec la mme unit.
1.1. LES LMENTS ESSENTIELS DE LA.C.P 5

Peut-on dfinir un certain nombre de dimensions ; le rsultat final dpendrait


de plusieurs groupes de variables (les variables lintrieur dun mme groupe
se ressemblant ) ?
Mme pour units sont identiques, la variabilit (mesure par la variance
(ou lcart-type)) nest pas la mme ; on pense en particulier aux variables Ha
et C800 etc.
Pourrait-on se passer de la variable score ? Nest-il pas possible de retrouver
la formule qui donne le score en fonction des variables de dpart ?
Pourrait-on rduire la dimension du tableau (le rsumer), sans perdre trop
dinformation ? Si oui, quel critre utiliser ?
Plutt que de raliser des calculs pour mesurer la proximit des individus ou
des variables permettant des regroupements, ne pourrait-on pas visualiser ces
"similarits" en vitant les mauvaises interprtations ?
Si on imagine une 26-ime concurrente et que lon ne dispose pas de la table
donnant son score, est-il cependant possible de la positionner par rapport aux
25 athltes de la finale ?

1.1.3 But de la mthode


Lee remarques et questions du paragraphe prcdent ne sont pas "inno-
centes" ; chacune dentre-elles sous-entend un certain nombre de concepts de
lA.C.P.
La question de la rduction du tableau des donnes est primordiale : il est
plus facile de grer un tableau de plus petite dimension, quite perdre un peu
(mais pas trop !) dinformation. Ici lobjectif est de passer des huit variables
deux ou trois, appeles composantes principales.
Se pose alors la question ; comment les deux ou trois dimensions retenues
sont-elles retenues ? Quel critre nous permet ces choix (on pense par analogie
au critre des moindres carrs de la rgression linaire) ? Comment exprimer
ces nouvelles variables synthtiques laide des variables de dpart (en termes
mathmatiques comme combinaisons linaires des variables de dpart) ?
Lintrt de cette mthode est lutilisation de la gomtrie pour permettre
une interprtation rapide sans (trop !) de calculs ; une variable pourra tre vi-
sualise en temps que vecteur et langle entre deux variables, la longueur des
variables pourront tre exploites statistiquement etc. Les individus seront logs
mme enseigne (ils feront en tant que vecteurs partie dun autre espace vec-
toriel) do nouveau une exploitation de la gomtrie des fins statistiques !

Le but de lA.C.P est donc le suivant : partir des variables numriques de


dpart (ici 8), on va trouver 8 nouvelles variables synthtiques qui seront des
combinaisons linaires2 des variables de dpart, qui seront appeles composantes
principales et qui auront les particularits suivantes :
1) La premire est la variable qui "explique le plus" linformation de d-
part : on trouve une variable telle que la variance projete des individus soit
2 Voir pour plus de prcision, la notion de combinaison linaire de vecteurs en annexe.
6CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

maximale, la deuxime est la variable synthtique qui explique le plus linfor-


mation restante, une fois que lon a retir linformation apporte par le premier
axe etc.
2) Les 8 composantes principales sont non-corrles 2 2 (ce qui ntait pas
le cas des 8 variables de dpart !), ce qui permet une dcomposition orthogonale
des variances3 . En termes statistiques, linformation totale (la variance) sera
la somme des informations donnes par chaque composante. On pourra donc
obtenir trs simplement le % dinformation apporte par chaque composante
principale.

1.1.4 Analyse en composantes principales : la mthode


Avant dutiliser lA.C.P, il faut se poser la question de la faisabilit. Cette
technique naura de sens que si le tableau de dpart est un tableau de type
individus-variables numriques ; on cherche en effet pour trouver les axes facto-
riels maximiser les variances projetes do lutilisation de calculs de variances
de variables numriques des individus concerns.
Pour bien montrer limportance du type de tableau concern, on notera que
A.F.C seffectuera sur un tableau de contingence (tableau des effectifs observs
dun protocole bivari) et que lA.F.C.M sexercera sur des tabeaux individus-
variables celles-ci ntant plus ncessairement numriques !
On supposera cette condition vrifie, alors le schma dtude est le suivant4 :

Prliminaires de Statistique descriptive



Diagonalistion de V ou R

Etude de lespace des variables

Etude de lespace des individus

Etude ventuelle complmentaire : la classification

1.2 Le dtail des diffrentes tapes


1.2.1 Prliminaires de Statistique descriptive
Il se peut que lA.C.P, bien que faisable, ne donne pas statistiquement les
rsultats escompts5 . On peut nanmoins sans aller au bout de la dmarche
rcuprer un certain nombre de renseignements statistiques que lon naurait pu
faire apparatre autrement.
3 Voir cours de Statistique descriptive de F. Lefvre (cours de premire anne).
4 Le schma dtude reprend la prsentation du logiciel Statistica utilis au second semestre.
5 Ce cas sera dvelopp ultrieurement.
1.2. LE DTAIL DES DIFFRENTES TAPES 7

A) Les moyennes et cart-types des variables

Moyennes et cart-types des 8 variables de dpart.

A partir dun tel tableau, on peut faire un certain nombre de remarques :


a) Les moyennes sont classiquement des rsums (ou valeurs typiques) des
8 variables numriques de dpart et jouent leurs rles habituels en Statistique
descriptive mais en analyse multidimensionnelle des donnes elles permettent
de dterminer le centre de gravit (ou barycentre ou point moyen) G du nuage
des individus (25 points) N (I).

G(13.84(secondes), ........, 136.054(secondes), 6090(points) : centre de gravit de N (I)

Comme on la vu dans la prface, lintrt de lA.C.P est de prsenter go-


mtriquement des rsultats statistiques : le fait de centrer les 8 variables revient
prendre pour nouvelle origine du nuage N (I) le centre de gravit G. Les nou-
velles variables trouves (composantes principales) passeront gomtriquement
par le centre de gravit6 et serant ce ce fait centres. Ce rsultat sera vrifi
dans la partie consacr aux calculs sur lA.C.P.
b) On peut remarquer que les deux cart-types nont ni la mme unit, ni
la mme importance ; dans la suite du cours ceci aura pour consquence de
chosir de diagonaliser la matrice V des matrices de variances-covariances ou R
la matrice des corrlations. Mais dans limmdiat si les variables ont la mme
unit et les mmes cart-types, on conservera les variable dans ltat sinon on
normalisera nos variables :

 
xj
zj = j variables rduites les variables ont la mme unit
j=1; ....;p=8
et la mme importance zj = 1, j = 1; ...; p

6 Ce rsultat, analogue celui de la rgression linaire, sera accept sans dmonstration.


8CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

B) Les coefficients de corrlation linaire entre les variables

Matrice R des coefficients de corrlation linaire des 8 variables


Cette matrice R nous renseigne :
a) Sur les faibles corrlations pouvant exister entre les variables : le lancer
de javelot (J) sera faiblement corrl avec le saut en hauteur (Sh) (ovale) etc. .
b) Sur les fortes corrlations positives : le saut en longueur (J) sera fortement
corrl positivement avec le score (Sco) (losange) etc. .
c) Sur les fortes corrlations ngatives : le saut de haies (Ha) sera fortement
corrl ngativement avec le saut en longueur (SL) (losange) ; moins au met de
temps au saut de hais plus on saute loin en longueur etc. .

1.2.2 Diagonalisation de V ou de R
Cest le point le plus technique. Lide est que lon a recueilli des donnes
partir des p rsultats (ici p=8 variables) des n individus (ici les n=25 finalistes).
Ces 200 nombres forment la matrice X des donnes brutes :

12.69 1.86 7291
12.85 1.80 6897

..
.

..
.

..
X= .

.
..

.
..

14.53 1.71 5289
16.42 1.50 4566

A partir de la matrice X on construit la matrice des variables centres X ;


on retire chaque colonne (reprsentant une variable) sa moyenne.
La matrice n1 X t X 7 reprsente la matrice des variances-covariances V :
7 On verra en cours, sur un exemple, comment trouver la transpose dune matrice et

comment faire le calcul dune matrice par un rel et le produit de deux matrices (non-exigibles
lors de lvaluation !)
1.2. LE DTAIL DES DIFFRENTES TAPES 9

V = n1 X t X

Cette matrice V tant obtenue partir de la matrice X de dpart, on peut


alors la "diagonaliser".
Pour obtenir la matrice R des corrlations, la dmarche est identique. On
trouvera la matrice X
partir de la matrice X en centrant et rduisant les p
variables et alors :
1
t

R= nX X

En rsum ; partir des donnes brutes, on peut trouver les matrices V ou


R. Il reste expliquer le principe de diagonalisation dune matrice et linterpr-
tation que lon peut en faire.
Les donnes brutes, consignes dans la matrice X permet dobtenir la va-
riance du nuage V ar(N (I)) :

V ar(N (I)) = n1 (Xu)t Xu = ut n1 X t X u

Lide essentielle est que lon ne va plus travailler avec les variables de dpart,
mais avec de nouvelles variables appeles composantes principales u1 , ..., up ,qui
auront les particularits suivantes :
a) elles seront deux deux non-corrles
b) la variance projete sur la premire composante sera maximale, la variance
projete sur la deuxime composante principale aprs avoir retir linfluence de
la premire sera maximale etc.
Ce rsultat est connu en mathmatique sous le nom de dcomposition dune
forme quadratique selon une base orthonormale.
Les composantes principales seront les vecteurs propres u1 ; ...; up de la ma-
trice V (ou R) associs aux valeurs propres 1 , ..., p .
On parle de diagonalisation de la matrice R car quand on crit la matrice
dans la nouvelle base celle-ci devient diagonale :

1 r1;2 r1;8
r2;1 1

.. . .. . ..
.
R= Diagonalisation D=
.. . . . .
. . .

.. ..
r8;1 . . 1

1 0 0
0 2 0 0

..
0 0 ... 0 .

. .
.. . . .
.. 7 0
0 0 0 0 8

Autant le calcul des valeurs propres dans le cadre de ce cours nest pas
exigible (le rsultat sera ralis en moins dun dixime de seconde en amphi
10CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

laide dun logiciel de calcul type Mapple) autant linterprtation des valeurs et
vecteurs propres est fondamental :

Interprtation des valeurs et vecteurs propres (de V ou R)


Les vecteurs propres sont les composantes principales recherches
Les valeurs propres sont les variances projetes sur les diffrentes composantes

Le logiciel Statistica nous donne les 8 valeurs propres

Tableau des 8 valeurs propres de la matrice des corrla-


tions R
On se rappelle que le texte prcdent prcisait qu chaque valeur propre j
correspondait un vecteur propre uj pourj = 1; 2; ...; 8 reprsentant une compo-
sante principale.
Le logiciel nous fournit nouveau les 8 vecteurs propres (ou composantes
principales) :
Les huit valeurs propres reprsentent les 8 variances projetes du nuage des
individus sur les 8 composantes principales (ou variances de ces 8 composantes
principales) avec 8 nombres difficilement exploitables dans le domaine actuel
des connaissances.
Les huit vecteurs propres, dont le tableau figure ci-dessus, peuvent scrire
en tant que variables synthtiques, comme combinaisons linaires des variables
de dpart centres (si on utilise la diagonalisation de la matrice V), centres et
rduites ((si on utilise la diagonalisation de la matrice R) :


F1 = a1;1 X1 + ...... + ap;1 Xp
F = a X + ...... + a X


2 1;2 1 p;2 p
.
..


..


.

Fp = a1;p X1 + ...... + ap;p Xp

Dans notre exemple :


1.2. LE DTAIL DES DIFFRENTES TAPES 11

F. 1.1 Tableau des 8 vecteurs propres de la matrice R(ou composantes


principales)

   

F 1 = 0.407396 HaHa
+ ...... + 0.426131 ScoSco

 Ha 
Sco 



F 2 = 0.177736 HaHa
+ ...... + (0.069286) ScoSco

Ha Sco
..
.


..

.

   

F8 = 0.097249 HaHaHa + ...... + (0.893298) ScoSco
Sco
Ha13.84 ou Sco6090.6
F1 = 0.407396 Ha13.84

0.7218 + ...... + 0.426131 Sco6090.6
556.9843

F = 0.177736 + ...... + (0.069286)

.
2 0.7218 556.9843
..

..



.

F8 = 0.097249 Ha13.84
0.7218
+ ...... + (0.893298) Sco6090.6
556.9843

On se ramnera dans tous les cas au centre de gravit G ce qui revient


centrer toutes les variables mais se pose la question de savoir si lon doit ou non
rduire les variables :
Si les variables nont pas la mme unit, il est clair quil faut faire "sau-
ter" lunit en divisant par lcart-type : on ne peut raisonnablement dans la
combinaison linaire avoir des secondes, des entimtres etc.
Et mme si les variables sont identiques, une variable ayant un cart-type
plus important quune autre risque d "craser" cette dernire alors que le fait
de rduire toutes les variables leur donnent la mme importance (tous les cart-
types sont gaux 1) :

 Xj Xj
j = 1; ..; p X
j = 1 avec Xj = Xj
12CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

En rsum :

Nature des donnes Matrice diagonaliser


Les variables ont mme unit et (sensiblement) la mme dispersion V
Contraire de la situation prcdente R

Aprs avoir trouv les composantes principales, toutes les donnes sex-
priment laide de ces nouvelles variables qui reprsentent dans lordre d-
croissant les meilleures explications possibles (on pourrait les qualifier de di-
mensions). Elles sexpriment comme on vient de le voir comme combinaisons
linaires des variables de dpart centres et oui/(ou non) rduites.
Considrons par exemple lcriture de la premire composante principale :

F1 = 0.407396 Ha13.84
0.7218 + ...... + 0.426131 Sco6090.6
556.9843

remarquons que cette variable est centre comme somme de variables centre,
elle passera donc gomtriquement par le centre de gravit du nuage, mais in-
dpendamment de lexistence deson criture mathmatique, elle est dans ltat
difficilement exploitable. Lcriture servira positionner la projection dun in-
dividu supplmentaire sur ce premier axe8 .
Expliquons prsent la vision gomtrique que lon doit avoir dune compo-
sante principale :
la variance (ou inertie) du nuage des n=25 points est donne par :
25
 25
 25

2
V arT olale = 1
25 GMi = 1
25 GMi 2 = 1
25 GMi2
i=1 i=1 i=1

Si on appelle (Hi )i=1;...;25 les 25 projections orthogonales sur un axe, le


premier axe factoriel (ou premire composante principale) sera laxe(parmi tous
les axes possibles) telle que la variance projete sur cet axe sera la plus grande
possible :
25
 25
 25

2
V arPr ojetee = 1
25
GHi = 1
25
GHi 2 = 1
25
GHi2 est maximale
i=1 i=1 i=1

et intuitivement on trouve gomtriquement laxe qui "pouse" le plus pos-


sible la forme du nuage ou laxe sur lequel les 25 points-individus s "allongent"
le plus possible.
Deux rsultats sont fondamentaux :
1) Les variables correspondant aux p=8 composantes principales sont 2 2
non-corrles et permettront une dcomposition orthogonale des variances9 :
en dautres termes linformation totale pourra tre dcompose en une somme
dinformations relatives chacun des p=8 axes factoriels trouvs. Ce rsultat
8 Le calcul sera effectu dans la partie A.C.P : les calculs.
9 Ce rsultat tait dj cit dans le polycopi de premire anne.
1.2. LE DTAIL DES DIFFRENTES TAPES 13

permettra de mesurer le % dinformation apport par ces nouveaux axes facto-


riels (composantes principales).

2) Un autre rsultat mathmatique important est le suivant : si on diagonalise


une matrice (ce qui est le cas pour toute matrice symtrique en loccurence V
ou R), la trace de la matrice ; somme des termes diagonaux est inchange :

1 r1;2 r1;8 1 0 0
r2;1 1 0 2 0 0

..
. ... ... .. ..
R= Diag. D = 0 0 . 0 .

.. .. .. .. .. . .
. . . . . 7 0
.
.. .. 0 0 0 0 8
r8;1 . . 1
p
 p

T race(R) = T race(D) p = 1= j
j=1 j=1

Un raisonnement identique peut tre fait avec la matrice R

V ar (Fj ) = V ar (Cj ) = j pour j = 1; ...; p = 8

de plus comme les (Cj )j=1;...;p sont non-corrles (elles forment une base
orthonormale)
p

V arT otale = V ar (Cj )
j=1

avec les consquences suivantes :

Si on diagonalise la matrice R, la somme des valeurs propres est gal au nombre de caractres
Si on diagonalise la matrice V, la somme des valeurs propres est gal la somme des variances
des variables de dpart
j
Le poucentage expliqu par un axe factoriel j est gal 
p

j
j=1

Dans le cas qui nous intresse, le pourcentage expliqu par la premire com-
posante principale sera : 
p
1
= 5.445705
8
= 0.680 71 etc.
j
j=1
14CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

On pourra vrifier que la somme des nombres de la premire colonne est


gale 8.

On travaillera sur deux espaces, celui des individus et celui des variables
comme lindique la copie dcran du logiciel ;

1.2.3 Lespace des individus N (I)


Dans notre exemple figurent 25 individus i1 , ...., i25 .A chaque individu i est

associ un vecteur Gi o G est le centre de gravit du nuage N (I) .On dira
donc que lensemble des individus N (I) forme un espace vectoriel euclidien.
La notion despace vectorie euclidienl est dfini de faon prcise dans la partie
annexe :
Il sagit dun espace vectoriel muni dune distance permettant de mesurer la
proximit entre les individus. Un individu est connu partir des p valeurs quil
prend sur les p variables or en mathmatiques un p-uplet est lment de Rp .
On peut dfinir deux distances euclidiennes sur lespace des individus :
1) La distance euclidienne au carr d21 que lon utilise de faon classique
quand il ne faut pas rduire les variables (quand on diagonalise V) :
2 2
d21 (il , il ) = (xl,1 xl ,1 ) + ....... + (xl,p xl ,p )
2
2) La distance euclidienne au carr d2 que lon utilise quand il faut rduire
les variables(quand on diagonalise R) :
 x x 2  x x 2
d22 (il , il ) = l,1 1 l ,1 + ....... + l,p p l ,p

Si par exemple dans notre tude on dsirait mesurer la distance entre les
deux premiers individus, on procderait comme suit :
1.2. LE DTAIL DES DIFFRENTES TAPES 15

2 2
d22 (il , i2 ) = 12.6912.85
0.7218 + ....... + 72916897
556.9843 = 4.905510 .
Ces distances sont indispensables car la dtermination des composantes prin-
cipales repose sur le fait que lon maximise des variances qui utilisent des dis-
tances.
En rsum :

(N (I) = Rp , d) est un espace vectoriel euclidien

dans lencadr d correspond la distance pertinente (d21 ou d22 ).


En plus de la dtermination des composantes principales, la ncessit des
distances repose sur lobtention dventuelles typologies sur lensemble des in-
dividus ; on dsire "dcouper" laide des caractristiques donnes par les va-
riables, lensemble N (I) en plusieurs sous-groupes dindividus se ressemblant
lintrieur dun mme groupe.
Deux individus sont proches dans lespace euclidien sils ont les mmes ca-
ractristiques pour les variables de base considres (point de vue statistique)
ou si leur distance est voisine de zro.

Pour cela Cn2 = n2 = n(n1) calculs de distance entre individus sont
25 2524 2
ncssaires (ici 2 = 2 = 300.0) !!! Ce qui nest pas envisageable.
Pour rsoudre ce problme, on utilise la mthode suivante :

Deux
 individus sont proches dans lensemble N (I) si :
1) Ils sont "bien reprsents" dans le premier plan factoriel (ils sont proches du plan)
2) Ils sont proches dans ce mme plan (on le constate visuellement)

Il nous reste dterminer la notion de "bonne reprsentation" dun individu


dans le premier plan factoriel et le moyen de sen assurer.
La figure qui suit nous montre la projection orthogonale dun individu M
sur le premier plan factoriel P (dtermin par ces deux premires composantes
principales non-dessines).


Langle
= GM , GH doit, pour que M soit proximit du plan (M "bien
reprsent"), voisin de 0 ou 180 degrs do un cosinus carr de cet angle proche
de 1 (le logiciel Statistica dans sa premire version Statistica 5.0 choisissait par
dfaut cos2 (
) 0.6

10 Les tudiants pourront, avec profit, vrifier ce calcul. Il naurait pas t correct dutiliser

comme distance d21 (i1 , i2 ) = 1.5525 105 .


16CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

Projection dun individu M sur le premier plan factoriel.

Si on observe le tableau des cosinus carrs qui suit et que lon dsire savoir
si lindividu 1 est bien reprsent (dans le premier plan factoriel), on calcule le
cosinus carr de langle quil fait avec le premier plan factoriel :
cos2 (

) = cos2 (
1 ) + cos2 (

2 ) = 0.914359 + 0.061678 = 0.976 04 0.6


Le premier individu (la championne olympique) est bien reprsente


1 = GM , GH 1 avec H1 : le projet orthogonal du point M sur le premier

axe factoriel (premire composante principale)
et,


2 = GM , GH 2 avec H2 : le projet orthogonal du point M sur le premier

axe factoriel ( deuxime
composante
principale)

= arc cos1 0.976 04 = 0.155 42 radians = 0.155 42 180

deg res = 8.
904 9 deg res.

Tableau (partiel) des cosinus carrs pour les individus.

La figure suivante explique que ce que lon voit dans le premier plan factoriel
nest pas suffisant pour expliquer la proximit dindividus :
1.2. LE DTAIL DES DIFFRENTES TAPES 17

Les deux projections H et K (ce que lon voit) dans le premier plan fac-
toriel sont proches et pourtant les deux individus M et N ne les sont pas.

Sur le graphique prcdent, tous les points sont bien reprsents ; on peut
donc juger de leur proximit relle.
Lindividu 1 est plus proche de lindividu 2 que de lindividu 25 ; ce qui semble
logique quand on sait que les individus 1 et 2 sont respectivement mdaille dor
et dargent alors que lindividu 25 est la dernire des 25 finalistes.
18CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

Remarque : plus on recherche des individus bien reprsents plus on prendra


comme contrainte un cosinus carr se rapprochant de 1.

1.2.4 Lespace des variables N (J )


De la mme faon que lon vient de dfinir lespace euclidien des individus
(N (I) = Rp , d) ,on peut crire lespace euclidien des variables sous la forme :

(N (J ) = Rn , d) o d est une distance (prcise ultrieurement)

Pour construire cette distance, on a besoin de dfinir la notion de produit


scalaire sur N (J ) ; ce produit scalaire entre deux (vecteurs) variablessera dfini
comme tant la covariance des deux variables :

Xj , Xj  = cov (Xj , Xj ) avec j, j = 1; ..; p

Reprcisons rapidement ces deux notions11 :


Un produit scalaire dfini sur un espace vectoriel V est une forme bilinaire
symtrique :
1 1 Voir annexe pour plus de dtails mathmatiques.
1.2. LE DTAIL DES DIFFRENTES TAPES 19
 
   
a
u + b
v , c

s + d t = ac 
u,s  + ad u , t + bc 
v ,

s  + bd
v, t
 

u ,

u  =
u
u cos u ,
 u
 

u ,

u  =
u

u cos u,
 u = u (longueur du vecteur
2
u au carr)
   
0 = 
u,
v  =
u
v cos
u ,

v cos u ,
 v = (90 )
u
2

v

Proprit importante
Ce rsultat trs important sera utilis indifferemment dans lespace des in-
dividus et des variables :

 
Si

u est un vecteur unitaire de laxe (D) alors GM ,
u = GH ( mesure

algbrique de GH).
Cette formule nous permet de trouver les projections orthogonales des indi-
vidus et des variables sur les composantes principales12 .

La covariance de deux variables numriques en statistique descriptive est


traduite par13 :
n
 n

1
1
Cov(Xj , Xj ) = n Xi,j Xj Xi,j Xj = n Xi,j Xi,j Xj .Xj
i=1 i=1
12 Ce calcul sera fait explicitement dans la partie lA.C.P : les calculs.
13 Voir cours de premire anne.
20CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

A partir de la on peut obtenir une correspondance gomtrique une notion


statistique :
2
Xj = Xj , Xj  = cov (Xj , Xj ) = 2j ; la longueur au carr dune variable
correspondra sa variance, et sa longueur  son cart-type.

Xj , Xj  = Xj Xj cos Xj , Xj CovXj , Xj = j j

   
cos X j , X j cos X
j , X j = rXj ,Xj
Le cosinus de langle entre deux variables correspond au coefficient de cor-
rlation entre ces deux  variables.
Xj , Xj cos X j , Xj = rXj ,Xj = 0 Xj et , Xj sont non-corrles
 
Xj , et Xj sont de mme direction et de mme sens X j , Xj = 0
rXj ,Xj = 1 (les 2 variables sont parfaitement corrles positivement).
 
Xj , et Xj sont de mme direction et de sens contraire X j , Xj =
180 rXj ,Xj = 1 (les 2 variables sont parfaitement corrles ngativement).

En rsum :
Notions gomtriques (vecteurs) Notions statistiques (variables)
Produit scalaire Covariance
Longueur Ecart-type
Cosinus de langle Coefficient de corrlation

La notion de communaut entre variable et composante(s) principale(s) se


dduit immdiatement du coefficient de corrlation entre la variable et la com-
posante principale
 
2
Comm(Xj , Ck ) = rj,k = cos2 C k , Xj

On peut traduire statistiquement les projections orthogonales dune variable


sur les composantes principales ; intressons nous la projection de la variable
Xj sur la premire composante principale C1 (le raisonnement serait identique
pour les autres !)
1.2. LE DTAIL DES DIFFRENTES TAPES 21

Soit Hj la projection de la variable Xj sur la composante principale C1 ,


daprs le rsultat mathmatique vu ci-dessus :
 
GHj = xj = X 1 = cov( Xj Xj , C1 C1 ) = 1 1 cov(Xj , C1 ) =
j , C
j C1 j C1
rXj ,C1
La ligne de calcul prcdente est justifie par la binilarit et les proprits
de la covariance.
Il en rsulte que la premire coordonne de la variable Xj dans la base forme
des p composantes principales (ou axes factoriels)
est le coefficient de corrlation de cette variable avec cette premire compo-
sante principale etc.
22CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

Les deux nombres entours sont les deux premires coordonnes de la va-
riable X1 dans la base forme des composantes principales ; ce sont labscisse et
lordonne de la projection de la premire variable dans le premier plan factoriel
(cf la figure du cercle des corrlations).
Le cercle des corrlations a la particularit davoir un rayon gal 1 ; la
variable C1 a t rduite.
On peut prsent donner une interprtation de la notion de communaut :
la longueur au carr dune variable ramene au cercle des corrlations est gales
1(variance de la variable rduite). Cette variance se dcompose en une somme
des communauts de la variable avec chaque axe factoriels (dcomposition or-
thogonale de la variance cat les composantes principales forment une base or-
thonormale).
En consquence chaque communaut reprsentera le % de variance (infor-
mation) apporte par chaque composante principale la variable considre :
Communaute(Ha, C1 ) = (0.950700)2 = 0.903 83
et comme les communauts sajoutent, la base (Cj )j=1;...;p tant orthonor-
male, la part dinformation apporte par le premier plan factoriel Ha sera :
Communaute(Ha, P ) = Communaute(Ha, C1 ) + Communaute(Ha, C2 )
Communaute(Ha, P ) = (0.950700)2 + (0.194810)2 = 0.941 78
Les deux calculs se trouvent dans le rectangle arrondi noir et lencadr rouge
montre que linformation sur la variable X1 apporte par les 8 composantes
principales est bien de 1=100%.

Puisque lon dispose du cercle des corrlations et du tableau des commu-


naut, on va exploiter les proprits gomtriques des fins statistiques ; la
longueur de la projection au carr reprsente la communaut de la variable Ha
avec le premier plan factoriel (thorme de Pythagore) :
Communaute(Ha, P ) = GH12 + GK12 = 0.941781
Comme le premier plan factoriel explique 94.1781% de la variable Ha, ce
pourcentage restant qui correspond la diffrence de longueur entre Ha et le
cercle des corrlations au carr reprsente le % dexplication apporte Ha par
les 6 derniers axes factoriels : 1 0.941781 = 5. 821 9 102 = 5.8219%.
Si lon observe la variable Score(Sco), on peut en retirer deux renseignements
trs importants :
1.2. LE DTAIL DES DIFFRENTES TAPES 23

a) Le premier plan factoriel explique pratiquement 100% la variable score


(99.46%) et donc le rsultat fonal ne dpendrait que de 2 sous-dimensions.
Go-
mtriquement, la longueur de Sco est pratiquement gale 1 ; 0.994640 =
0.997 32 1La projection de Sco est quasiment sur le cercle ; on dira que Sco
est "bien reprsente" de faon presque parfaite dans le premier plan factoriel.

b) Le second rsultat est encore plus intressant : Communaute(Sco, C1 ) =


0.988873 et donc lexplication de Sco apporte par C1 est de 98.8873% 100%.
On peut dans ce cas trs particulier donner une interprtation trs simple de
la premire composante principale ; il sagit (quasiment)
de la variable Score.
Gomtriquement la variable score a une abscisse 0.988873 = 0.994 42 trs
proche de 1, do une extrmit du vecteur Sco trs proche de l extrmit du
vecteur C1 .

Cette situation, trs particulire nous permet de dfinir le premier axe fac-
toriel. Celle-ci se prsente trs rarement. On aurait pu utiliser comme on la
vu plus haut lquation mathmatique donnant la premire composante (et les
autres !) comme une (des) combinaison(s) linaire(s) des variables de dpart
(centres ou centres-rduites selon le cas) :

Ha13.84 Sco6090.6
F1 = 0.407396 0.7218 + ...... + 0.426131 556.9843

mais cette criture est difficilement exploitable !

On raisonnera(gomtriquement) de la faon suivante :

1) On fait apparatre le cercle des corrlations

2) On observe les variables de dpart qui sont corrles positivement et


ngativement avec laxe considr (si elles existent !)

3) On interprte laxe comme tant celui qui oppose celles qui sont corrles
positivement celles qui le sont ngativement.

Dans le cas de notre exemple :


24CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

Les variables lintrieur de lovale, corrles ngativement la premire


composante principale, sopposent au goupe de variables lintrieur du rec-
tangle, corrlles positivement au premier axe.
Si donc on nglige linterprtation prcdente ; laxe C1 est laxe performance,
on pourrait dire que le premier axe est celui qui oppose les caractristiques de
vitesse celles de dtentes.Ce qui donne un trs bon rsum de la performance !
Le second axe reprsente une dimension "force" car trs li un lancer (de
javelot). Les deux dimensions sont non-corrles ; pratiquement on a besoin de
ces deux sous-dimensions qui sont complmentaires mais que le rsultat final est
plutt li la dimension vitesse-dtente.
Intuitivement, on constate que pratiquer une A.C.P sur cet ensemble de
donnes est non seulement faisable mais pertinent ; linformation apporte par
les deux nouvelles variables reprsente en % : 68.07132 + 15.01689 = 83. 088.
Il existe nanmoins deux rgles empiriques
La rgle de Kaiser
Celle -ci sapplique lors de la diagonalisation de R. Comme on la dj vu
lors du paragraphe sur la diagonalisation, le schma est le suivant :
1.2. LE DTAIL DES DIFFRENTES TAPES 25

1 r1;2 r1;8 1 0 0
r2;1 1

.. .. ..

0 2 0 0
.. ..
R= . . . Diag. D = 0 0 . 0 .

.. .. .. . . .
. . . .. .. ..
7 0
.. .. 0 0 0 0 8
r8;1 . . 1
Lide est de retenir les axes dont le % dexplication est suprieur la
moyenne des explications donnes par les 8 variables de dpart :
 p
j 1
on retient les (j )j=1;...;p tels que p p , mais comme j = p, on
j j=1
j=1

retient les (j )j=1;...;p tels que j 1

Rgle de Kaiser (diagonalisation de R)


On retient les composantes principales dont les valeurs propres sont suprieures ou gales 1
Remarque
2importante : si on diagonalise la matrice V
1 1;2 1;8
1 0 0
2;1 22 0 2 0 0

.. .. .. .. ..
. . .
V = Diag. D = 0 0 . 0 .

.. . .. . .. . . .
. .. . .
. . 7 0
.. .. 2 0 0 0 0 8
8;1 . . p
Un raisonnement identique nous recommande de ne retenir que les axes dont
le % dexplication est suprieur la moyenne des explications donnes par les
8 variables de dpart :
p
 p
j
on retient les (j )j=1;...;p tels que p 1p , mais comme j = 2j ,
j j=1 j=1
j=1

p

2j
j 1 j=1
on retient les (j )j=1;...;p tels que 
p p
ou j p
j
j=1
Dans notre exemple, on choisira deux composantes principales car 1 =
5.445705 1 et 2 = 1.201351 1.
Cette rgle de Kaiser est empirique ; imaginons que le premier axe reprsente
90% dexplication, le second axe a trs peu de chances davoir une valeur propre
suprieure ou gale 1 (dans le cas de la rgle de Kaiser). Ne faut-il dans ce cas
de faon mcanique se priver du second axe qui nous obligerait travailler avec
une seule droite (le premier axe factoriel) mais plutt de visualiser les rsultats
dans un plan ? etc.
La seconde rgle est celle du coude : on ngligera les valeurs propres se
trouvant aprs le coude (cf figure suivante) :
26CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

Les variables aprs le coude jouent un rle ngligeable par rapport aux deux
premires.
Variables actives et variables supplmentaires
Quand on dmarre sur Statistica une A.C.P, le logiciel nous demande quelles
sont les variables que nous souhaitons mettre en "actives" ou en "supplmen-
taires".
Si notre dmarche est "exlporatoire" cest dire que nous navons aucune
hypothse de travail et que nous attendons de lA.C.P quelle nous fournisse ce
type dinformation alors les variables seront mises en supplmentaires ce qui a
t notre cas jusqu prsent.
Si par contre nous souhaitons dans une situation "confirmatoire" privilgier
une (ou plusieurs) variables par rapport aux autres alors cette (ou ces variables)
sera(ont) mise(es) en "supplmentaires".
Dans ltude qui suit nous allons mettre la variable Sco en supplmentaire en
supplmentaire, les autres restant actives ; car on souhaiterait au vu de ltude
prcdente pouvour dire que seules les 7 preuves jouent un rle dans le rsultat
consquence de celles-ci.
1.2. LE DTAIL DES DIFFRENTES TAPES 27

On ne reprend pas ltude ; on se contente de donner le nouveau cercle des


corrlations. LA.C.P a t effectue partir des 7 variables (preuves) et on a
positionn la variable supplmentaire a postriori. On remarque que les rsultats
sont (pratiquement) identiques.

On peut donc dire que la variable Sco est (quasiment) corrles la premire
composante principale

Si on regarde la communaut entre la nouvelle premire composante prin-


cipale et la variable supplmentaire, on trouve 98.29% ce qui dispense de tout
commentaire.
On peut donc trouver la formule qui donne le score laide des 7 variables
(actives) de lpreuve.
28CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE

F. 1.2
1.2. LE DTAIL DES DIFFRENTES TAPES 29

   =
 Sco  
HaHa ShSh C800C800
0.452928 Ha + 0.377271 Sh + ...... + (0.375013) C800

Cette formule qui tait inexploitable pour expliquer la signification du pre-


mier axe car elle va nous permettre de positionner des individus supplmentaires
sur le premier axe et comme on vient de voir quil sagit du score de savoir la
place quun 26-ime aurait obtenu sil avait concourru.
Pour illustrer ce rsultat, considrons un individu i26 (13.84; 1.782; 13.118; 26.459; 6.152; 41.418; 152.3)
En remplaant les variables par le rsultats obtenus,
il vient :
Sco6090.6 152.3136.054
556.9843 = 0 + (0.375013) 8.1236
Sco26 6090.6 + 556.9843 (0.375013) 152.3136.054
8.1236 = 5672. 9. Elle
aurait termin aux environs de la 21-ime place.
30CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE
Chapitre 2

Lanalyse en composantes
principales (A.C.P) : les
calculs

Ce chapitre reprend les lments du chapitre prcdent o toutes les notions


ont t donnes. Pour permettre une comprhension plus complte et viter de
mauvaises interprtations , on se propose dans ce chapitre deffectuer tous les
calculs ( part la dtermination des valeurs et vecteurs propres). Ces calculs
reprennent les lments de Statistique vus en premire anne1 .
Conjointement les rsultats calculs seront retrouvs dans les fentres de
Statistica.

2.1 La dmarche statistique de lA.C.P


2.1.1 Le but de lA.C.P
Il sagit de trouver les caractres synthtiques non-corrls 2 2 appels
facteurs principaux ou composantes principales partir des variables de dpart.
Le but est dobtenir des variables expliquant le mieux possible les donnes ; le
critre sera de trouver dans un premier temps la variable dont linertie projete
sera maximale ; cela correspond une droite "pousant" le plus possible la forme
du nuage. Le deuxime axe orthogonal au premier sera celui qui maximisera la
variance etc.

1 Voir le polycopi de F. Lefvre de L 1 .

31
32CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS

2.1.2 Les diffrentes tapes dans la dmarche de lA.C.P


La faisabilit

On doit travailler avec un tableau Individus-variables numriques. Mais


mme si cette condition est remplie, rien ne vient dire que cette technique sera
pertinente. Cette dmarche est trs efficace si pour un nombre lev de variables,
plusieurs dentre elless ont fortement corrles ; ce qui est souvent le cas de ques-
tionnaires o une trentaine de questions peuvent se ramener globalement tois
groupes dentre-elles (dimensions).

Avantages et inconvnients

Le schma dtude

2.2 A.C.P en dimension 3


Le tableau ci-aprs reprsente les rsultats (sur 10) de six individus trois
matires (trois caractres X1 , X2 , X3 ) :


8 1 0
4 6 5

6 8 7
X=



10 4 7
8 2 5
0 3 6

2.2.1 Prliminaires statistiques


On peut calculer les indices de tendance centrale (moyennes), de dispersion
(variances et cart-types), ainsi que les covariances et coefficients de corrlation
linaire.
X1 = 6 ; X2= 4 ; X3 = 5 
V (X1 ) = 1
6 (8 6)2 + (4 6)2 + (6 6)2 + (10 6)2 + (8 6)2 + (0 6)2 =
64.0
6 = 10. 667
 
V (X2 ) = 1
6 (1 4)2 + (6 4)2 + (8 4)2 + (4 4)2 + (2 4)2 + (3 4)2 =
34.0
6
= 5. 666 7
 
V (X3 ) = 1
6
(0 5)2 + (5 5)2 + (7 5)2 + (7 5)2 + (5 5)2 + (6 5)2 =
34.0
6 = 5. 666 7
   
X1 = V (X1 ) = 64.0
6
= 3. 266 0, X2
= X3
= V (X 2 ) = 34
6
= 2.
380 5
2.2. A.C.P EN DIMENSION 3 33

Cov (X1 ; X2 ) = 16 [(8 6) (1 4) + (4 6) (6 4) + (6 6) (8 4) + (10 6) (4 4) + (8 6) (2 4) +


8.0
6
= 1. 333 3
Cov (X1 ; X3 ) = 16 (8) = 1. 333 3
Cov (X2 ; X3 ) = 16 22 = 3. 666 7
Ces calculs peuvent tre exploits de la faon suivante :
La matrice des donnes X se transforme en une matrice des donnes centres
mais souvent note X pour permettre une notation allge :
appeles ici X
2 -3 -5
-2 2 0

0 4 2

X =
4 0 2
2 -2 0
-6 -1 1
Cette matrice nous donne les donnes brutes quand on se ramne au centre
de gravit du nuage des individus N (I) : G (6; 4; 5) .
On constate que les dispersions mesures par les cart-types ne sont pas trs
diffrents (choix du statisticien)
 
 
X1 = V (X1 ) = 64.0 6 = 3. 266 0, X 2 = X 3 = V (X 2 ) = 34
6 = 2.
380 5
On peut crire ce stade de ltude les matrices V et R de variances-
covariances et de corrlations :
64 8 8
6 6 6
64 8 8
V = 8 6
34
6
22
6 = 16 8 34 22 2
8 22 34
6 6 6
8 22 34
8
et
1 6
3.2662.3805 0.171 50 0.171 50

R = 0.171 50 1 0.647 05
22
0.171 50 2.38052.38056
= 0.647 05 1
Statistica nous donne les rsultats pour V et R :

t X
2 Mathmatiquement V= 1 X  (ce rsultat non-exigible renvoie lannexe mathma-
n
tique).
34CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS

2.2.2 Diagonalisation de R ou V
Comme les units sont identiques et que les variances ne sont pas trs dif-
frentes, on dcide de diagonaliser la matrice des variances-covariances pour
obtenir les valeurs propres et vecteurs propres associs. Parmi les calculs don-
ns dans ce chapitre, la dtermination des valeurs et vecteurs propres nest pas
exigible. On se contentera de demander un noyau de calculs de type Mapple
les rsultats3

64 8 8

6 6 6
V = 8
6
34
6
22
6
, eigenvectors :
8 22 34
6 6 6
3 Pour les tudiants intresss par la technique de diagonalisation dune matrice, ils la

trouveront dans nimporte quel livre de mathmatiques de premier cycle.


2.2. A.C.P EN DIMENSION 3 35

0 1 2
1 2, 1 8, 1 12

1 1 1

Pour reprendre les notations du chapitre prcdent :

Les vecteurs propres v1 , v2 , v3 donnent les directions des composantes principales C1 , C2 , C3


Les valeurs propres 1 , 2 , 3 reprsentent les variances des composantes principales C1 , C2 , C3

Les valeurs propres


Les composantes principales tant deux deux non-corrles, on peut d-
composer la variance totale en la somme des variances projetes sur les axes
factoriels :
64
6 + 34 34 2 2 2 2 2 2
6 + 6 = 1 + 2 + 3 = C1 + C2 + C3 = 1 + 2 + 3 = 12 + 8 + 2 = 22

Les % dexplications donns respectivement par le premier, deuxime et troi-


sime axe factoriels seront respectivement :
18 8 2
22 = 0.818 18 = 81.81%; 22 = 0.363 64 = 36.36% et 22 = 9.
090 9 102 = 9.09%

Le premier travail effectuer est de normaliser les vecteurs propres trouvs


car comme on veut obtenir les projections des variables et des individus sur les
axes factoriels, on se sert du rsultat fondamental vu au chapitre prcdent :
Proprit importante
Ce rsultat trs important sera utilis indifferemment dans lespace des in-
dividus et des variables :
36CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS
 
Si

u est un vecteur unitaire de laxe (D) alors GM ,
u = GH ( mesure

algbrique de GH).
Cette formule nous permet de trouver les projections orthogonales des indi-
vidus et des variables sur les composantes principales
Preuve (non-exigible)

GM = GH + HM (Relation de Chasles sur les vecteurs),


GH
 = GH.  u (dfinition dune mesure
 algbrique)



GM , u = GH + HM , u = GH.
u + HM, u
      
GH. u + HM , u = GH. u , u + HM, u = GH 




u,u + HM,
u (proprit
de bilinarit du produit scalaire)

est un vecteur unitaire :
u = 
u ,

2
Comme
 u  u  = 1 et que HM

u : HM, u =0
do le rsultat :
   
GM ,
u = GH  u,

u  + HM , u = GH 1 + 0 = GH

0 1 2
1 2, 1 8, 1 12

1 1 1

2 1 0 


v1 1

, v2 1

, v3 1

v1 = 22 + (1)2 + 12 = 6;
v2 =
1 1 1

3,
v3 = 2
Les vecteurs unitaires ,
u
1 u2 , u3 des composantes principales scriront :


2 1 0
1 1 ,

u 1 1 ,
u 1 1
u
1 6 2 3 3 2
1 1 1

Ce rsultat de lencadr nous donnera tous les lments de calcul sur lespace
des variables et des individus

2.2.3 Lespace des variables : N (J )


A) Lespace des variables est un espace (vectoriel) euclidien
Comme vu prcdemment lespace euclidien des variables est lespace Rn =
6
R muni du produit scalaire Xj , Xj  = cov (Xj , Xj ) pour j, j {1; 2; p = 3}

B) Ecritures des composantes principales


On peut crire les composantes principales comme combinaisons linaires
des variables (centres) de dpart :
2.2. A.C.P EN DIMENSION 3 37

F1 = 1 2.(X1 X1 + 1. X2 X2 + 1. X3 X3 )
6
F2 = 1 1.(X1 X1 + 1. X2 X2 + 1. X3 X3 )
3
F3 = 1 (1. X2 X2 + 1. X3 X3 )
6

Linterprtation est ici trs simple et au vu de la raret dune telle situation,


il est bon de le souligner
Cest une premire criture laide des variables de dpart :
La troisime composante reprsente la diffrence entre les deux dernires
variables (centres) de dpart
La deuxime composante reprsente la moyenne des trois variables (centres)
de dpart
La premire composante reprsente la diffrence entre la premire variable
(centre) de dpart et la moyenne des deux dernires (centres) de dpart :

F1 = 16 2.(X1 X1 + 1. X2 X2 + 1. X3 X3 )

On peut crire les composantes principales laide des variables de dpart,


comme indiqu dans lencadr prcdent et qui nous sera utile pour position-
ner des individus supplmentaires mais ces composantes sont des variables et
donc des lments de Rn avec n=6. Deux mthodes
permettent
de trouver
ces
vecteurs-variables :F1 = 16 2.(X1 X1 + 1. X2 X2 + 1. X3 X3 )

2 -3 -5
-2 2 0



1
0 4 2

u1 6 2.

+ 1. 0 + 1. 2
4
2 -2 0
-6 -1 1

2 2 + 1 (3) + 1 (5) 12
2 (2) + 1 2 + 1 0 6


1 2 0 + 1 4 + 1 2 6
u = 1 =
1 6
2 4 + 1 0 + 1 2 u1 6 6

2 2 + 1 (2) + 1 0 6
2 (6) + 1 (1)+ 1 1 12
2
1


1
u1 6

1
1
2

On changera comme une commodit dcriture le vecteur prcdent en son


oppos (il reste un vecteur directeur de la premire composante principale). Un
calcul identique4 nous amne :
4 Les autres calculs sont laisss au soin des tudiants.
38CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS


2 2 1
-1 0 -1

1 1
C1 = 6 , C2 = 6 2 , C3 = 2
1 2 1

1 0 1
-2 - 2 1

On vrifie sans peine que :


a) les composantes principales sont centres : C1 = C2 = C3 = 0
b) les variances des composantes principales sont les valeurs propres : 2Cj =
j , j = 1; 2; p = 3  
2
2C1 = 16 6 22 + (1)2 + (1)2 + 12 + 11 + (2)2 02 = 12.0 =
1 etc.
c) les composantes principales sont 2 2 non-corrles : cov(Cj , Cj ) = 0
pour j = j (gomtriquement
elles sont perpendiculaires).
cov(C1 , C3 ) = 16 6 2(2 (1) + (1) (1) + (1) (1) + 1 1 + 1 1 + (2) 1)
0 0 = 0 etc.
Lautre mthode utilise une criture matricielle :5
Cj = X uj avec Cj la j-ime composante principale, X la matrice de
donnes brutes (centres) et uj
le j-ime vecteurpropre (norm).

2 3 5 12 2
2 2 0 6 1
2
1
0 4 2 6 1
C1 = 6
1 = 6
1 == 6 etc.
4 0 2 6 1
2 2 0 1 6 1
6 1 1 12 2

C) Projection des variables sur les composantes principales


Si nous reprenons le rsultat gnral sur les projections orhogonales dun
vecteur surun axe :
GH = X1 , C 1 avec C 1 norm. Si comme dans le chapitre prcdent, on
dsire avoir des variables dont les projections se trouvent lintrieur du cercle
des corrlations ; on normalise les variables ici en loccurence X1 qui devient
1 = X1
X X1       
GH = X 1 , C
1 = cov X 1 , C
1 = cov X1 , C1 = 1 1
X1  C1  X1  C1 
1
cov (X1 , C1 ) = X C1 cov (X1 , C1 ) = rX1 ,C1
1 1
Ce calcul nous montre que labscisse de la projection de la variable norme
X1 dans le premier plan factoriel (cercle des corrlations), est gal au coefficient
de corrlation linaire entre la variable et la premire composante principale.
Avec cette mthode dterminons la projection orthogonale de la variable X1
et lexploitation gomtrique que nous pouvons en faire :
GH1 == rX1 ,C1
5 Voir cours damphi.
2.2. A.C.P EN DIMENSION 3 39

2 2
1 2

1 0
C1 = 6

; X1 =



1 4
1 2
2 6

cov (X1 , C1 ) = 16 6(2 2 + (1) (2) + (1) (0) + 1 4 + 1 2 + (2) (6)) =
1

6 6 24.0 = 4 6

rX1 ,C1 = 4 64
6
= 21 3
6 12


2 2

0 2

C2 = 6 2 ; X1 = 0
2 4

0 2

2 6

cov (X1 , C2 ) = 16 6 2 2 + 0 (2) + 2 (0) + 2 4 + 0 2 + 2 (6) =
1

6 6 8 2
1

68 2 1
rX1 ,C2 = 6 64 = 2
6 8


On retrouve bien les deux nombres 23 , 21 calculs6
En oprant de la mme faon, on trouve la matrice des corrlations entre les
variables et les deux premiers facteurs7 :

3 1

rX1 ,C1 = 2 rX1 ,C2 = 2
6
rX2 ,C1 = 17 rX2 ,C2 = 4
 34
6 4
rX3 ,C1 = 17 rX3 ,C2 =
34

6 Attention, tous les nombres sortis par Statistica correspondant la premire composante

principale seront les opposs des nombres calculs ; le logiciel a choisi pour vecteur directeur
de la premire composante, loppos du notre, ce qui ne change pas la direction (inclinaison)
de notre axe !
7 Voir le tableau ci-dessus pour un rsultat complet.
40CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS

D) Les communauts

On a vu le concept de communaut qui reprsente la part dinformation


apporte aux diffrentes variables par les composantes principales. Le calcul de
la communaut entre la variable X1 et le premier plan factoriel est tout fait
rvlateur de lutilisation que nous pouvons en faire :
 2 2
Communaute(X1 , P) =rX 2
1 ,C1
+r 2
X1 ,C2 = 2
3
+ 12 = GH1 2 + GK1 2 =
1
La longueur au carr de la projection de la variable X1 sur P est gal 1, la
projection se trouve sur le cercle des corrlations et le % dexplication donn
X1 par les deux axes factoriels est de 100% ; X1 ne sexprimera qu laide de
C1 et C2 , C3 ne jouant aucun rle dans lcriture de X1 . On rappelle que lon
dit que dans ce cas X1 est parfaitement "bien reprsente" dans le premier plan
factoriel.
  2  2
6 4
Communaute(X2 , P) =rX 2
2 ,C1
+ r 2
X2 ,C2 = 17 + 34
= 14
17 =
0.823 53 = 1 donc X2 nest pas parfaitement "bien reprsente" dans le premier
plan factoriel. Linformation donne par celui-ci qui correspond la longueur au
carr de sa projection sur P est de 82.35%. La dernire composante principale
donne 17.65% dexplications X2 .
2.2. A.C.P EN DIMENSION 3 41

2.2.4 Lespace des individus : N (I)


A) Lespace des individus est un espace euclidien (muni dune dis-
tance)

On sait du chapitre prcdent que N (I) = R3 , d est un espace euclidien.
Pour choisir entre les deux distances ; la distance euclidienne au carr ou
celle pondre par les variances, on examine les dispersions. Comme les units
sont identiques et que les variances ne sont pas trs diffrentes, on choisit pour
mesurer la proximit entre individus ladistance euclidienne au carr.
Exemple : calculer la distance entre les deux premiers individus
d21 (A; B) = (8 4)2 + (1 6)2 + (0 5)2 = 66.0
Il naurait pas t judicieux dutiliser :
84 2 16 2 05 2
d22 (A; B) = ( 64
) + ( 34
) + ( 34
) = 10. 324
6 6 6

B) Contribution dun individu la constitution dun axe factoriel

Si lon reprend lcriture des diffrentes composantes principales :


2 2 1
-1 0 -1

1 1
C1 = 6 , C2 = 6 2 , C3 = 2
1 2 1

1 0 1
-2 - 2 1


On constate que la premiernombre
du vecteur colonne
C
1 , 2 6 a t trouv
2 2  
1 1
de la faon suivante : GM1 -3 , u1 6
GM1 , =
u1
-5 1

1 [2 2 + 1 (3) + 1 (5)] = 1 (12) = 2 6
6 6
o
correspond au vecteur unitaire de la premire composante principale
u1
C1 et donc en utilisant la mme proprit fondamentale :
Le premier nombre correspond la mesure algbrique de la projection du
premier individu sur la premire composante principale etc.

2 2 6
-1 -1 6

1 1 6
C1 = 6
=
1 1 6
1 1 6

-2 -2 6
42CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS

Projection du 1er individu sur la 1ere composante principale


2 6 Projection du 2ieme individu sur la 1ere composante principale
-1 6 ..

1 .
C1
6
..
1 6 .
1 6 ..
-2 6 .
Projection du 6ieme individu sur la 1ere composante principale
etc.
Les individus qui contribuent le plus la constitution du premier axe factoriel
sont ceux dont les projections se trouvent les plus loignes du centre de gravit ;
le premier axe "pousant" la forme du nuage et rendant la variance projete la
plus grande possible. Notre encadr prcdent nous assure que les individus qui
contribuent le plus la constitution du premier axe C1 sont le premier et le
dernier.
On peut mesurer limportance de leur contribution :
 2 2 2 
2C1 = 16 GH12 + GH22 + .... + GH62 = 61 2 6 + 1 6 + .... + 2 6
GH12 22
ContributionC1 (M1 ) = GH12 +GH22 +....+GH62
= 22 +(1)2 +(1)2 +12 +12 +(2)2
=
4 1
12 = 3 = 0.333 33 = 33.33% etc.
1
En dfinitive ContributionC1 (M1 ) = ContributionC1 (M6 ) = 3 et
ContributionC1 (M2 ) = ContributionC1 (M3 ) = ContributionC1 (M4 ) = ContributionC1 (M5 ) =
1
12

C) Proximit de deux individus

Comme dans le chapitre prcdent, il nous reste examiner la proximit


dindividus pour raliser une typologie en classes ; les individus lintrieur dune
mme classe tant proches, cest dire possdant les mmes caractristiques
pour les variables numriques.
Nous avons vu que comme lespace des individus est euclidien, on dfinit sur
cet espace une distance approprie. Deux individus sont alors proches si leur dis-
tance est voisine de zro.Mais ces calculs sont souvent fastidieux et longs. Pour
viter ces dsagrments on utilisera la mthode (gomtrique suivante) :Langle


= GM , GH doit, pour que M soit proximit du plan (M "bien reprsent"),

voisin de 0 ou 180 degrs do un cosinus carr de cet angle proche de 1 (le


logiciel Statistica dans sa premire version Statistica 5.0 choisissait par dfaut
cos2 (

) 0.6) :
2.2. A.C.P EN DIMENSION 3 43

Projection dun individu M sur le premier plan factoriel.


Deux
 individus sont proches dans lensemble N (I) si :
1) Ils sont "bien reprsents" dans le premier plan factoriel (ils sont proches du plan)
2) Ils sont proches dans ce mme plan (on le constate visuellement)

2
2
GHA (2 6)
Cos21 (M1 ) = GA2 =
22 +(3)2 +52
= 0. 631 58

2 (( 2) 6)2
Cos22 (M1 ) = GK
GA
A
2 = 2
2 +(3) +52
2 = 0. 315 79
2 2 2
cos = Cos1 (M1 ) + Cos2 (M1 ) = 0. 631 58 + 0. 315 79 = 0.947 37 1

Les autres rsultats sont donns dans le tableau suivant :

En observant ces calculs, on saperoit que les individus sont tous bien re-
prsents dans le premier plan factoriel (les six sommes des nombres se trouvant
dans les 2 premires colonnes sont suprieures 0.6). Pour donc constater la
proximit des individus dans le nuage, on se contentera alors dexaminer les
proximits de leurs projections dans le premier plan factoriel.
Il est clair que si une telle rgle ne sapplique pas, on sera dans lobligation
de calculer les diffrentes distances entre les individus ou utiliser la classification
hirarchique ascendante vue dans un prochain chapitre
44CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS

.
Les commandes nous permettant dobtenir le tableau suivant.

.
2.2. A.C.P EN DIMENSION 3 45

Projection des individus bien reprsents (cos2 0.6) sur le premier plan factoriel.
46CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS
Chapitre 3

Analyse des
correspondances (A.F.C)

3.1 Introduction
LAFC, comme lACP, est une mthode essentiellement descriptive : son ob-
jectif est de dcrire sous une forme pratique, le maximum de linformation conte-
nue dans un tableau de donnes. Contrairement lACP, il sagit dun tableau de contingence,
qui correspond au croisement des modalits de deux variables qualitatives.
Il sagira comme pour lACP, dtudier des nuages de points (ici deux) dans
des espaces pour les rduire des espaces de dimensions infrieures susceptibles
dtre interprts plus facilement. Et enfin fait nouveau, dessayer de trouver
des correpondances, entre les modalits des deux variables.

Conditions dapplications des deux analyses


ACP AFC
Lignes Individus Modalits dune variable
Colonnes Variables Modalits de lautre variable
Case Mesure de i pour j effectif (ou %) conjoint

Deux types de tableaux peuvent tre traits par lAFC :


le tableau de contingence qui croise les modalits de deux variables qua-
litatives (Analyse des correspondances binaires)
le tableau disjonctif complet qui croise les individus et des modalits de
variables qualitatives. Ces tableaux sont composs de 0 et 1. Dans ce cas, on
ralise une analyse des correspondances multiples (AFCM)

47
48 CHAPITRE 3. ANALYSE DES CORRESPONDANCES (A.F.C)

3.2 Exemple

Le tableau ci-dessus ......

3.3 Nuage, masses et distances


3.3.1 Construction des nuages de points

3.3.2 Choix des distances


Principe dquivalence distributionnelle

a) Invariance des distances dans IRp


b) Invariance des distances dans IRn

3.4 Analyse dans IRp


3.4.1 Changements dchelles
La distance dfinie par la formule :

'
p  fi ;j
2
1 fi;j
d2 (i; i ) = f.j fi. fi .
j=1

ntant pas une somme de carrs, le problme ne se ramne pas une si-
tuation traite dans le cadre de lanalyse en composantes principales. Pour sy
ramener, on ralise un changement dchelle sur les axes.
Si on choisit de prendre pour les p coordonnes du point i les quantits :
fi;j
avec j = 1; ..... ; p
f i. f.j

alors la distance euclidienne de deux points i et i devient :


3.4. ANALYSE DANS IRP 49

( )2

'
p
fi;j fi ;j
2
d (i; i ) =
j=1 fi. f.j fi . f.j

qui concide parfaitement avec la distance du CHI-2 dfinie prcdemment.


On en est amen chercher la premire composante du nuage de points ainsi
construits.

3.4.2 Coordonnes du centre de gravit du nuage de points


dans IRp
On peut calculer les coordonnes du centre de gravit G des points i affects
des masses (ou coefficients fi. .
Soit gj sa j-me coordonne :
'
n
fi;j '
n
fi;j 
j = 1 ; ....; p ; gj = f i. = = f.j = f.j
fi. f.j f.j f.j
i=1 i=1

3.4.3 Matrice diagonaliser


Aprs translation de lorigine au centre de gravit, les coordonnes du point
i scrivent :
( )
fi;j 
j = 1 ; ....; p ; f.j
fi. f.j

Ce point i, muni de la masse fi. aura pour projection sur laxe port par le
vecteur unitaire u de composantes (uj ; j = 1 ; ....; p) :
( )
'
p 

i = fi;j
f.j uj
j=1 fi. f.j

La quantit maximiser pour la dtermination du vecteur u sera :


*n ( )( )+
'n 2 ' '  fi;j 

fi. i = fi. fi;j


f.j f.j
f
fi. f f.j i. .j
i=1 j=j i=1

Ce qui revient diagonaliser la matrice T des covariances :


( ( )( ))
'
n
fi;j  fi;j 
tj;j = fi. f.j f.j
fi. f
f.j f i. .j
i=1

Il est possible de donner cette matrice diagonaliser une forme simple. Si


nous posons :
(fi;j fi. f.j )
xi;j =
fi. f.j

alors la matrice diagonaliser T scrit :


( )
(fi;j fi. f.j )
t
T = ( X) X avec X = xi;j =
fi. f.j
i=1;...;n et j=1;.....;p
50 CHAPITRE 3. ANALYSE DES CORRESPONDANCES (A.F.C)

3.4.4 Remarques pour le calcul

3.5 Analyse dans IRn


Comme les deux variables jouent des rles symtriques, on peut par analogie
donner des formules identiques.

3.5.1 Changements dchelles


La distance dfinie par la formule :
'
n  2
1 fi;j fi;j
d2 (j; j ) = fi. f.j
f.j
i=1

ntant pas une somme de carrs, le problme ne se ramne pas une si-
tuation traite dans le cadre de lanalyse en composantes principales. Pour sy
ramener, on ralise un changement dchelle sur les axes.
Si on choisit de prendre pour les p coordonnes du point i les quantits :
fi;j

f.j fi.
avec i = 1; ..... ; n

alors la distance euclidienne de deux points i et i devient :


n 
' 2
fi;j fi;j
d2 (j; j ) =
f.j fi.

f.j fi.
i=1

qui concide parfaitement avec la distance du CHI-2 dfinie prcdemment.


On en est amen chercher la premire composante du nuage de points ainsi
construits.

3.5.2 Coordonnes du centre de gravit du nuage de points


dans IRp
On peut calculer les coordonnes du centre de gravit G des points i affects
des masses (ou coefficients fi. .
Soit gj sa j-me coordonne :

'
p
f '
p
f
i = 1 ; ....; n ; gi = i;j
f.j f.j = i;j = fi. = fi.
fi. fi. fi.
j=1 j=1

3.5.3 Matrice diagonaliser


Aprs translation de lorigine au centre de gravit, les coordonnes du point
j scrivent :
 
i = 1 ; ....; n ; f f
i;j
fi.
.j fi.
3.6. RELATION ENTRE LES DEUX ESPACES IRP ET IRN 51

Ce point j, muni de la masse f.j aura pour projection sur laxe port par le
vecteur unitaire u de composantes (vi ; i = 1 ; ....; n) :
'n  
fi;j

j =

f.j fi.
fi. vi
i=1

La quantit maximiser pour la dtermination du vecteur u sera :


, ( )-
'n ' ' p  
2 fi;j fi ;j

j =
f.j fj. f.j fi. fi. fi .
f.j fi .
j=1 i=i j=1

Ce qui revient diagonaliser la matrice T des covariances :


. ( )/
'
p   fi ;j
fi;j
ti;i = fj. f.j fi. fi. fi .
j=1 f.j fi .

Il est possible de donner cette matrice diagonaliser une forme simple. Si


nous posons :
(fi;j fi. f.j )
xi;j =
fi. f.j

alors la matrice diagonaliser T scrit :


( )
(fi;j fi. f.j )
t
W = X ( X) avec X = xi;j =
fi. f.j
i=1;...;n et j=1;.....;p

3.6 Relation entre les deux espaces IRp et IRn


Lanalyse gnrale a montr que les matrices T = (t X ) X et W =
X ( X ) ont mmes valeurs propres et quentre le vecteur propre u de T et
t

le vecteur propre v de W associ la mme valeur propre , il existe les


relations suivantes (p 279) :
0
v = 1 X u

t
u = 1 (X ) v

La
( ligne i de lgalit
) matricielle suivante scrit en utilisant la dfinition de
f
xi;j xi;j = i;j
fi. f.j

'
p
vi = 1 fi;j uj
fi. f.j
j=1


i = '
p
fi;j
uj
j=1 fi. f.j

'
p

vi = 1 fi;j uj


= vi
fi. f.j
j=1
'
p i

i = fi;j
uj

f i.

j=1 fi. f.j
52 CHAPITRE 3. ANALYSE DES CORRESPONDANCES (A.F.C)

On en dduit les deux relations entre les coordonnes des points-lignes et les
points colonnes
n  
' fi;j


;j =
1 ;j
f.j
i=1
'p  


;i = 1
fi;j

;i
fi.

j=1

 
La matrice de terme gnral ffi;j i.
, permettant de calculer les coordonnes
dun point i partir des coordonnes de tous les points j, nest autre que celle
des profils-lignes. Ainsi dans lexemple, la coordonne de la profession sobtient
comme produit par 1 de labscisse sur laxe du barycentre de tous les modes
dhbergement, les poids tant les lments du profil des hbergements de cette
profession.
De la mme faon la seconde relation nous montre que la coordonne dun
point-hbergement est un coefficient 1 prs, le barycentre des points-professions

avec pour poids, les lments du profil socio-professionnel de ce mode dhber-
gement.

3.7 Tableau rcapitulatif des rsultats prcdents

Dans IRp  
Les individus i sont connus partir de leurs profils : ffi;ji avec j =
1; ...; p et leurs poids (fi )i=1;...;n
'p  
1 fi;j fi ;j 2
Dans IRp , on dfinit une distance d22 (i; i ) = f.j fi.
fi .
=
j=1
( )2
'p
fi
fi;j ;j

j=1 fi. f.j fi . f.j


Cette distance permet la proprit
dquivalence
 distributionnelle
Le centre de gravit : G f.1 ; f.2 ; .......; f.p
La matrice diagonaliser
( (dans le cadre dune
) ACP) est soit :
(fi;j fi. f.j )
T = (t X) X avec X = xi;j =
fi. f.j
i=1;...;n et j=1;.....;p
soit (si on ne centre pas) : ( )
T = (t X ) X avec X = xi;j = fi;j
fi. f.j
( ) i=1;...;n et j=1;.....;p


'p
fi;j
;i = u;j reprsente la projection du point i sur le vecteur
j=1 fi. f.j

propre u (u;1 ; u;2 ; ...... : u;p )

Dans IRn
3.7. TABLEAU RCAPITULATIF DES RSULTATS PRCDENTS 53
 
Les individus j sont connus partir de leurs profils : ffi;j .j
avec i =
1; ...; n et leurs poids (f.j )i=1;...;p
'n  
1 fi;j fi ;j 2
Dans IRn , on dfinit une distance d22 (j; j ) = fi. f.j f.j =
i=1
'n  2
fi;j f
f

f
f i;jf
.j i. .j i.
i=1
Cette distance permet la proprit
dquivalence
distributionnelle
Le centre de gravit : G f1. ; f2. ; .......; fn.
La matrice diagonaliser
( (dans le cadre dune
) ACP) est soit :
(fi;j fi. f.j )
W = X (t X)avec X = xi;j =
fi. f.j
i=1;...;n et j=1;.....;p
soit (si on ne centre pas) : ( )
W = X (t X )avec X = xi;j = fi;j
fi. f.j
n 
' 
fi;j

;j =

f.j fi.
v;i reprsente la projection du point j sur le vecteur
i=1
propre v (v;1 ; v;2 ; ...... : v;n )
p n
Liens
0 entre1IR et IR
v = X u


t
u = 1 (X ) v

Il y a proportionnalit entre les coordonnes des points du nuage sur laxe
dans IRp et les composantes unitaires de laxe dans IRn

;i : la projection de i sur le vecteur propre unitaire u , associ la


valeur pour T


;j : la projection de j sur le vecteur propre unitaire v , associ la valeur

pour W
n  
' fi;j



;j = 1 f.j
;i

i=1
 

= 1 ' fi;j
p


;j
;i fi.
j=1

La coordonne de j sur le vecteur propre unitaire v , associ la valeur


pour W est le barycentre des coordonnes des points i,pour laxe de vec-
teur directeur unitaire u , associ la valeur pour T, affectes des masses
correspondant aux profils de lindividu j.

La coordonne de i sur le vecteur propre unitaire u , associ la valeur


pour T est le barycentre des coordonnes des points j,pour laxe de vec-
teur directeur unitaire v , associ la valeur pour W, affectes des masses
correspondant aux profils de lindividu i.
54 CHAPITRE 3. ANALYSE DES CORRESPONDANCES (A.F.C)

3.8 Aides linterprtation


Pour interprter les axes dtermins lors dune analyse des correspondances,
on calcule deux sries de coefficients pour chacun des ensembles mis en corres-
pondance :
Les contributions absolues qui expriment la part prise par un lment
donn dans la variance explique dun facteur.
Les contributions relatives qui expriment la part prise par un facteur dans
lexplication de la dispersion dun lment

3.8.1 Contributions absolues


Calculons la variance V des coordonnes des n points i sur laxe , chacun
tant muni de la masse fi. . Lorigine tant prise au centre de gravit,
'n
fi.
;i = 0. La variance est alors gale
i=1
'
n 2
V = fi.
;i
i=1


i = vi
Comme f i.

'
n  2 '
n
V = fi. vi
fi.
= 2
vi = 1 =
i=1 i=1

La contribution du point i est gal :


2
fi. 
;i
Ctra (i) =

Un calcul analogue nous conduit dire que la variance V des coordonnes


des p points j sur laxe , chacun tant muni de la masse f.j est gal :

V =

La contribution du point j est gal :


2;i
f.j. 
Ctra (j) =

3.8.2 Contributions relatives


Les axes factoriels de chaque espace constituent des bases orthonormes. Le
carr de la distance dun point au centre de gravit G (ou H pour lautre espace)
se dcompose donc en une somme de carrs des coordonnes sur ces axes.
Pour un point i de IRp , on a :
( )2
'
p
fi;j 
2
dp (i; G) = f.j
j=1 fi. f.j
3.8. AIDES LINTERPRTATION 55

Pour un point j de IRn , on a :


n 
' 2
fi;j
d2n (i; H) =
f.j fi.
fi.
i=1

2

i 2;i

Cr (i) = d2p (i;G) ; Cr (j) = d2n (i;H)

Cr (i) est le cosinus carr du point i avec laxe


Cr (j) est le cosinus carr du point j avec laxe
' '
Cr (i) = 1 ; Cr (j) = 1

56 CHAPITRE 3. ANALYSE DES CORRESPONDANCES (A.F.C)
Chapitre 4

Lanalyse factorielle des


composantes multiples
(A.F.C.M ou A.C.M)

57
58CHAPITRE 4. LANALYSE FACTORIELLE DES COMPOSANTES MULTIPLES (A.F.C.M OU A.C
Chapitre 5

Lanalyse discriminante
(A.D)

59
60 CHAPITRE 5. LANALYSE DISCRIMINANTE (A.D)
Deuxime partie

Mthodes de classification

61
Chapitre 6

Classification hirarchique
ascendante

6.1 Hirarchie et arbres de classification

6.1.1 Hirarchie de parties dun ensemble

1) Exemple

Soit E = {{a} ; {b} ; {c} ; {d} ; {e}} et les 5 partitions suivantes de E :


P1 = {{a} ; {b} ; {c} ; {d} ; {e}}
P2 = {{a} ; {b} ; {c ; d} ; {e}}
P3 = {{a} ; {b} ; {c ; d ; e}}
P4 = {{a ; b} ; {c ; d ; e}}
P5 = {{a ; b ; c ; d ; e}}

On considre la runion H = P1 P2 P3 P4 P5
H = {{a} ; {b} ; {c} ; {d} ; {e} ; {c ; d} ; {c ; d ; e} ; {a ; b} ; {a ; b ; c ; d ; e}}

63
64 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE

Lensemble H de parties de E forme ce que lon appelle une hirarchie de


parties de E.

2) Dfinition

H est une hirarchie de parties dun ensemble de E si :




a) H est un ensemble de parties de E

b) x E ; {x} H

c) E H

d) [A H et B H] [soit (A B = ) soit (A B) soit (B A)]

6.1.2 Arbre associ une hirarchie de parties

Ce diagramme reprsente un arbre hirarchique associ la hirarchie H pr-


cdemment dfinie. Ce diagramme prsente autant de niveaux que de partitions
dfinissant la hirarchie H
6.1. HIRARCHIE ET ARBRES DE CLASSIFICATION 65

Arbre associ une hirarchie

6.1.3 Arbres hirarchiques quivalents

A une hirarchie H de parties de E, on peut associer plusieurs arbres diff-


rents :

Partitions de larbre 1 Partitions de larbre 2


P1 = {{d} {a} {e} {b} {c}} P1 = {{c} {e} {b} {d} {a}}
P2 = {{d} {a} {e ; b} {c}} P2 = {{c} { e; b} {d} {a}}
P3 = {{d} {a} {e ; b; c}} P3 = {{c} { e; b} {d; a}}
P4 = {{d; a} {e ; b; c}} P4 = {{c; e; b} {d; a}}
P5 = {{d; a; e ; b; c}} P5 = {{c; e; b; d; a}}

On vrifie facilement que lensemble des partitions de larbre 1 est diffrent


de celui des partitions de larbre 2 :
66 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE

Par contre les hirarchies des parties de E associes ces deux arbres sont
identiques :
H = {{a} {b} {c} {d} {e} { e; b} {d; a} {e ; b; c} {d; a; e ; b; c}}
On dit que ces deux arbres sont quivalents.
Ces deux arbres correspondent, deux hirarchies stratifies diffrentes . Une
hirarchie stratifie est une hirarchie munie du prordre : tre form avant ou
en mme temps que. Autrement dit, lordre des noeuds est pris en compte dans
une hirarchie stratifie. La faon la plus commode de stratifier une hirarchie
(en particulier, de prendre en compte lordre de formation des noeuds) est de
dfinir un indice sur cette hirarchie. On obtient, ainsi, la notion de hirarchie
indice.

6.1.4 Hirarchie indice (H, )


Une hirarchie indice est un couple (H, ) o H est une hirarchie de parties
et une application de H dans IR telle que :
1) h H [ (h) = 0] [h est un singleton ]
2) h H , h H ; [h h ] [ (h) (h )]

6.2 Hirarchie indice associe un critre dagr-


gation
Lindice des diffrentes hirarchies indices (H, ) construites en pratique
est dfini partir dun critre dagrgation (not ici )

6.2.1 Les critres dagrgation usuels


Soit un ensemble fini dlments classer. Nous supposerons que I IRp
et que IRp est muni dune norme permettant de calculer la distance entre deux
6.3. ALGORITHME DE BASE DE CONSTRUCTION DUNE HIRARCHIE INDICE (SUR UN EXEMPLE)67

F. 6.1

points i et i de I (d (i ; i ) = i i ) .
Cette distance est gnralement la distance euclidienne :
'
p 2
d (i ; i )2 = d ij ; ij
j=1
Un critre dagrgation est un indice qui permet de mesurer lcart entre
deux sous-ensembles C et C de I.
Les principaux critres dagrgation utiliss en pratique sont les suivants
Critre de saut minimum
Saut (c ; c ) = M in {d (i ; i ) / i c, i c }
Critre de diamtre
Diam (c ; c ) = Max {d (i ; i ) / i c, i c }
La figure ci-dessous illustre les critre du saut minimum et du diamtre
Critre de WARD
' Si on suppose de plus, que chaque lment i de I est muni dun poids mi avec
mi = 1
iI
mc mc ' '
W ARD (c ; c ) = m c +m
g (c) g (c ) 2 o mc = mi , mc = mi et
c
ic ic
o g (c) et g (c ) sont les centres de gravit des classes c et c.
Quand les individus ont la mme importance, le poids mc reprsente le
nombre dindividus de la classe c

6.3 Algorithme de base de construction dune


hirarchie indice (sur un exemple)
On considre un ensemble I = {a ; b ; c ; d} muni dune certaine distance
d. Les distances sont indiques dans le tableau des distances suivant :

a b c d
a 0 1 3 4
b 1 0 1,5 5
c 3 1,5 0 2
d 4 5 2 0
68 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE

Lalgorithme de base cre successivement toutes les partitions, qui


peuvent tre obtenues en coupant larbre par une droite horizontale
(ou verticale)
Etape 1
On part de la partition la plus fine, dont chaque classe est constitu par un
seul lment i. Ces classes sont appeles sommets parce que pour linstant aucune
de ces classes nest incluse dans une classe plus grande quelle. On calcule pour
le critre dagrgation , le tableau des distances ({i} {i }) pour tout couple
de classes (ou sommets) {i} ; {i } . On agrge, alors, la paire {i} ; {i } ralisant
le minimum des distances du tableau, et on cre un noeud n = {i ; i } avec
A (n) = i et B (n) = i , qui est numrot aprs les individus de I et reoit le
numro Card (I) + 1.
a (n) et b (n) sont respectivement appels lan et le benjamin de n
Dfinition :
pour chaque noeud n de la hirarchie runissant les deux classes a (n) et
b (n), appeles an et benjamin de n, lindice (n) sera dfini comme tant
lcart entre a (n) et b (n) :
(n) = [a (n) ; b (n)]
On recherche dans le tableau ci-dessus, la plus petite dstance : d (a; b) = 1.
Les individus a et b sont agrgs et forment le noeud {a; b} portant le numro
5 et ({a; b}) = d (a; b) = 1
Etape 2
On calcule ensuite les carts (n ; {i })entre le nouveau sommet n et chacun
des Card (I) 2 sommets prexistants (entre lesquels les carts sont dja
connus) et on agrge la paire de sommets ralisant le minimum : ce qui entrane
la cration dun nouveau noeud. Il reoit le numro Card (I) + 2 et prend le rle
de sommet. Il y a au terme de cette tape Card (I) 2 sommets qui constituent
une nouvelle partition de I.
On recalcule un nouveau table de distances entre les sommets {a; b} ; {c} ; {d}
avec le critre dagrgation choisi :
({a; b} {c}) = M in {d (a; c) ; d (b; c)}
({a; b} {d}) = M in {d (a; d) ; d (b; d)}

5 = {a; b} {c} {d}


5 = {a; b} 0 1.5 4
{c} 1.5 0 2
{d} 4 2 0

On cherche ensuite la paire de sommets ralisant le minimum de ce tableau.


On obtient les sommets 5 = {a; b} et {c}. Aprs agrgation, ces deux noeuds
perdent le nom de sommet. Ils donnent naissance au nouveau sommet de numro
6 et dindice (6) = 1.5 ; 6 = 5 {c} = {a; b; c} .
6.4. QUALITS DUNE CLASSIFICATION 69

Etape 3
On recalcule le tableau des distances. Comme il ne reste que deux sommets
6 et {d}, ils sagrgent pour former le dernier noeud 7 = 6 {d} = {a; b; c; d} .
On obtient (7) = 2

6 {d}
6 0 2
{d} 2 0

Rsum des rsultats

Noeuds 1 = {a} 2 = {b} 3 = {c} 4 = {d} 5 = {a; b} 6 = {a; b; c} 7 = {a; b; c; d}


a (n) 1 = {a} 5 = {a; b} 6 = {a; b; c}
b (n) 2 = {b} 3 = {c} 4 = {d}
(n) 0 0 0 0 1 1.5 2

Construction de la hirarchie indice

6.4 Qualits dune classification


Une classification sinterprte en termes de partitions : une classification
hirarchique se construit par un algorithme ascendant, comme une suite de
70 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE

partitions de moins en moins fines. Nous allons dfinir, ci-dessous les qualits
que doit vrifier une partition. Une partition nest intressante que dans la
mesure o les classes sont nettement individualises : elles doivent, dune part
former un tout cohrent, bien caractris (on parlera de compacit des classes)
et dautre part, elles doivent tre distinctes les unes des autres (on parlera alors
de sparabilit des classes)
Vrifions sur une mme situation que la compacit ou la sparabilit des
classes nest pas toujours vrifie selon le critre dagrgation choisi :
Si par exemple, on utilise le critre du saut minimum la sparabilit est
vrifie mais pas la compacit (effet de chane). Par contre si on opte pour le
critre du diamtre on rcupre la proprit de compacit mais les classes sont
peu spares.

Agrgation de classes par le critre du saut minimal

Agrgation de classes par le critre du diamtre

Ces deux exigences de sparabilit et compacit semblent ici contradictoires,


ne sont pas vrifies simultanment pour les partitions engendres par les critres
du saut minimum et du diamtre. Ce qui justifie leur emploi peu frquent.
6.5. CRITRE DE WARD 71

De fait, le critre dagrgation, trs utilis dans la pratique, est le critre de


WARD (appel encore le critre de linertie). Avec ce critre, les exigences de
sparabilit et compacit deviennent alors quivalentes.

6.5 Critre de WARD


On suppose, dans ce paragraphe, que lensemble fini I des lments
( classer
)
p
'
est inclus dans IR , que chaque lment i de I est muni du poids mi mi = 1
iI
et que IRp est muni dune norme , permettant de mesurer lcart entre deux
lments i et i de I (d (i; i ) = i i ) .

6.5.1 Inertie intra-classe et compacit des classes dune


partition P de I
1) Inertie interne dune classe
Considrons une partition P de I ; chaque classe c de P est un sous-ensemble
de I donc constitue un ensemble de points de IRp , dont on peut calculer le centre
de gravit, not ici g (c) .
Nous appellerons, inertie interne de la classe c, la quantit I (c) :
'
I (c) = mi i g (c) 2
ic

I (c) est une mesure de la compacit de la classe c : plus I (c) est petit, plus
les lments i de c sont proches de leur centre de gravit g (c) et donc plus la
classe c est compacte.

2) Inertie intra-classe de P (note Intra(P))


On appelle inertie intra-classe dune partition P (de I), la somme des inerties
internes des diffrentes classes constituant la partition P.
'
Intra (P ) = I (c)
cP

Intra (P ) reprsente une mesure globale de la compacit des diffrentes


classes de P.

6.5.2 Inertie inter-classe et sparabilit des classes dune


partition P de I
1) Centre de gravit
Si la partition P de I est constitue de classes c de centres de gravit g (c) et
si on appelle g le centre de gravit de lensemble de tous les lments de I, on
montre aisment que :
72 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE

' '
g= mc g (c) ou mc = mi
cP ic

On dira encore que g est le centre de gravit des points g (c) affects des
poids mc .

2) Inertie inter-classe et sparabilit des classes dune partition P de


I
On appelle inertie inter-classe dune partition P de I, linertie du nuage des
centres de gravit g (c), ces derniers munis des poids mc :
' 2
Inter (P ) = mc g (c) g
cP

Linertie inter-classe dune partition P mesure la dispersion des classes c, re-


prsentes par leurs centres de gravit g (c) , autour du centre de gravit gnral
g ; linertie inter-classe dune partition P est donc une mesure de sparabilit
des classes (ces dernires tant reprsentes par leurs centres de gravit).

6.5.3 Complmentarit des inerties inter-classe et inter-


classe
1) Formule fondamentale
'
Si IT otale = mi i g 2 alors IT otale = Intra (P ) + Inter (P )
iI

2) Equivalence des notions de compacit et sparabilit


De la formule prcdente, on dduit que plus linertie intra-classe Intra (P )
est petite (les classes sont compactes), plus linertie inter-classe Inter (P ) est
grande (les classes sont spares). Les deux exigences de compacit et de spa-
rabilit sont ici quivalentes.

6.5.4 Nouvelle expression du critre de WARD


1) Formule donnant lindice du noeud
Considrons une hirarchie indice (H, ) construite sur lensemble des l-
ments de I, le critre dagrgation utilis tant le critre de WARD. Une hi-
rarchie tant une suite de partitions, considrons deux partitions succesives P
et P de cette suite, P se dduisant de P par lagrgation de deux classes c1 et
c2 de P. Si n dsigne le nouveau noeud form par lagrgation des deux classes
c1 et c2 , on dmontre que :

Indice du noeud n = (n) = W ARD (c1 ; c2 ) = Intra (P ) Intra (P )


6.5. CRITRE DE WARD 73

2) Consquences
En agrgeant deux classes c1 et c2 de la partition P, on obtient une partition
P dont linertie intra-classe est suprieure celle de P, dune quantit qui ne
dpend que des deux classes agrges c1 et c2 (et non du reste de la partition),
savoir W ARD (c1 ; c2 ) .
Par consquent, lorsque lon passe de la partition la plus fine compose des
singletons {i} (i I) , la partition la moins fine compose de la seule classe I,
on voit que linertie intra-classe varie en croissant de 0 IT otale . Dautre part en
utilisant la formule de complmentarit, linertie inter-classe ira en dcroissant
de IT otale 0.
La partition idale serait celle des singletons {i} (i I) car dans ce cas :
Intra (P ) = 0 (compacit maximum) et Inter (P ) = IT otale (sparabilit
maximum).
Mais cette partition noffre aucun intrt. On demandera que le schma des
donnes soit simple (nombre de classes petit) et fidle (Intra (P ) faible).

6.5.5 Dcomposition de linertie IT otale suivant les noeuds


de la hirarchie
1) Formule de dcomposition
Soit IT otale linertie du nuage compos de tous les lments i de I, et soit
N l ensemble des noeuds de la hirarchie indice (H, ) construite sur lensemble
des lments de I, le critre utilis tant celui de WARD.
On dmontre que linertie totale IT otale se dcompose en la somme des indices
(n) de tous les noeuds n de N :
'
IT otale = (n)
nN

2) Consquences
On peut remarquer que, comme en analyse factorielle o linertie totale se
dcompose en la somme des inerties projetes, linertie totale se dcompose en
classification hirarchique ascendante en la somme des indices des noeuds de
cette hirarchie. De la mme faon quen analyse factorielle, nous calculerons ici
les taux dinertie associs aux noeuds n :
(n)
(n) = IT otale

Ainsi, par exemple, si lhistogramme des taux dinertie prsente une dcrois-
sance trs forte, cela signifie quil nexiste que quelques sparations principales,
les niveaux les plus bas de la hirarchie pouvant tre considrs comme des
intermdiaires de calcul, et ce titre tre ngligs, comme le sont les axes fac-
toriels correspondant aux inerties projetes les plus faibles.Construction dune
hirarchie indice
74 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE

6.6 Exercice rsolu : algorithme classique de construc-


tion ascendante

6.6.1 Cas o la distance est le city-block et le critre


dagrgation est celui du diamtre

Position des 6 individus

Nous allons construire un arbre hirarchique en utilisant comme distance


initiale la distance du city-block et comme critre dagrgation le crtire du
diamtre.
Le tableau entre les distances des diffrents individus est le suivant :

A B C D E F
A 0
B 1 0
C 3 2 0
D 4 3 1 0
E 5 4 4 3 0
F 5 6 6 5 2 0

On utilise alors le critre dagrgation du diamtre :

On en dduit la construction de larbre hirarchique suivant :


6.6. EXERCICE RSOLU : ALGORITHME CLASSIQUE DE CONSTRUCTION ASCENDANTE75

Que lon retrouve sur Statistica :


76 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE

F. 6.2

A titre dexercice, on peut tablir une hirarchie


en utilisant la distance euclidienne et le critre dagrgation du saut mini-
mum.

6.6.2 Cas o la distance est la distance euclidienne et le


critre dagrgation est celui de Ward
6.7. APPLICATION DU LOGICIEL STATISTICA UN EXEMPLE 77

On applique la mthode de Ward lexemple prcdent :


Iq
N du noeud p q IIpp+I q
d2 (gp , gq ) Indice en % % cumul Variance intra
7 2 1 0.5 0.167 0.083 2.88 100 0.25
8 4 3 0.5 0.167 0.083 2.88 97.12 0.25
9 6 5 0.5 0.333 0.167 5.77 94.23 0.5
10 8 7 1 0.75 0.750 25.96 88.46 1.375
11 10 9 1.33 1.354 1.806 62.50 62.50 2.889
Explications de la premire ligne
Lindividu A (cod 1) est agrg lindividu B (cod 2) pour former len-
semble {A, B} cod 7
I2
I2 = Card {B} = 1 et I1 = Card {A} = 1 II11+I 2
= 12 = 0.5
d2 (g1 , g2 ) = 61 1 = 0.166 67
Indice = (1; 2) = 7 = 0.5 61 = 8. 333 3 102
0.083
Indice en % = 0.083+0.083+0.167+0.750+1.806 = 2. 873 0 102
Inertie totale = 0.083 + 0.083 + 0.167 + 0.750 + 1.806 = 2. 889
% cumul : au dpart linertie inter est maximale (100%) alors que linertie
intra est nulle.
Cette inertie inter va diminuer jusqu devenir nulle quand tous les individus
sont agrgs dans une mme classe ; linertie intra est alors linertie totale.
Le % cumul de la variance inter est donc lors de la seconde partition
{A, B} , {C} , {D} , {E} , {F } de 100 2.88 = 97. 12(%)
Justification des 2 dernires lignes :
I7 I8
I7 +I = 22 = 1.0;
(8 )2+2 ( 3 )  2 2 
0
g7 3 g8 2 d2 (g7 , g8 ) = 16 32 + 32 = 0.75
2 0
I9 I10
I9 +I
= 42 = 43 = 1. 333 3
(103 )4+2 ( 7 )  2 2 
g9 4
3 g10 2
3 d2 (g9 , g10 ) = 16 34 72 + 34 23 =
4 2
65
48 = 1. 354 2

6.7 Application du logiciel Statistica un exemple

Le calcul fait la main sur lexemple (trs simple) na pour unique but que
dexpliquer lalgorithme de la C.H.A. Pour linterprtation on se refrera au
logiciel Statistica

6.7.1 Le problme pos.


On veut soumettre une classification hirarchique ascendante, le tableau
rassemblant les valeurs prises par 8 lave-vaisselles de marques diffrentes pour
6 caractristiques. Les poids, affects aux 8 lave-vaisselles (formant ici le nuage
N (I)) sont tous supposs gaux 18 = 0.125
78 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE

EAU ELE BRU LAV SEC MAN


ART (Arthur Martin) 68 277 62 2 1 1
BAU (Baucknech) 46 248 57 2 2 3
BOS (Bosch) 52 276 55 3 3 4
IND (Indsit) 47 230 58 2 1 4
MIE (Miele) 50 249 58 3 3 3
THO (Thomson) 58 254 58 1 2 2
ZAN (Zanussi) 52 223 58 2 2 5
AEG (A.E.G) 71 262 55 2 2 3

EAU : consommation deau en litre


ELE : consommation delectricit en kwh
BRU : niveau de bruit en dcibel
LAV : qualit de lavage (note leve = bonne qualit)
SEC : qualit de sechage (note leve = bonne qualit)

MAN : facilit de manoeuvre (note leve = bon)

6.7.2 Rsolution du problme ( en utilisant Statistica)

Pour des raisons invoques plus haut, on utilise le critre de WARD pour
lagrgation entre classes et la distance euclidienne sur lespace des individus :

Attention, le tableau de dpart a t standardis au niveau des colonnes car


les units sont diffrentes :
6.7. APPLICATION DU LOGICIEL STATISTICA UN EXEMPLE 79

Tableau des variables standardises (Statistica).


Calculons par exemple la distance euclidienne entre les individus IND et

ZAN : d2 (IN D; ZAN ) = (0.898 + 0.377)2 + (1.149 + 1.509)2 +


+ (0.17 0.17)2 + (0.195 + 0.195)2 + (1.323 0)2 + (0.702 1.504)2 = 2.
794 6

o 0.898 et 0.377 ont t obtenus en standardisant la premire colonne


etc.....

0.898 = 4755.625 ; 0.377 = 5255.625


9.6056 9.6056
donc d (IN D; ZAN ) = 2. 794 6 = 1. 671 7
On peut alors trouver le tableau de distances entre les diffrents individus
(obtenu laide de STATISTICA) :

ART BAU BOS IND MIE THOM ZAN AEG


ART 0 4.18 5.34 4.49 4.61 3.29 5.12 3.88
BAU 0 2.85 1.86 2.14 2.22 2.2 2.85
BOS 0 4.14 2.11 4.19 3.75 3.04
IND 0 3.34 3.10 1.67 3.63
MIE 0 3.59 2.93 3.36
THOM 0 3.34 2.63
ZAN 0 3.52
AEG 0

Tableau des distances entre individus (Statistica)


80 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE

Le critre dagrgation de WARD nous permet dobtenir la hirarchie indice,


traduite par le tableau ci-dessous et visualise par larbre hirarchique de la page
suivante (obtenus laide de STATISTICA) :

Arbre hirarchique (individus)

Si on observe les deux coupes trait fin (en noir), respectivement trait pais
(en rouge), on obtient une partition en deux, respectivement en quatre groupes :

Premire coupe dtermine la partition {M IE, BOS, ZAN, IN D, BAU } , {AEG, T HO, ART }

Deuxime coupe dtermine la partition {M IE, BOS, } , {ZAN, IN D, BAU} , {AEG, T HO} , {ART }

On regroupe en deux groupes bien spars (le noeud dindice lev nous
lassure), les individus qui se ressemblent le plus ; ici les machines laver.

On peut galement obtenir une classification hirarchique des variables.


6.7. APPLICATION DU LOGICIEL STATISTICA UN EXEMPLE 81

Arbre hirarchique (variables)

Le raisonnement est le mme que pour les individus.


En dernire remarque, on peut dire que la classification hirarchique apporte
une lumire statistique complmentaire lA.C.P.
82 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE
Chapitre 7

La classification
automatique

83
84 CHAPITRE 7. LA CLASSIFICATION AUTOMATIQUE
Annexe A

Notions dalgbre linaire

A.1 Espace vectoriel de dimension finie


A.1.1 Definition
Un ensemble E est appel espace vectoriel sur IR (ensemble des nombres
rels),
 sil est muni de deux oprations ou lois
addition (loi interne) note +
multiplication par un rel (loi externe) note .
possdant les proprits suivantes :
Pour la loi +
Laddition est une loi de composition interne : x E ; y E , x+y E
Laddition est associative x E ; y E ; z E,
(x + y) + z = x + (y + z)
Llment 0 est lment neutre de laddition :
x E ; x + 0 = 0 + x = x
Tout lment x de E admet un symtrique x not x :
x E , x E tel que x + x = x + x = 0
Laddition est commutative :
x E ; y E ; x + y = y + x

Pour la loi .

La multiplication par un rel . est une loi de composition


externe : x E ; IR , .x E
La multiplication par un rel . est associative
IR ; IR ; x E, ( ) .x = . (.x)
Llment 1 est lment neutre de .
x E ; x.1 = 1.x = x
La multiplication par un rel . est distributive par rapport laddition
dans IR :
IR ; IR ; x E, ( + ) .x = .x + .x

85
86 ANNEXE A. NOTIONS DALGBRE LINAIRE

La multiplication par un rel . est distributive par rapport laddition


dans IR :
IR ; IR ; x E, . (x + y) = .x + .y
On appelle vecteur, tout lment dun espace vectoriel

A.1.2 Exemples
IR est un espace vectoriel
Le plan gomtrique IR2 est un espace vectoriel sur IR (ou rel)
De faon gnrale IRn est un espace vectoriel sur IR
Dans le fichier STATS.sta ; INFE, DESC, M sont des vecteurs de IR98

A.1.3 Sous-espace vectoriel


Dfinition
On dit que un sous-ensemble F de lespace vectoriel E est un sous-espace
vectoriel de E si F est stable
1 pour laddition et la multiplication quelconque :
x F , y F
.x + y F
IR , IR

Exemple
2 3
F = (a ; b) IR2 : a + b = 0 est un s.e.v de IR2

A.2 Base dun espace vectoriel de dimension fi-


nie
A.2.1 Combinaison linaire de vecteurs
Definition
Un lment x de E est une combinaison linaire des vecteurs x1 ; x2 ; .... ; xp sil
scrit de la forme :
x = 1 x1 + 2 x2 + 3 x3 + .......... + p xp o 1 ; 2 ; ..... ; p IR

Remarque : Si tout lment de E est combinaison linaire de x1 ; x2 ; ... ; xp ,


on dit que ces p vecteurs engendrent E. On dit aussi que x1 ; x2 ; x3 ; .....xp forment
une famille gnratrice (ou systme gnrateur) de E

Exemple
Dans le fichier STATS.sta, la variable M considre comme un vecteur de
IR98 peut tre considre comme une c.l des deux vecteurs de IR98 ;DESC et
INFE car :

M = 12 .DESC + 12 .INF E
A.2. BASE DUN ESPACE VECTORIEL DE DIMENSION FINIE 87

A.2.2 Indpendance et dpendance linaires


1) Dfinition
Les vecteurs y1 ; y2 ; .........; yp de E sont linairement indpendants si aucun
nest combinaison linaire des autres :
'
p
i xi = 0 i = 0 i = 1.....p
i=1

On dit dans ce cas que les y1 ; y2 ; .........; yp forment une famille libre.

2) Dfinition
Les vecteurs y1 ; y2 ; .........; yp de E sont linairement dpendants sil lun au
moins dentre eux sexprime comme combinaison linaire des autres :
'
p
i = 0 : i xi = 0
i=1

On dit dans ce cas que les y1 ; y2 ; .........; yp forment un systme li.

3) Exemple
les trois vecteurs de IR98 ;DESC et INFE et M sont linairement dpendants

A.2.3 Base dun espace vectoriel

1)Definition
Les vecteurs e1 ; e2 ; ....; ep forment une base de E si :

ils sont linairement indpendants
ils engendrent E
Autrement dit : une base dun e.v E est un ensemble de vecteurs B de E
tels que tout vecteur de E sexprime de faon unique comme combinaison des
vecteurs de B

2) Exemple

A.2.4 Dimension dun espace vectoriel E


1) Dfinition
La dimension dun espace vectoriel E est le nombre dlments qui forment
une base de E

2) Exemple
DimIR (IRn ) = n
88 ANNEXE A. NOTIONS DALGBRE LINAIRE

A.2.5 Base canonique de IRp considr comme espace vec-


toriel

1 0 0
0 1 0

0 0 0
e1 =

e2 =

..................ep =



0 0 0

0 0 1

A.2.6 Composantes dun vecteur dans une base


Si (e1 ; e2 ; ........; ep ) est une base de IRp , alors un vecteur quelconque x de
p
IR scrit de faon unique :

'
p
x= i xi = 1 x1 + 2 x2 + ........ + p xp
i=1

Les i i = 1; .....; p sont appeles les composantes de x dans la base e1 ; e2 ; ........; ep

A.2.7 Dcomposition dun espace vectoriel en somme di-


recte de sous-espaces vectoriels
1) Dfinition

Un espace vectoriel E est somme directe de k sous-espaces vectoriels E1 , E2 , ..., Ek


si tout vecteur x scrit de faon unique sous la forme :

x = x1 + x2 + ........ + xp avec xi Ei i = 1; 2; ....; k

On crit :

'
p
E = E1 E2 ........ Ep et dim (E) = dim (Ei )
i=1

Cas particulier : Si E = E1 E2 , on dit que E1 et E2 sont supplmentaires

2) Exemple

Si on considre lespace vectoriel E des individus connus laide des deux


variables INFE et DESC, il est somme directe de la droite vectorielle engendre
par INFE et la droite vectorielle engendre par DESC (les deux vecteurs sont
non proportionnels donc linairement indpendants).
A.3. RSULTATS LMENTAIRES SUR LES MATRICES 89

A.3 Rsultats lmentaires sur les matrices

A.3.1 Application linaire

1)Dfinition
Etant donn deux espaces vectoriels E et F, on appelle application linaire
de E vers F, toute application f de E vers F telle que :

x E ; y E : f (x + y) = f (x) + f (y)
x E ; IR : f (.x) = .f (x)

2)Exemples

u1 : IR IR
a) Homothtie dans IR de rapport 5 (changement
x  u1 (x) = 5x
dchelle)
u2 :(IR2 )
IR(2 )
b) x y Symtrie dans IR2 / premire bissectrice

y x

u3 :IR3 3
IR
x x
c) y  y Symtrie dans IR3 dangle 180
z z

A.3.2 Noyau et image dune application linaire f

Cette partie peut tre considre comme complment

Noyau de f
Ker (f ) = {x E : f (x) = 0} s.e.v de E

Noyau de f
Im (f) = {y E : x E ; y = f (x)} s.e.v de F

A.3.3 Rang de f
1) Dfinition
rg (f ) = dim [Im (f )]
90 ANNEXE A. NOTIONS DALGBRE LINAIRE

2) Remarque importante
on sera amen se poser la question :
Quelle est la dimension du sous-espace-vectoriel engendr par un certain
nombre de variables ?
Il sagit de trouver le plus petit nombre de variables linairement indpen-
dantes qui engendrent lespace vectoriel en question.
Si lon reprend le fichier Dpenses-Etat, on constate quil existe 12 variables.
Les deux dernires tant lies aux 10 premires, lespace engendr par ces 12
variables considres comme 12 vecteurs de IR98 sera au plus de dimension 10

A.3.4 Matrice dune application linaire


1) Dfinition
Soit E muni dune base BE = {e1 ; .....; ep } et F muni dune base BF =
{f1 ; .....; fn } .
On appelle matrice de lapplication linaire u, le tableau n lignes et p
colonnes,o la j-ime colonne est forme des n coordonnes de u (ej ) dans la
base
BF = {f1 ; .....; fn } .

2) Exemples
On peut reprendre les exemples prcdents :
M at (u1 ) = ((5) )
0 1
M at (u2 ) =
1 0
-1 0 0
M at (u3 ) = 0 -1 0
0 0 -1
O si u est( une rotation dangle)
cos () sin ()
M at (u3 ) =
sin () cos ()
on lit dans le
. polycopi TD(p58) que la rotation dangle 45 peut scrire
de /

2 2
M at (R) = 2 2
22 2
2

A.4 Oprations sur les matrices


A.4.1 Addition de deux matrices
1) Dfinition
Si A = (ai;j ) i = 1; ....; n ; B = (bi;j ) i = 1; ....; n
j = 1; .....; p j = 1; .....; p
A.4. OPRATIONS SUR LES MATRICES 91

alors S = (si;j ) i = 1; ....; n o si;j = ai;j + bi;j


j = 1; .....; p

2) Proprits
A+B = B +A
(A + B) + C = A + (B + C)
A+0= 0+A
A + (A) = (A) + A = 0

A.4.2 Multiplication dune matrice par un nombre rel


1) Dfinition

i = 1; ....; n et si IR
Si A = (ai;j )
j = 1; .....; p
alors A = (ai;j ) i = 1; ....; n
j = 1; .....; p

2) Proprits
IR ; IR ; ( + ) A = A + A
IR ; (A + B) = A + B
IR ; IR : (A) = () A
1A = A
A = 0 = = 0 ou A = 0

A.4.3 Produit de deux matrices


1) Dfinition
Si A = (ai;k ) et si B = (bk;j )
i = 1; ....; n k = 1; ....; h
k = 1; .....; h j = 1; .....; p
alors
'
h
P = A B = (pi ; j ) ou pi ; j = (ai;k ) (bk;j )
k=1
Remarque importante : le produit des deux matrices ne peut se faire que si
le nombre de colonnes de celle de gauche est gal au nombre de lignes de celle
de droite.

2) Proprits
A B = B A
(A B) C = A (B C)
AI = I A
(A B) = (A) B
92 ANNEXE A. NOTIONS DALGBRE LINAIRE

A (B + C) = A B + A C

3) Exercice (extrait de juin 2000)


Les rsultats de 8 individus deux tests sont donns par le tableau suivant :
Individus (i) Test x (xi ) Test y (yi )
1 12 13
2 14 9
3 10 6
4 8 5
5 10 8
6 6 7
7 10 8
8 10 8
a) Ecrire la matrice X des variables centres
b) Calculer la matrice V = 18 X t X. En donner une interprtation.

A.4.4 Matrices particulires


Matrice colonne
Matrice carre
Matrice carre triangulaire
Matrice carre diagonale
Matrice carre unit
Matrice carre symtrique

A.4.5 Inverse dune matrice carre


1) Dfinition3
On appelle inverse de la matrice carre A (et on la note A1 ), la matrice B,
si elle existe, telle que :

AB = B A= I

2) Proprit
1
(A B) = B1 A1

3) Une utilisation de linverse dune matrice


Si on connat la matrice A dune application linaire dans une base B1 =
{e1 ; ...; en }, et que lon dsire connatre la matrice B de cette application linaire
dans une base B2 = {f1 ; ...; fn } , le rsultat est donn par la formule :
A.4. OPRATIONS SUR LES MATRICES 93

B = P 1 A P o P est la matrice de passage()



e1

() P =
x i;j e2

en

fj

4) Exercice
Si on(reprend la
) symtrie par rapport la premire bissectrice
0 1
A=
1 0
a) Ecrire(la matrice
) de
( passage
) P , si on travaille dans une base forme des
1 1
vecteurs f1 et f2 des deux bissectrices
1 -1
b) Calculer P 1 puis B = P 1 AP . Interprter ce rsultat

A.4.6 Trace dune matrice carre


1) Dfinition
La trace dune matrice carre est la somme des termes diagonaux :
'
n
tr (A) = aii
i=1

2) Proprit
Si deux matrices A et B sont semblables ( B = P 1 A P ) alors :

tr (B) = tr (A)

A.4.7 Dterminant dune matrice carre


1) Dfinition
Le dterminant dune matrice carre pp est une forme multilinaire alterne
de IRp vers IR.
multilinaire linaire par rapport chaque variable
alterne : si on change deux variables entre elles, le dterminant se change
en son oppos
Si par exemple p = 3
det (1 x1 + 1 x1 + 1 x1 ; y ; z) = 1 det (x1 ; y; z) + 2 det (x2 ; y ; z) + 3 det (x3 ; y; z)
det (x; z; y) = det (x; y ; z)

Consquence : det (x; x ; z) = 0


94 ANNEXE A. NOTIONS DALGBRE LINAIRE

2) Proprits
 t
det A = det (A)
un dterminant est nul siest
- une colonne ou une ligne nulle
- deux colonnes (ou lignes) sont proportionnelles
un dterminant ne change pas si on ajoute une colonne une combinaison
linaire des autres colonnes
un dterminant est nul si ses vecteurs colonnes sont linairement dpen-
dants
det (A B) = det (A) det (B)

3) Calcul dun dterminant


On se reportera au polycopi licence-maitrise de F Lefvre

A.4.8 Rang dun systme de vecteurs, rang dune matrice

1) Dfinition
Soit S = {x1 ; x2 ; .....; xp }, systme de vecteurs. Le rang du systme S est le
nombre maximum de vecteurs linairement indpendants extraits de S.

2) Dfinition
Le rang dune matrice A de dimension n p est le rang du systme de ses
vecteurs colonnes

A.4.9 Valeurs propres et vecteurs propres dune matrice

1) Dfinition
On appelle valeur propre de la matrice carre A, le nombre rel , tel quil
existe le vecteur X avec :

A X = X

X est appel vecteur propre associ la valeur propre (il est dfini une
constante multiplicative prs)

2) Calcul des valeurs propres et des vecteurs propres


Les valeurs propres de A sont solutions de det (A I)
Les vecteurs propres de A sont solutions de (A I) u = 0
A.4. OPRATIONS SUR LES MATRICES 95

3) Utilisation des valeurs propres et des vecteurs propres : diagonali-


sation de matrices
a) dfinition Une matrice est diagonalisable si ses vecteurs propres forment
une base de E

Pratiquement : tant donn une matrice A, il existe une matrice semblable


B = P 1 A P qui scrit sous forme diagonale
Ce rsultat sera constamment utilis dans lA.C.P pour trouver les droites
principales : savoir les nouveaux axes tels la variance projete sur le premier
soit maximale etc.....

b) Thorme (admis) Toute matrice relle symtrique est diagonalisable


96 ANNEXE A. NOTIONS DALGBRE LINAIRE
Annexe B

Espaces Euclidiens

B.1 Formes bilinaires


B.1.1 dfinition
Soient E un espace vectoriel sur IR et f une application de E E vers IR.
Cette forme est dite bilinaire si :
* elle est linaire en x :
x1 ; x2 ; y E et 1 ; 2 ; f (1 x1 + 2 x2 ; y) = 1 f (x1 ; y) + 2 f (x2 ; y)

* elle est linaire en y :


y1 ; y2 ; x E et 1 ; 2 ; f ( x; 1 y1 + 2 y2 ) = 1 f (x ; y1 ) + 2 f (x ; y2 )

B.1.2 Cas particulier


f est dite symtrique si : x ; y E ; f (x; y) = f (y; x)
f est dite dfinie si : x E ; f (x; x) = 0 x = 0
f est dite positive si : x E ; f (x; x) 0

B.1.3 Un exemple : la covariance


( )
1
'
n
1
'
n
cov (x; y) = n (xi x) (yi y) = n xi yi xy est une forme bili-
i=1 i=1
naire symtrique dfinie positive (pour les variables centres)

B.2 Produit scalaire


B.2.1 Dfinition
Un espace vectoriel E de dimension est appel euclidien sil est muni dun
produit scalaire  x ; y  dfini par :

97
98 ANNEXE B. ESPACES EUCLIDIENS

f (x ; y) =  x ; y 

o f est une forme bilinaire symtrique dfinie positive.

B.2.2 Dfinition
2
x =  x ; x  est appel le carr de la norme ( x est la longueur du
vecteur x)

B.2.3 Exemples
2
norme
( euclidienne
) sur
( IR ) 
x  442
x 4 4
OM ; OM OM ; OM = xx + yy 4OM 4 = x2 + y 2
y y
norme
euclidienne
sur IRp
x1 y1
. .

'p 'p
x xi yi ;
2
x2i
. y .  x ; y= x =
. . i=1 i=1

xp yp

B.2.4 Reprsentation matricielle du produit scalaire

'
p '
p
Dans IRp muni dune base (e1 ; .....ep ) , x = i e i ; y = x = j ej
i=1 i=1
La proprit de bilinarit
5 p de f permet dcrire
6 :p p
' '
p ''
 x ; y  = f (x ; y) = i ei ; j ej = i j  ei ; ej  =
i=1 i=1 i=1 i=1
'
p '
p
t
= i j f (ei ; ej ) = x M y
i=1 i=1

 x ; y  = xt M y = y t M x

Exemple dapplication :
on veut calculer :
Cov (2x1 + 3x2 ; x1 + 4x2 ) avec V (x1 ) = 21 = 1 ; V (x2 ) = 22 = 4
et Cov (x1 ; x2 ) = 3
Soit on utilise les proprits de bilinarit de la covariance :
Cov (2x1 + 3x2 ; x1 + 4x2 ) =
= 2 (1) Cov (x1 ; x1 ) + 2 4Cov (x1 ; x2 ) + 3 (1) Cov (x2 ; x1 ) +
+3 12Cov (x2 ; x2 )
= 2V (x1 ) + 5Cov (x1 ; x2 ) + 12V (x2 ) = 2 1 + 5 3 + 12 4 = 61
Matriciellement
( lcriture
)( devient
) :
1 3 1
2 3 = 61
3 4 4
B.2. PRODUIT SCALAIRE 99

La matrice centrale sappelle matrice de variances-covariances.


De faon gnrale :
. /
'
p
V j xj = t M
j=1


1
2
V (x1 ) Cov (x1 ; x2 ) Cov (x1 ; xj ) Cov (x1 ; xp )

Cov (x2 ; x1 ) V (x2 )


ou j M =

Cov (xj ; x1 ) Cov (xj ; x2 )

V (xj ) Cov (xj ; xp)



Cov (xp ; x1 ) Cov (xp ; x2 ) Cov (xp ; xj ) V (xp )

p
On peut galement dfinir la distance du 2

B.2.5 Notions lies au produit scalaire

1) M-orthogonalit
Deux lments x et y sont M-orthogonaux si  x ; y M = xt M y = 0

2) Thorme de Pythagore

Si deux lments x et y sont M-orthogonaux : x + y 2M = x 2M + y 2M

3) M-orthonormalit

Deux lments x et y sont M-orthonornaux si  x ; y M = xt M y = 0 et


si x 2M =  x ; x M = xt M x = 0

4) Projection M-orthogonale
Soit u un axe et u, un vecteur norm de cet axe ( u = 1), alors un vecteur
quelconque x peut scrire :

x =  x ; uM u + y ou y u et u = 1

Preuve :
x = y + z = y + u ou IR et y u
calculons  x ; uM =  y + u ; uM =
=  y ; uM +  u ; uM = 0 +  u ; uM =
100 ANNEXE B. ESPACES EUCLIDIENS

5) Composantes dun vecteur x dans une base orthonorme


Soit (e1 ; .........; ep ) une base M-orthonorme de E, la j-ime composante de
x dans cette base est :j =  x ; ej M = xt M ej = etj M x
Preuve : 5 p 6
'p '
x= j ej  x ; ej M = k ek ; ej =
j=1 k=1 M
'
p
= k  ek ; ej M = j  ej ; ej M = j
j=1 7 89 :

6) Cosinus de langle de deux vecteurs


Si est langle entre les deux vecteurs x et y :

x ; y M
Cos (x ; y) = xM yM

7) Distance entre 2 vecteurs



t
d (x ; y) = x y M = (x y) M (x y)
On dit que M induit cette distance ou mtrique d sur E

B.3 Mtriques : proprit et exemples


B.3.1 Proprit (admise)
M est diagonalisable et ses valeurs propres sont positives (car il sagit dune
matrice relle symtrique positive)

B.3.2 Exemples de mtriques


1) Mtrique euclidienne classique
'
p
d2 (x ; y) = (xj yj )2 = (x y)t I (x y) ici I = M
j=1

2) Mtrique euclidienne pondre par la variance


1
21
1
22


M =
1


2j


1
2p

'
p
(xj yj )2
d2 (x ; y) = 2j
= (x y)t M (x y)
j=1
B.3. MTRIQUES : PROPRIT ET EXEMPLES 101

3) Mtrique du 2
Si on se donne une matrice de profils ffii; .j , on dfinit M par :
1
f. 1

1

M=

f. j



1
f. p

'
p  fi ; j
2
1 fi ; j
d 2 (i ; i ) = f. j fi . fi . (Analyse des correspondances)
j=1
102 ANNEXE B. ESPACES EUCLIDIENS
Bibliographie

[Lanalyse des donnes de J.M. Bouroche et G. Saporta au P.U.F(Que sais-je ?).]

[Analyse des donnes avec R de F. Husson aux P.U.R (2009).]

[Lanalyse des donnes ; Mode demploi de T. Foucart aux P.U.R (1997).]

[Probabilits, analyse des donnes et Statistique de G. Saporta chez Technip (2006).]

[Introduction lAnalyse des Donnes de F. Cailliez et J.P. Pages chez SMASH (1976).]

103