Académique Documents
Professionnel Documents
Culture Documents
Sbastien Faure
Septembre 2012
ii
Table des matires
Introduction ix
0.1 Gnralits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
0.2 Tableaux de donnes de grande taille et classification (sommaire)
des techniques danalyse des donnes . . . . . . . . . . . . . . . . x
0.2.1 Principaux types de tableaux se prtant une analyse
factorielle . . . . . . . . . . . . . . . . . . . . . . . . . . . x
0.2.2 Classement (sommaire) des techniques danalyse factorielles x
0.2.3 Les mthodes de classification . . . . . . . . . . . . . . . . x
0.3 Organisation du cours . . . . . . . . . . . . . . . . . . . . . . . . x
0.4 Un bref historique de lanalyse en composantes principales (A.C.P) x
I Mthodes factorielles 1
1 Lanalyse en composantes principales (A.C.P) : la mthode 3
1.1 Les lments essentiels de lA.C.P . . . . . . . . . . . . . . . . . . 3
1.1.1 Exemple introductif . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Quelques remarques et questions de "bon sens" . . . . . . 4
1.1.3 But de la mthode . . . . . . . . . . . . . . . . . . . . . . 5
1.1.4 Analyse en composantes principales : la mthode . . . . . 6
1.2 Le dtail des diffrentes tapes . . . . . . . . . . . . . . . . . . . 6
1.2.1 Prliminaires de Statistique descriptive . . . . . . . . . . 6
1.2.2 Diagonalisation de V ou de R . . . . . . . . . . . . . . . . 8
1.2.3 Lespace des individus N (I) . . . . . . . . . . . . . . . . 14
1.2.4 Lespace des variables N (J ) . . . . . . . . . . . . . . . . 18
iii
iv TABLE DES MATIRES
II Mthodes de classification 61
6 Classification hirarchique ascendante 63
6.1 Hirarchie et arbres de classification . . . . . . . . . . . . . . . . 63
6.1.1 Hirarchie de parties dun ensemble . . . . . . . . . . . . 63
6.1.2 Arbre associ une hirarchie de parties . . . . . . . . . . 64
6.1.3 Arbres hirarchiques quivalents . . . . . . . . . . . . . . 65
6.1.4 Hirarchie indice (H, ) . . . . . . . . . . . . . . . . . . 66
6.2 Hirarchie indice associe un critre dagrgation . . . . . . . 66
6.2.1 Les critres dagrgation usuels . . . . . . . . . . . . . . . 66
6.3 Algorithme de base de construction dune hirarchie indice (sur
un exemple) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.4 Qualits dune classification . . . . . . . . . . . . . . . . . . . . . 69
6.5 Critre de WARD . . . . . . . . . . . . . . . . . . . . . . . . . . 71
TABLE DES MATIRES v
7 La classification automatique 83
A.3.3 Rang de f . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
A.3.4 Matrice dune application linaire . . . . . . . . . . . . . . 90
A.4 Oprations sur les matrices . . . . . . . . . . . . . . . . . . . . . 90
A.4.1 Addition de deux matrices . . . . . . . . . . . . . . . . . . 90
A.4.2 Multiplication dune matrice par un nombre rel . . . . . 91
A.4.3 Produit de deux matrices . . . . . . . . . . . . . . . . . . 91
vi TABLE DES MATIRES
B Espaces Euclidiens 97
B.1 Formes bilinaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.1.1 dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.1.2 Cas particulier . . . . . . . . . . . . . . . . . . . . . . . . 97
B.1.3 Un exemple : la covariance . . . . . . . . . . . . . . . . . 97
B.2 Produit scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.2.1 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
B.2.2 Dfinition . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
B.2.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
B.2.4 Reprsentation matricielle du produit scalaire . . . . . . . 98
vii
viii PREFACE
Introduction
0.1 Gnralits
Dans ces dix heures de cours, on sintresse un certain nombre de tech-
niques statistiques, permettant de rsoudre des problmes se posant en sciences
humaines, et en particulier en psychologie.
On considre en France que lanalyse des donnes recouvre principalement
deux ensembles de techniques : les premires qui relvent de la gomtrie eucli-
dienne et conduisent lextraction de valeurs et vecteurs propres, sont appeles
analyses factorielles ; les secondes, dites de classification automatique sont
caractrises par le choix dun indice de proximit et dun algorithme dagrga-
tion ou de dsagrgation qui permettent dobtenir une partition ou un arbre de
classification.
On peut dcrire les grands traits de cette cole danalyse des donnes, fran-
aise par
Une mfiance vis--vis de la statistique infrentielle classique : remise en
cause du modle probabiliste priori et en particulier du modle Gaus-
sien ; priorit aux donnes et particulirement aux donnes multidimen-
tionnelles.
Un retour la gomtrie : abandon du langage de la statistique mathma-
tique, position critique lgard du langage matriciel ; exploitation syst-
matique de la dualit.
La diversit des problmes abords : lanalyse factorielle est devenue un
outil dinvestigation ordinaire qui est utilis sans peine, grce aux pro-
grammes existants, par le mdecin, lingnieur, le gestionnaire, le psycho-
logue, etc.
La place privilgie occupe par certaines techniques danalyse factorielle :
lanalyse factorielle des correspondances est trs apprcie en France mais
moins utilise dans les pays anglo-saxons (ce qui est peut-tre moins vrai
ces dernires annes !) alors que lon ne fait plus trop appel lanalyse
factorielle au sens de SPEARMAN (cole psychomtrique amricaine).
Un rcit rapide sur lvolution des ides et techniques en analyse factorielle
permettra de bien diffrentier lanalyse factorielle au sens de SPEARMAN, des
techniques relevant de lanalyse en composantes principales ou lanalyse cano-
nique.
ix
x INTRODUCTION
Mthodes factorielles
1
Chapitre 1
Lanalyse en composantes
principales (A.C.P) : la
mthode
Pour permettre aux tudiants de sattacher aux principes plutt quaux cal-
culs mathmatiques lis la mthode, la technique de lanalyse en composantes
principales (A.C.P) sera prsente sur lexemple suivant. Les calculs (lmen-
taires) ninterviendront que lors du deuxime chapitre (A.C.P. en dimensions 2
et 3). La formalisation mathmatique (non-exigible) sera renvoye en annexe.
1 Cet exemple est tir du livre "Handbook of Statistical Analyses" de B., Everitt et T.
Hothorn (2009).
3
4CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE
xj
zj = j variables rduites les variables ont la mme unit
j=1; ....;p=8
et la mme importance zj = 1, j = 1; ...; p
1.2.2 Diagonalisation de V ou de R
Cest le point le plus technique. Lide est que lon a recueilli des donnes
partir des p rsultats (ici p=8 variables) des n individus (ici les n=25 finalistes).
Ces 200 nombres forment la matrice X des donnes brutes :
12.69 1.86 7291
12.85 1.80 6897
..
.
..
.
..
X= .
.
..
.
..
14.53 1.71 5289
16.42 1.50 4566
comment faire le calcul dune matrice par un rel et le produit de deux matrices (non-exigibles
lors de lvaluation !)
1.2. LE DTAIL DES DIFFRENTES TAPES 9
V = n1 X t X
R= nX X
Lide essentielle est que lon ne va plus travailler avec les variables de dpart,
mais avec de nouvelles variables appeles composantes principales u1 , ..., up ,qui
auront les particularits suivantes :
a) elles seront deux deux non-corrles
b) la variance projete sur la premire composante sera maximale, la variance
projete sur la deuxime composante principale aprs avoir retir linfluence de
la premire sera maximale etc.
Ce rsultat est connu en mathmatique sous le nom de dcomposition dune
forme quadratique selon une base orthonormale.
Les composantes principales seront les vecteurs propres u1 ; ...; up de la ma-
trice V (ou R) associs aux valeurs propres 1 , ..., p .
On parle de diagonalisation de la matrice R car quand on crit la matrice
dans la nouvelle base celle-ci devient diagonale :
1 r1;2 r1;8
r2;1 1
.. . .. . ..
.
R= Diagonalisation D=
.. . . . .
. . .
.. ..
r8;1 . . 1
1 0 0
0 2 0 0
..
0 0 ... 0 .
. .
.. . . .
.. 7 0
0 0 0 0 8
Autant le calcul des valeurs propres dans le cadre de ce cours nest pas
exigible (le rsultat sera ralis en moins dun dixime de seconde en amphi
10CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE
laide dun logiciel de calcul type Mapple) autant linterprtation des valeurs et
vecteurs propres est fondamental :
F 1 = 0.407396 HaHa
+ ...... + 0.426131 ScoSco
Ha
Sco
F 2 = 0.177736 HaHa
+ ...... + (0.069286) ScoSco
Ha Sco
..
.
..
.
F8 = 0.097249 HaHaHa + ...... + (0.893298) ScoSco
Sco
Ha13.84 ou Sco6090.6
F1 = 0.407396 Ha13.84
0.7218 + ...... + 0.426131 Sco6090.6
556.9843
F = 0.177736 + ...... + (0.069286)
.
2 0.7218 556.9843
..
..
.
F8 = 0.097249 Ha13.84
0.7218
+ ...... + (0.893298) Sco6090.6
556.9843
Xj Xj
j = 1; ..; p X
j = 1 avec Xj = Xj
12CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE
En rsum :
Aprs avoir trouv les composantes principales, toutes les donnes sex-
priment laide de ces nouvelles variables qui reprsentent dans lordre d-
croissant les meilleures explications possibles (on pourrait les qualifier de di-
mensions). Elles sexpriment comme on vient de le voir comme combinaisons
linaires des variables de dpart centres et oui/(ou non) rduites.
Considrons par exemple lcriture de la premire composante principale :
F1 = 0.407396 Ha13.84
0.7218 + ...... + 0.426131 Sco6090.6
556.9843
remarquons que cette variable est centre comme somme de variables centre,
elle passera donc gomtriquement par le centre de gravit du nuage, mais in-
dpendamment de lexistence deson criture mathmatique, elle est dans ltat
difficilement exploitable. Lcriture servira positionner la projection dun in-
dividu supplmentaire sur ce premier axe8 .
Expliquons prsent la vision gomtrique que lon doit avoir dune compo-
sante principale :
la variance (ou inertie) du nuage des n=25 points est donne par :
25
25
25
2
V arT olale = 1
25 GMi = 1
25 GMi 2 = 1
25 GMi2
i=1 i=1 i=1
de plus comme les (Cj )j=1;...;p sont non-corrles (elles forment une base
orthonormale)
p
V arT otale = V ar (Cj )
j=1
Si on diagonalise la matrice R, la somme des valeurs propres est gal au nombre de caractres
Si on diagonalise la matrice V, la somme des valeurs propres est gal la somme des variances
des variables de dpart
j
Le poucentage expliqu par un axe factoriel j est gal
p
j
j=1
Dans le cas qui nous intresse, le pourcentage expliqu par la premire com-
posante principale sera :
p
1
= 5.445705
8
= 0.680 71 etc.
j
j=1
14CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE
On travaillera sur deux espaces, celui des individus et celui des variables
comme lindique la copie dcran du logiciel ;
Si par exemple dans notre tude on dsirait mesurer la distance entre les
deux premiers individus, on procderait comme suit :
1.2. LE DTAIL DES DIFFRENTES TAPES 15
2 2
d22 (il , i2 ) = 12.6912.85
0.7218 + ....... + 72916897
556.9843 = 4.905510 .
Ces distances sont indispensables car la dtermination des composantes prin-
cipales repose sur le fait que lon maximise des variances qui utilisent des dis-
tances.
En rsum :
Deux
individus sont proches dans lensemble N (I) si :
1) Ils sont "bien reprsents" dans le premier plan factoriel (ils sont proches du plan)
2) Ils sont proches dans ce mme plan (on le constate visuellement)
10 Les tudiants pourront, avec profit, vrifier ce calcul. Il naurait pas t correct dutiliser
Si on observe le tableau des cosinus carrs qui suit et que lon dsire savoir
si lindividu 1 est bien reprsent (dans le premier plan factoriel), on calcule le
cosinus carr de langle quil fait avec le premier plan factoriel :
cos2 (
) = cos2 (
1 ) + cos2 (
La figure suivante explique que ce que lon voit dans le premier plan factoriel
nest pas suffisant pour expliquer la proximit dindividus :
1.2. LE DTAIL DES DIFFRENTES TAPES 17
Les deux projections H et K (ce que lon voit) dans le premier plan fac-
toriel sont proches et pourtant les deux individus M et N ne les sont pas.
Sur le graphique prcdent, tous les points sont bien reprsents ; on peut
donc juger de leur proximit relle.
Lindividu 1 est plus proche de lindividu 2 que de lindividu 25 ; ce qui semble
logique quand on sait que les individus 1 et 2 sont respectivement mdaille dor
et dargent alors que lindividu 25 est la dernire des 25 finalistes.
18CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE
Proprit importante
Ce rsultat trs important sera utilis indifferemment dans lespace des in-
dividus et des variables :
Si
u est un vecteur unitaire de laxe (D) alors GM ,
u = GH ( mesure
algbrique de GH).
Cette formule nous permet de trouver les projections orthogonales des indi-
vidus et des variables sur les composantes principales12 .
En rsum :
Notions gomtriques (vecteurs) Notions statistiques (variables)
Produit scalaire Covariance
Longueur Ecart-type
Cosinus de langle Coefficient de corrlation
Les deux nombres entours sont les deux premires coordonnes de la va-
riable X1 dans la base forme des composantes principales ; ce sont labscisse et
lordonne de la projection de la premire variable dans le premier plan factoriel
(cf la figure du cercle des corrlations).
Le cercle des corrlations a la particularit davoir un rayon gal 1 ; la
variable C1 a t rduite.
On peut prsent donner une interprtation de la notion de communaut :
la longueur au carr dune variable ramene au cercle des corrlations est gales
1(variance de la variable rduite). Cette variance se dcompose en une somme
des communauts de la variable avec chaque axe factoriels (dcomposition or-
thogonale de la variance cat les composantes principales forment une base or-
thonormale).
En consquence chaque communaut reprsentera le % de variance (infor-
mation) apporte par chaque composante principale la variable considre :
Communaute(Ha, C1 ) = (0.950700)2 = 0.903 83
et comme les communauts sajoutent, la base (Cj )j=1;...;p tant orthonor-
male, la part dinformation apporte par le premier plan factoriel Ha sera :
Communaute(Ha, P ) = Communaute(Ha, C1 ) + Communaute(Ha, C2 )
Communaute(Ha, P ) = (0.950700)2 + (0.194810)2 = 0.941 78
Les deux calculs se trouvent dans le rectangle arrondi noir et lencadr rouge
montre que linformation sur la variable X1 apporte par les 8 composantes
principales est bien de 1=100%.
Cette situation, trs particulire nous permet de dfinir le premier axe fac-
toriel. Celle-ci se prsente trs rarement. On aurait pu utiliser comme on la
vu plus haut lquation mathmatique donnant la premire composante (et les
autres !) comme une (des) combinaison(s) linaire(s) des variables de dpart
(centres ou centres-rduites selon le cas) :
Ha13.84 Sco6090.6
F1 = 0.407396 0.7218 + ...... + 0.426131 556.9843
3) On interprte laxe comme tant celui qui oppose celles qui sont corrles
positivement celles qui le sont ngativement.
2j
j 1 j=1
on retient les (j )j=1;...;p tels que
p p
ou j p
j
j=1
Dans notre exemple, on choisira deux composantes principales car 1 =
5.445705 1 et 2 = 1.201351 1.
Cette rgle de Kaiser est empirique ; imaginons que le premier axe reprsente
90% dexplication, le second axe a trs peu de chances davoir une valeur propre
suprieure ou gale 1 (dans le cas de la rgle de Kaiser). Ne faut-il dans ce cas
de faon mcanique se priver du second axe qui nous obligerait travailler avec
une seule droite (le premier axe factoriel) mais plutt de visualiser les rsultats
dans un plan ? etc.
La seconde rgle est celle du coude : on ngligera les valeurs propres se
trouvant aprs le coude (cf figure suivante) :
26CHAPITRE 1. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LA MTHODE
Les variables aprs le coude jouent un rle ngligeable par rapport aux deux
premires.
Variables actives et variables supplmentaires
Quand on dmarre sur Statistica une A.C.P, le logiciel nous demande quelles
sont les variables que nous souhaitons mettre en "actives" ou en "supplmen-
taires".
Si notre dmarche est "exlporatoire" cest dire que nous navons aucune
hypothse de travail et que nous attendons de lA.C.P quelle nous fournisse ce
type dinformation alors les variables seront mises en supplmentaires ce qui a
t notre cas jusqu prsent.
Si par contre nous souhaitons dans une situation "confirmatoire" privilgier
une (ou plusieurs) variables par rapport aux autres alors cette (ou ces variables)
sera(ont) mise(es) en "supplmentaires".
Dans ltude qui suit nous allons mettre la variable Sco en supplmentaire en
supplmentaire, les autres restant actives ; car on souhaiterait au vu de ltude
prcdente pouvour dire que seules les 7 preuves jouent un rle dans le rsultat
consquence de celles-ci.
1.2. LE DTAIL DES DIFFRENTES TAPES 27
On peut donc dire que la variable Sco est (quasiment) corrles la premire
composante principale
F. 1.2
1.2. LE DTAIL DES DIFFRENTES TAPES 29
=
Sco
HaHa ShSh C800C800
0.452928 Ha + 0.377271 Sh + ...... + (0.375013) C800
Lanalyse en composantes
principales (A.C.P) : les
calculs
31
32CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS
Avantages et inconvnients
Le schma dtude
8 1 0
4 6 5
6 8 7
X=
10 4 7
8 2 5
0 3 6
t X
2 Mathmatiquement V= 1 X (ce rsultat non-exigible renvoie lannexe mathma-
n
tique).
34CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS
2.2.2 Diagonalisation de R ou V
Comme les units sont identiques et que les variances ne sont pas trs dif-
frentes, on dcide de diagonaliser la matrice des variances-covariances pour
obtenir les valeurs propres et vecteurs propres associs. Parmi les calculs don-
ns dans ce chapitre, la dtermination des valeurs et vecteurs propres nest pas
exigible. On se contentera de demander un noyau de calculs de type Mapple
les rsultats3
64 8 8
6 6 6
V = 8
6
34
6
22
6
, eigenvectors :
8 22 34
6 6 6
3 Pour les tudiants intresss par la technique de diagonalisation dune matrice, ils la
u : HM, u =0
do le rsultat :
GM ,
u = GH u,
u + HM , u = GH 1 + 0 = GH
0 1 2
1 2, 1 8, 1 12
1 1 1
2 1 0
v1 1
, v2 1
, v3 1
v1 = 22 + (1)2 + 12 = 6;
v2 =
1 1 1
3,
v3 = 2
Les vecteurs unitaires ,
u
1 u2 , u3 des composantes principales scriront :
2 1 0
1 1 ,
u 1 1 ,
u 1 1
u
1 6 2 3 3 2
1 1 1
Ce rsultat de lencadr nous donnera tous les lments de calcul sur lespace
des variables et des individus
2 2 1
-1 0 -1
1 1
C1 = 6 , C2 = 6 2 , C3 = 2
1 2 1
1 0 1
-2 - 2 1
2 2
0 2
C2 = 6 2 ; X1 = 0
2 4
0 2
2 6
cov (X1 , C2 ) = 16 6 2 2 + 0 (2) + 2 (0) + 2 4 + 0 2 + 2 (6) =
1
6 6 8 2
1
68 2 1
rX1 ,C2 = 6 64 = 2
6 8
On retrouve bien les deux nombres 23 , 21 calculs6
En oprant de la mme faon, on trouve la matrice des corrlations entre les
variables et les deux premiers facteurs7 :
3 1
rX1 ,C1 = 2 rX1 ,C2 = 2
6
rX2 ,C1 = 17 rX2 ,C2 = 4
34
6 4
rX3 ,C1 = 17 rX3 ,C2 =
34
6 Attention, tous les nombres sortis par Statistica correspondant la premire composante
principale seront les opposs des nombres calculs ; le logiciel a choisi pour vecteur directeur
de la premire composante, loppos du notre, ce qui ne change pas la direction (inclinaison)
de notre axe !
7 Voir le tableau ci-dessus pour un rsultat complet.
40CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS
D) Les communauts
2 2 1
-1 0 -1
1 1
C1 = 6 , C2 = 6 2 , C3 = 2
1 2 1
1 0 1
-2 - 2 1
On constate que la premiernombre
du vecteur colonne
C
1 , 2 6 a t trouv
2 2
1 1
de la faon suivante : GM1 -3 , u1 6
GM1 , =
u1
-5 1
1 [2 2 + 1 (3) + 1 (5)] = 1 (12) = 2 6
6 6
o
correspond au vecteur unitaire de la premire composante principale
u1
C1 et donc en utilisant la mme proprit fondamentale :
Le premier nombre correspond la mesure algbrique de la projection du
premier individu sur la premire composante principale etc.
2 2 6
-1 -1 6
1 1 6
C1 = 6
=
1 1 6
1 1 6
-2 -2 6
42CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS
) 0.6) :
2.2. A.C.P EN DIMENSION 3 43
2
2
GHA (2 6)
Cos21 (M1 ) = GA2 =
22 +(3)2 +52
= 0. 631 58
2 (( 2) 6)2
Cos22 (M1 ) = GK
GA
A
2 = 2
2 +(3) +52
2 = 0. 315 79
2 2 2
cos = Cos1 (M1 ) + Cos2 (M1 ) = 0. 631 58 + 0. 315 79 = 0.947 37 1
En observant ces calculs, on saperoit que les individus sont tous bien re-
prsents dans le premier plan factoriel (les six sommes des nombres se trouvant
dans les 2 premires colonnes sont suprieures 0.6). Pour donc constater la
proximit des individus dans le nuage, on se contentera alors dexaminer les
proximits de leurs projections dans le premier plan factoriel.
Il est clair que si une telle rgle ne sapplique pas, on sera dans lobligation
de calculer les diffrentes distances entre les individus ou utiliser la classification
hirarchique ascendante vue dans un prochain chapitre
44CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS
.
Les commandes nous permettant dobtenir le tableau suivant.
.
2.2. A.C.P EN DIMENSION 3 45
Projection des individus bien reprsents (cos2 0.6) sur le premier plan factoriel.
46CHAPITRE 2. LANALYSE EN COMPOSANTES PRINCIPALES (A.C.P) : LES CALCULS
Chapitre 3
Analyse des
correspondances (A.F.C)
3.1 Introduction
LAFC, comme lACP, est une mthode essentiellement descriptive : son ob-
jectif est de dcrire sous une forme pratique, le maximum de linformation conte-
nue dans un tableau de donnes. Contrairement lACP, il sagit dun tableau de contingence,
qui correspond au croisement des modalits de deux variables qualitatives.
Il sagira comme pour lACP, dtudier des nuages de points (ici deux) dans
des espaces pour les rduire des espaces de dimensions infrieures susceptibles
dtre interprts plus facilement. Et enfin fait nouveau, dessayer de trouver
des correpondances, entre les modalits des deux variables.
47
48 CHAPITRE 3. ANALYSE DES CORRESPONDANCES (A.F.C)
3.2 Exemple
'
p fi ;j
2
1 fi;j
d2 (i; i ) = f.j fi. fi .
j=1
ntant pas une somme de carrs, le problme ne se ramne pas une si-
tuation traite dans le cadre de lanalyse en composantes principales. Pour sy
ramener, on ralise un changement dchelle sur les axes.
Si on choisit de prendre pour les p coordonnes du point i les quantits :
fi;j
avec j = 1; ..... ; p
f i. f.j
( )2
'
p
fi;j fi ;j
2
d (i; i ) =
j=1 fi. f.j fi . f.j
Ce point i, muni de la masse fi. aura pour projection sur laxe port par le
vecteur unitaire u de composantes (uj ; j = 1 ; ....; p) :
( )
'
p
i = fi;j
f.j uj
j=1 fi. f.j
ntant pas une somme de carrs, le problme ne se ramne pas une si-
tuation traite dans le cadre de lanalyse en composantes principales. Pour sy
ramener, on ralise un changement dchelle sur les axes.
Si on choisit de prendre pour les p coordonnes du point i les quantits :
fi;j
f.j fi.
avec i = 1; ..... ; n
'
p
f '
p
f
i = 1 ; ....; n ; gi = i;j
f.j f.j = i;j = fi. = fi.
fi. fi. fi.
j=1 j=1
Ce point j, muni de la masse f.j aura pour projection sur laxe port par le
vecteur unitaire u de composantes (vi ; i = 1 ; ....; n) :
'n
fi;j
j =
f.j fi.
fi. vi
i=1
La
( ligne i de lgalit
) matricielle suivante scrit en utilisant la dfinition de
f
xi;j xi;j = i;j
fi. f.j
'
p
vi = 1 fi;j uj
fi. f.j
j=1
i = '
p
fi;j
uj
j=1 fi. f.j
'
p
vi = 1 fi;j uj
= vi
fi. f.j
j=1
'
p i
i = fi;j
uj
f i.
j=1 fi. f.j
52 CHAPITRE 3. ANALYSE DES CORRESPONDANCES (A.F.C)
On en dduit les deux relations entre les coordonnes des points-lignes et les
points colonnes
n
' fi;j
;j =
1 ;j
f.j
i=1
'p
;i = 1
fi;j
;i
fi.
j=1
La matrice de terme gnral ffi;j i.
, permettant de calculer les coordonnes
dun point i partir des coordonnes de tous les points j, nest autre que celle
des profils-lignes. Ainsi dans lexemple, la coordonne de la profession sobtient
comme produit par 1 de labscisse sur laxe du barycentre de tous les modes
dhbergement, les poids tant les lments du profil des hbergements de cette
profession.
De la mme faon la seconde relation nous montre que la coordonne dun
point-hbergement est un coefficient 1 prs, le barycentre des points-professions
avec pour poids, les lments du profil socio-professionnel de ce mode dhber-
gement.
Dans IRp
Les individus i sont connus partir de leurs profils : ffi;ji avec j =
1; ...; p et leurs poids (fi )i=1;...;n
'p
1 fi;j fi ;j 2
Dans IRp , on dfinit une distance d22 (i; i ) = f.j fi.
fi .
=
j=1
( )2
'p
fi
fi;j ;j
'p
fi;j
;i = u;j reprsente la projection du point i sur le vecteur
j=1 fi. f.j
Dans IRn
3.7. TABLEAU RCAPITULATIF DES RSULTATS PRCDENTS 53
Les individus j sont connus partir de leurs profils : ffi;j .j
avec i =
1; ...; n et leurs poids (f.j )i=1;...;p
'n
1 fi;j fi ;j 2
Dans IRn , on dfinit une distance d22 (j; j ) = fi. f.j f.j =
i=1
'n 2
fi;j f
f
f
f i;jf
.j i. .j i.
i=1
Cette distance permet laproprit
dquivalence
distributionnelle
Le centre de gravit : G f1. ; f2. ; .......; fn.
La matrice diagonaliser
( (dans le cadre dune
) ACP) est soit :
(fi;j fi. f.j )
W = X (t X)avec X = xi;j =
fi. f.j
i=1;...;n et j=1;.....;p
soit (si on ne centre pas) : ( )
W = X (t X )avec X = xi;j = fi;j
fi. f.j
n
'
fi;j
;j =
f.j fi.
v;i reprsente la projection du point j sur le vecteur
i=1
propre v (v;1 ; v;2 ; ...... : v;n )
p n
Liens
0 entre1IR et IR
v = X u
t
u = 1 (X ) v
Il y a proportionnalit entre les coordonnes des points du nuage sur laxe
dans IRp et les composantes unitaires de laxe dans IRn
;j : la projection de j sur le vecteur propre unitaire v , associ la valeur
pour W
n
' fi;j
;j = 1 f.j
;i
i=1
= 1 ' fi;j
p
;j
;i fi.
j=1
i = vi
Comme f i.
'
n 2 '
n
V = fi. vi
fi.
= 2
vi = 1 =
i=1 i=1
V =
2
i 2;i
Cr (i) = d2p (i;G) ; Cr (j) = d2n (i;H)
57
58CHAPITRE 4. LANALYSE FACTORIELLE DES COMPOSANTES MULTIPLES (A.F.C.M OU A.C
Chapitre 5
Lanalyse discriminante
(A.D)
59
60 CHAPITRE 5. LANALYSE DISCRIMINANTE (A.D)
Deuxime partie
Mthodes de classification
61
Chapitre 6
Classification hirarchique
ascendante
1) Exemple
On considre la runion H = P1 P2 P3 P4 P5
H = {{a} ; {b} ; {c} ; {d} ; {e} ; {c ; d} ; {c ; d ; e} ; {a ; b} ; {a ; b ; c ; d ; e}}
63
64 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE
2) Dfinition
Par contre les hirarchies des parties de E associes ces deux arbres sont
identiques :
H = {{a} {b} {c} {d} {e} { e; b} {d; a} {e ; b; c} {d; a; e ; b; c}}
On dit que ces deux arbres sont quivalents.
Ces deux arbres correspondent, deux hirarchies stratifies diffrentes . Une
hirarchie stratifie est une hirarchie munie du prordre : tre form avant ou
en mme temps que. Autrement dit, lordre des noeuds est pris en compte dans
une hirarchie stratifie. La faon la plus commode de stratifier une hirarchie
(en particulier, de prendre en compte lordre de formation des noeuds) est de
dfinir un indice sur cette hirarchie. On obtient, ainsi, la notion de hirarchie
indice.
F. 6.1
points i et i de I (d (i ; i ) = i i ) .
Cette distance est gnralement la distance euclidienne :
'
p 2
d (i ; i )2 = d ij ; ij
j=1
Un critre dagrgation est un indice qui permet de mesurer lcart entre
deux sous-ensembles C et C de I.
Les principaux critres dagrgation utiliss en pratique sont les suivants
Critre de saut minimum
Saut (c ; c ) = M in {d (i ; i ) / i c, i c }
Critre de diamtre
Diam (c ; c ) = Max {d (i ; i ) / i c, i c }
La figure ci-dessous illustre les critre du saut minimum et du diamtre
Critre de WARD
' Si on suppose de plus, que chaque lment i de I est muni dun poids mi avec
mi = 1
iI
mc mc ' '
W ARD (c ; c ) = m c +m
g (c) g (c )2 o mc = mi , mc = mi et
c
ic ic
o g (c) et g (c ) sont les centres de gravit des classes c et c.
Quand les individus ont la mme importance, le poids mc reprsente le
nombre dindividus de la classe c
a b c d
a 0 1 3 4
b 1 0 1,5 5
c 3 1,5 0 2
d 4 5 2 0
68 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE
Etape 3
On recalcule le tableau des distances. Comme il ne reste que deux sommets
6 et {d}, ils sagrgent pour former le dernier noeud 7 = 6 {d} = {a; b; c; d} .
On obtient (7) = 2
6 {d}
6 0 2
{d} 2 0
partitions de moins en moins fines. Nous allons dfinir, ci-dessous les qualits
que doit vrifier une partition. Une partition nest intressante que dans la
mesure o les classes sont nettement individualises : elles doivent, dune part
former un tout cohrent, bien caractris (on parlera de compacit des classes)
et dautre part, elles doivent tre distinctes les unes des autres (on parlera alors
de sparabilit des classes)
Vrifions sur une mme situation que la compacit ou la sparabilit des
classes nest pas toujours vrifie selon le critre dagrgation choisi :
Si par exemple, on utilise le critre du saut minimum la sparabilit est
vrifie mais pas la compacit (effet de chane). Par contre si on opte pour le
critre du diamtre on rcupre la proprit de compacit mais les classes sont
peu spares.
I (c) est une mesure de la compacit de la classe c : plus I (c) est petit, plus
les lments i de c sont proches de leur centre de gravit g (c) et donc plus la
classe c est compacte.
' '
g= mc g (c) ou mc = mi
cP ic
On dira encore que g est le centre de gravit des points g (c) affects des
poids mc .
2) Consquences
En agrgeant deux classes c1 et c2 de la partition P, on obtient une partition
P dont linertie intra-classe est suprieure celle de P, dune quantit qui ne
dpend que des deux classes agrges c1 et c2 (et non du reste de la partition),
savoir W ARD (c1 ; c2 ) .
Par consquent, lorsque lon passe de la partition la plus fine compose des
singletons {i} (i I) , la partition la moins fine compose de la seule classe I,
on voit que linertie intra-classe varie en croissant de 0 IT otale . Dautre part en
utilisant la formule de complmentarit, linertie inter-classe ira en dcroissant
de IT otale 0.
La partition idale serait celle des singletons {i} (i I) car dans ce cas :
Intra (P ) = 0 (compacit maximum) et Inter (P ) = IT otale (sparabilit
maximum).
Mais cette partition noffre aucun intrt. On demandera que le schma des
donnes soit simple (nombre de classes petit) et fidle (Intra (P ) faible).
2) Consquences
On peut remarquer que, comme en analyse factorielle o linertie totale se
dcompose en la somme des inerties projetes, linertie totale se dcompose en
classification hirarchique ascendante en la somme des indices des noeuds de
cette hirarchie. De la mme faon quen analyse factorielle, nous calculerons ici
les taux dinertie associs aux noeuds n :
(n)
(n) = IT otale
Ainsi, par exemple, si lhistogramme des taux dinertie prsente une dcrois-
sance trs forte, cela signifie quil nexiste que quelques sparations principales,
les niveaux les plus bas de la hirarchie pouvant tre considrs comme des
intermdiaires de calcul, et ce titre tre ngligs, comme le sont les axes fac-
toriels correspondant aux inerties projetes les plus faibles.Construction dune
hirarchie indice
74 CHAPITRE 6. CLASSIFICATION HIRARCHIQUE ASCENDANTE
A B C D E F
A 0
B 1 0
C 3 2 0
D 4 3 1 0
E 5 4 4 3 0
F 5 6 6 5 2 0
F. 6.2
Le calcul fait la main sur lexemple (trs simple) na pour unique but que
dexpliquer lalgorithme de la C.H.A. Pour linterprtation on se refrera au
logiciel Statistica
Pour des raisons invoques plus haut, on utilise le critre de WARD pour
lagrgation entre classes et la distance euclidienne sur lespace des individus :
Si on observe les deux coupes trait fin (en noir), respectivement trait pais
(en rouge), on obtient une partition en deux, respectivement en quatre groupes :
Premire coupe dtermine la partition {M IE, BOS, ZAN, IN D, BAU } , {AEG, T HO, ART }
Deuxime coupe dtermine la partition {M IE, BOS, } , {ZAN, IN D, BAU} , {AEG, T HO} , {ART }
On regroupe en deux groupes bien spars (le noeud dindice lev nous
lassure), les individus qui se ressemblent le plus ; ici les machines laver.
La classification
automatique
83
84 CHAPITRE 7. LA CLASSIFICATION AUTOMATIQUE
Annexe A
Pour la loi .
85
86 ANNEXE A. NOTIONS DALGBRE LINAIRE
A.1.2 Exemples
IR est un espace vectoriel
Le plan gomtrique IR2 est un espace vectoriel sur IR (ou rel)
De faon gnrale IRn est un espace vectoriel sur IR
Dans le fichier STATS.sta ; INFE, DESC, M sont des vecteurs de IR98
Exemple
2 3
F = (a ; b) IR2 : a + b = 0 est un s.e.v de IR2
Exemple
Dans le fichier STATS.sta, la variable M considre comme un vecteur de
IR98 peut tre considre comme une c.l des deux vecteurs de IR98 ;DESC et
INFE car :
M = 12 .DESC + 12 .INF E
A.2. BASE DUN ESPACE VECTORIEL DE DIMENSION FINIE 87
On dit dans ce cas que les y1 ; y2 ; .........; yp forment une famille libre.
2) Dfinition
Les vecteurs y1 ; y2 ; .........; yp de E sont linairement dpendants sil lun au
moins dentre eux sexprime comme combinaison linaire des autres :
'
p
i = 0 : i xi = 0
i=1
3) Exemple
les trois vecteurs de IR98 ;DESC et INFE et M sont linairement dpendants
1)Definition
Les vecteurs e1 ; e2 ; ....; ep forment une base de E si :
ils sont linairement indpendants
ils engendrent E
Autrement dit : une base dun e.v E est un ensemble de vecteurs B de E
tels que tout vecteur de E sexprime de faon unique comme combinaison des
vecteurs de B
2) Exemple
2) Exemple
DimIR (IRn ) = n
88 ANNEXE A. NOTIONS DALGBRE LINAIRE
'
p
x= i xi = 1 x1 + 2 x2 + ........ + p xp
i=1
On crit :
'
p
E = E1 E2 ........ Ep et dim (E) = dim (Ei )
i=1
2) Exemple
1)Dfinition
Etant donn deux espaces vectoriels E et F, on appelle application linaire
de E vers F, toute application f de E vers F telle que :
x E ; y E : f (x + y) = f (x) + f (y)
x E ; IR : f (.x) = .f (x)
2)Exemples
u1 : IR IR
a) Homothtie dans IR de rapport 5 (changement
x u1 (x) = 5x
dchelle)
u2 :(IR2 )
IR(2 )
b) x y Symtrie dans IR2 / premire bissectrice
y x
u3 :IR3 3
IR
x x
c) y y Symtrie dans IR3 dangle 180
z z
Noyau de f
Ker (f ) = {x E : f (x) = 0} s.e.v de E
Noyau de f
Im (f) = {y E : x E ; y = f (x)} s.e.v de F
A.3.3 Rang de f
1) Dfinition
rg (f ) = dim [Im (f )]
90 ANNEXE A. NOTIONS DALGBRE LINAIRE
2) Remarque importante
on sera amen se poser la question :
Quelle est la dimension du sous-espace-vectoriel engendr par un certain
nombre de variables ?
Il sagit de trouver le plus petit nombre de variables linairement indpen-
dantes qui engendrent lespace vectoriel en question.
Si lon reprend le fichier Dpenses-Etat, on constate quil existe 12 variables.
Les deux dernires tant lies aux 10 premires, lespace engendr par ces 12
variables considres comme 12 vecteurs de IR98 sera au plus de dimension 10
2) Exemples
On peut reprendre les exemples prcdents :
M at (u1 ) = ((5) )
0 1
M at (u2 ) =
1 0
-1 0 0
M at (u3 ) = 0 -1 0
0 0 -1
O si u est( une rotation dangle)
cos () sin ()
M at (u3 ) =
sin () cos ()
on lit dans le
. polycopi TD(p58) que la rotation dangle 45 peut scrire
de /
2 2
M at (R) = 2 2
22 2
2
2) Proprits
A+B = B +A
(A + B) + C = A + (B + C)
A+0= 0+A
A + (A) = (A) + A = 0
i = 1; ....; n et si IR
Si A = (ai;j )
j = 1; .....; p
alors A = (ai;j ) i = 1; ....; n
j = 1; .....; p
2) Proprits
IR ; IR ; ( + ) A = A + A
IR ; (A + B) = A + B
IR ; IR : (A) = () A
1A = A
A = 0 = = 0 ou A = 0
2) Proprits
A B = B A
(A B) C = A (B C)
AI = I A
(A B) = (A) B
92 ANNEXE A. NOTIONS DALGBRE LINAIRE
A (B + C) = A B + A C
AB = B A= I
2) Proprit
1
(A B) = B1 A1
fj
4) Exercice
Si on(reprend la
) symtrie par rapport la premire bissectrice
0 1
A=
1 0
a) Ecrire(la matrice
) de
( passage
) P , si on travaille dans une base forme des
1 1
vecteurs f1 et f2 des deux bissectrices
1 -1
b) Calculer P 1 puis B = P 1 AP . Interprter ce rsultat
2) Proprit
Si deux matrices A et B sont semblables ( B = P 1 A P ) alors :
tr (B) = tr (A)
2) Proprits
t
det A = det (A)
un dterminant est nul siest
- une colonne ou une ligne nulle
- deux colonnes (ou lignes) sont proportionnelles
un dterminant ne change pas si on ajoute une colonne une combinaison
linaire des autres colonnes
un dterminant est nul si ses vecteurs colonnes sont linairement dpen-
dants
det (A B) = det (A) det (B)
1) Dfinition
Soit S = {x1 ; x2 ; .....; xp }, systme de vecteurs. Le rang du systme S est le
nombre maximum de vecteurs linairement indpendants extraits de S.
2) Dfinition
Le rang dune matrice A de dimension n p est le rang du systme de ses
vecteurs colonnes
1) Dfinition
On appelle valeur propre de la matrice carre A, le nombre rel , tel quil
existe le vecteur X avec :
A X = X
X est appel vecteur propre associ la valeur propre (il est dfini une
constante multiplicative prs)
Espaces Euclidiens
97
98 ANNEXE B. ESPACES EUCLIDIENS
f (x ; y) = x ; y
B.2.2 Dfinition
2
x = x ; x est appel le carr de la norme (x est la longueur du
vecteur x)
B.2.3 Exemples
2
norme
( euclidienne
) sur
( IR )
x 442
x 4 4
OM ; OM OM ; OM = xx + yy 4OM 4 = x2 + y 2
y y
norme
euclidienne
sur IRp
x1 y1
. .
'p 'p
x xi yi ;
2
x2i
. y . x ; y= x =
. . i=1 i=1
xp yp
'
p '
p
Dans IRp muni dune base (e1 ; .....ep ) , x = i e i ; y = x = j ej
i=1 i=1
La proprit de bilinarit
5 p de f permet dcrire
6 :p p
' '
p ''
x ; y = f (x ; y) = i ei ; j ej = i j ei ; ej =
i=1 i=1 i=1 i=1
'
p '
p
t
= i j f (ei ; ej ) = x M y
i=1 i=1
x ; y = xt M y = y t M x
Exemple dapplication :
on veut calculer :
Cov (2x1 + 3x2 ; x1 + 4x2 ) avec V (x1 ) = 21 = 1 ; V (x2 ) = 22 = 4
et Cov (x1 ; x2 ) = 3
Soit on utilise les proprits de bilinarit de la covariance :
Cov (2x1 + 3x2 ; x1 + 4x2 ) =
= 2 (1) Cov (x1 ; x1 ) + 2 4Cov (x1 ; x2 ) + 3 (1) Cov (x2 ; x1 ) +
+3 12Cov (x2 ; x2 )
= 2V (x1 ) + 5Cov (x1 ; x2 ) + 12V (x2 ) = 2 1 + 5 3 + 12 4 = 61
Matriciellement
( lcriture
)( devient
) :
1 3 1
2 3 = 61
3 4 4
B.2. PRODUIT SCALAIRE 99
1
2
V (x1 ) Cov (x1 ; x2 ) Cov (x1 ; xj ) Cov (x1 ; xp )
Cov (x2 ; x1 ) V (x2 )
ou j M =
Cov (xj ; x1 ) Cov (xj ; x2 )
V (xj ) Cov (xj ; xp)
Cov (xp ; x1 ) Cov (xp ; x2 ) Cov (xp ; xj ) V (xp )
p
On peut galement dfinir la distance du 2
1) M-orthogonalit
Deux lments x et y sont M-orthogonaux si x ; y M = xt M y = 0
2) Thorme de Pythagore
3) M-orthonormalit
4) Projection M-orthogonale
Soit u un axe et u, un vecteur norm de cet axe (u = 1), alors un vecteur
quelconque x peut scrire :
x = x ; uM u + y ou y u et u = 1
Preuve :
x = y + z = y + u ou IR et y u
calculons x ; uM = y + u ; uM =
= y ; uM + u ; uM = 0 + u ; uM =
100 ANNEXE B. ESPACES EUCLIDIENS
'
p
(xj yj )2
d2 (x ; y) = 2j
= (x y)t M (x y)
j=1
B.3. MTRIQUES : PROPRIT ET EXEMPLES 101
3) Mtrique du 2
Si on se donne une matrice de profils ffii; .j , on dfinit M par :
1
f. 1
1
M=
f. j
1
f. p
'
p fi ; j
2
1 fi ; j
d 2 (i ; i ) = f. j fi . fi . (Analyse des correspondances)
j=1
102 ANNEXE B. ESPACES EUCLIDIENS
Bibliographie
[Introduction lAnalyse des Donnes de F. Cailliez et J.P. Pages chez SMASH (1976).]
103