Académique Documents
Professionnel Documents
Culture Documents
L'Analyse Des Données
L'Analyse Des Données
net
JEAN-MARIE BOUROCHE
PriklSDt dn Dlrtetoli* d oORcr
G I L B E R T SAPORTA
Professeur RU Conaervatolrs National des Aite et MtieiB
35' mille
www.biblio-scientifique.net
J.-ltf. B O U n O C R E E T P. BERTIR
J.-M. BOUROCHE
O. SAPORTA
l U H a 18 0450S3 0
INTRODUCTION
(1) 1 1 . H u T U L i . i N c , A n u l y s j s o l a c o m p l e x o f s t a t i s t l c a l v a r i a b l e s
i i i t o p r i n c i p a l c o n i p i m c n l s , Journal of Eaucatioiial Payehology, 1933,
v o l . 24, 417-441, 498-520.
(2) H . H i i T E L L i N G , H e l a t i o n s b e l w e r n t w o s e t s o f v a r i t e s , Uio-
metrika, 1936, v o l .2 8 , 129-149.
<3) C . S P B A R M A N , G e n e r a l I n t e l l i g e n c e o b j e c l i v e i y d e l c r m l n e d a n d
i n e a s u r e d , American Journal of Psuchologu, 1904, vol. 1 5 , 201-292.
( 4 ) K . P E A R S O N , O n i i n e s a n d p l a n e s o c l o s e s t fit t o S y s t e m of
p o i n t s i n s p a c e , Phil. Mag., 1 9 0 1 , v o l . 2 , n 1 1 , 5 5 9 - 5 7 2 .
3
www.biblio-scientifique.net
r e s s e m b l e n t l o r s q u e l e u r s p r o f i l s s e l o n les d i f f r e n t s c a r a c -
tres s o n t v o i s i n s ; i l est p o s s i b l e T a i d e d ' u n e m t h o d e f a c -
t o r i e l l e d e r e p r s e n t e r ces p r o x i m i t s e n t r e i n d i v i d u s s u r u n
g r a p h i q u e . L e s m t h o d e s de c l a s s i f i c a t i o n p e r m e t t e n t de les
r e g r o u p e r e n c a t g o r i e s h o m o g n e s . L a d e s c r i p t i o n des r e l a -
tions entre caractres p e u t tre u n a u t r e o b j e t de l'analyse :
d e u x c a r a c t r e s s o n t c o n s i d r s c o m m e lis o u c o r r l s s ' i l s
v a r i e n t d e l a m m e f a o n s u r les d i f f r e n t s i n d i v i d u s . O n p e u t
p a r e x e m p l e privilgier u n o u plusieurs caractres et chercher
e x p l i c i t e r ses v a r i a t i o n s e n f o n c t i o n d e c e l l e s d e s a u t r e s .
L o r s q u e t o u s les c a r a c t r e s j o u e n t u n r l e i d e n t i q u e o n c h e r c h e
u n i q u e m e n t m e t t r e e n v i d e n c e les g r o u p e s d e c a r a c t r e s s o i t
corrls, soit indpendants. P o u r cela, on plonge i n d i v i d u s e t
v a r i a b l e s d a n s des espaces g o m t r i q u e s t o u t en f a i s a n t l a p l u s
g r a n d e c o n o m i e d ' h y p o t h s e s e t o n t r a n s f o r m e les d o n n e s
p o u r les v i s u a l i s e r d a n s u n p l a n o u les classer e n g r o u p e s h o m o -
gnes et ceci t o u t en p e r d a n t le m i n i m u m d ' i n f o r m a t i o n .
S e l o n le t y p e d e p r o b l m e e t l a n a t u r e des d o n n e s o n c h o i s i t
ta m t h o d e approprie.
Cette approche multidimensionnelle a c o n n u depuis son
a p p a r i t i o n oprationnelle une m u l t i t u d e d'applications dans
t o u s les d o m a i n e s o l ' o b s e r v a t i o n de p h n o m n e s c o m p l e x e s
est ncessaire : sciences n a t u r e l l e s , sciences h u m a i n e s , p h y -
siques, etc.
L a diversit des e x e m p l e s traits d a n s c e t o u v r a g e d o n n e r a
a u l e c t e u r u n e ide d e l a varit des a p p l i c a t i o n s p o s s i b l e s .
L e c h a p i t r e p r e m i e r c o n t i e n t u n e p r s e n t a t i o n des d o n n e s
analyses et quelques rappels. L e s c h a p i t r e s I I et I V sont res-
p e c t i v e m e n t consacrs l'analyse en composantes principales
et l'analyse canonique, deux mthodes fondamentales depuis
H o t e l l i n g . L e c h a p i t r e V p o r t e s u r l ' a n a l y s e des c o r r e s p o n -
dances, trs utihse e n F r a n c e a c t u e l l e m e n t . L e s c h a p i t r e s I I I
e t V I s o n t r e s p e c t i v e m e n t des i n t r o d u c t i o n s a u x m t h o d e s
de c l a s s i f i c a t i o n e t de d i s c r i m i n a t i o n . L e c h a m p trait est
d o n c r e s t r e i n t , l ' a c c e n t t a n t m i s s u r les m t h o d e s les p l u s
intressantes soit p o u r l e u r fcondit thorique, soit p o u r l a
richesse de leurs a p p l i c a t i o n s .
4
www.biblio-scientifique.net
CHAPITRE PREMIER
5
www.biblio-scientifique.net
6
www.biblio-scientifique.net
CARACTRES
2
1 4 x^
2 4 xl
en
> i *? 4 xP
Q
n X% 4
7
www.biblio-scientifique.net
Dans Texemple prcdent p caractres quantita-
tifs ont t observs sur n individus. Les p caractres
sont nots ge, . . . , = salaire b r u t , . .
= anciennet.
Sur le i-me i n d i v i d u , les caractres ge ,
ff salaire et anciennet prennent les valeurs
numriques i , xl et xf.
Sur les mmes individus, on aurait pu observer
les caractres sexe , niveau hirarchique ,
<c situation matrimoniale .
Pour leur traitement numrique, ces caractres
quahtatifs sont reprsents sous forme d'un tableau
de variables indicatrices prenant les valeurs 0 ou 1.
On d i t alors que les donnes sont reprsentes sous
forme disjonctive complte.
CARACTRES
Niveau Situation
Sext hirarchique matrimoniale
'i> il
1 11 1
.s
H
en 1 1 0 0 1 0 1 0 0
P
2 0 1 1 0 0 1 0 0
a
> t 1 0 0 0 1 0 1 0
a
h1 n 0 1 1 0 0 1 0 0
8
www.biblio-scientifique.net
9
www.biblio-scientifique.net
Exemple
1 0 0 1 0
0 1 0 1 0
0 1 0 0 1
1 0 0 1 0 2 0
0 0 1 0 1 'X, X , = 2 1
0 0 1 1 2
0 1
0 1 0 1 0
0 0 1 1 0
10
www.biblio-scientifique.net
I I . Rduction des donnes
La statistique nous a habitus des reprsenta-
tions synthtiques des donnes {!), tout au moins
lorsque l'on s'intresse u n caractre unique. Les
termes d'histogrammes, de moyenne, de variance,
d'cart type sont (presque) passs dans le langage
commun. Rappelons rapidement leurs dfinitions
qui nous seront utiles par la suite.
Lorsque l'on observe un caractre qualitatif sur
un ensemble d'individus, la premire tche consiste
compter le nombre d'individus dans chaque mo-
dalit. Par exemple, 6 800 individus sont classs
par Anemon (Zur Anthropologie der Badener) sui-
vant la couleur de leurs cheveux :
X = S Pi Xi.
i-1
n
www.biblio-scientifique.net
C a r a c t r i e e r u n e n s e m b l e d e n o m b r e s p a r sa m o y e n n e e s t
insuffisant.
A i n s i les d i x v a l e u r s s u i v a n t e s 3 100, 2 5 0 0 , 2 8 0 0 , 3 2 0 0 ,
4 0 0 0 , 2 5 0 0 , 3 0 0 0 , 2 7 0 0 , 3 0 0 0 , 2 9 0 0 r e p r s e n t a n t les sa-
l a i r e s d e d i x i n d i v i d u s o n t p o u r m o y e n n e 2 9 7 0 . M a i s les
d i x valenirs s u i v a n t e s l 800, 2 000, 1 900, 4 500, 6 000, 5 0 0 0 ,
1 600, 2 400, 2 500, 2 000 o n t aussi p o u r m o y e n n e 2 970. I I
est c l a i r c e p e n d a n t q u e l a d e u x i m e srie n ' e s t pas s e m b l a b l e
l a premire. L e s v a l e u r s s o n t p l u s disperses. P o u r q u a n -
t i f i e r l a d i s p e r s i o n des v a l e u r s , o n u t i l i s e l a v a r i a n c e :
J n
- 2 ( * i x)- ou s= = L p;(.j x)^.
n i-1 i-1
s* = 168 100
s =410
8 = 2 2 4 6 100
s = 1 498,70.
12
www.biblio-scientifique.net
surface : x
2 8 ; 5 0 ; 5 5 ; 6 0 ; 4 8 ; 35 ; 8 6 ; 6 5 ; 32 ; 52 ;
prix : y
130 ; 2 8 0 ; 268 ; 320 ; 2 5 0 ; 250 ; 350 ; 300 ; 155 ; 2 4 5 .
L e n u a g e d e s 10 p o i n t s s e m b l e e f f i l l e l o n g d ' u n e d r o i t e
e t i l parat r a i s o n n a b l e , si l ' o n v e u t p r v o i r le p r i x e n f o n c t i o n
d e l a s u r f a c e , d e p o s e r u n e f o r m u l e y = ax -\- b -\- u o u
est u n e v a r i a b l e d'erreur. Les coefficients a et s o n t obtenus
p a r l a m t h o d e des m o i n d r e s carrs, c'est--dire choisis d e
n
faon rendre m i n i m a l e la somme (ui)'*
i-1
.g
4 l I ; I I 1 I I ' , , 1 ,,, i . . .
0 10 20 30 40 50 60 70 80 90 100
Surtac en mtrs cor ras
U e passe p a r le p o i n t c e n t r e de gravit de c o o r d o n n e s :
* = 51,1 et y = 254,8.
O n m o n t r e que le r a p p o r t ;
n n
S u?/ (viy)* est t o u j o u r s infrieur 1 .
i - l i-1
13
www.biblio-scientifique.net
sv= 2 pAxix){y,y)
r{xiy) =
s, s.
Origine sociale
<n
3 <n
"3 w^
.2
4 C
i l
a t-.
Niveau hirarchique :
Ouvrier, employ II 14 107 75 207
Matrise 1 10 60 31 210
Cadre 23 2 16 40 SI
Total 35 26 183 146 390
15
www.biblio-scientifique.net
probabilits marginales PiPj d'avoir la modalit i
et la modalit j . On aura en fait " P i X Pj*
ou PijPiPi = 0.
Sur nos donnes, est estim par n y / n , pi
par jiiJn et pj par ra.j/n.
Si les deux caractres sont indpendants on voit
que les numrateurs de : [n^j f^i.^.il^)^ seront
voisins de 0.
E n fait, on montre que dans ce cas, si Tchantillon a t
tir au hasard I ) ^ suit une loi du k (p l)(q 1) degrs
de libert, o p et g sont les nombres de mod^its des deux
caractres.
L a lecture d'ime table d u 6 degrs de libert nous
montre que, s'il y a indpendance, a 99 % de chances
d'tre compris entre 0 et 16,81. Or nous avons = 69,2
et nous sommes donc amens rejeter l'hypothse d'ind-
pendance.
16
www.biblio-scientifique.net
CHAPITRE I I
L'ANALYSE
EN COMPOSANTES PRINCIPALES
I . Prsentation de la mthode
Lorsqu'il n ' y a que deux caractres et x^^ i l
est facile de reprsenter, sur u n graphique plan
l'ensemble des donnes : chaque individu est
alors un point de coordonnes x] et xf et le simple
examen visuel de l'allure du nuage permet d'tudier
l'intensit de la liaison entre x^ et x^ et de reprer
les individus ou groupes d'individus prsentant des
caractristiques voisines :
X X
n X X
XX
Trou g'oiipat h o m o g i n s i
17
www.biblio-scientifique.net
La structure fonctionnelle des dpenses de TEtat (1872-1971) (en % )
if 2 2 o a ~a.
. 8 ^
Ci S" 5"
t2 3 1 ~ 3
1872 18.0 0,5 0.1 6,7 0,5 2.1 2.0 26,4 41.5 2.1 100
18K0 14,1 0.8 0,1 153 1.9 3,7 0,5 29.8 31.3 2,5 100
1890 13.0 0,7 0.7 6,8 0,6 7.1 0.7 33,8 34.4 1,7 100
1900 14.3 1.7 1,7 6.9 1.2 7.4 0.8 37,7 26.2 2.2 100
1903 10.3 1,5 0,4 9,3 0,C 8.5 0,9 38,4 27.2 3.0 100
1906 13,4 1.4 0,5 ,1 0,7 8 ,6 1,8 38,5 25.3 1.9 100
1909 13,5 1.1 0.5 9,0 0,6 9,0 3,4 36,8 23.5 2,6 lOO
1912 12.9 1,4 0.3 9,4 0,6 9,3 4,3 41,1 19.4 1,3 100
1920 12,3 0,3 0,1 11,9 2,4 3.7 1,7 1,9 42,4 23,1 0.2 100
1923 7.6 1,2 3.2 5,1 0 6 5.6 1,8 10,0 29.0 35,0 0,9 100
1926 10,5 0,3 0.4 4.5 1.8 6,6 2,1 10,1 19.9 41,6 2,3 100
1929 10.0 0,6 0,6 9,0 1,0 S.l 3,2 11,8 28.0 25.8 2,0 100
1932 10,6 0.8 0,3 8,9 3,0 10,0 6,4 13.4 27,4 19,2 0 100
1935 8,8 2,6 1,4 7,8 1,4 12.4 6,2 11,3 29.3 18,5 0,4 100
1938 10,1 1,1 1.2 5,9 1,4 9,5 6,0 5,9 40.7 18,2 0 OO
1947 15,6 1.6 10.0 11,4 7.6 8.8 4,8 3.4 32.2 4.6 0 100
1950 11,2 1,3 16,5 12,4 13.8 8,1 4,9 3.4 20,7 4,2 1,5 100
1953 12.9 1,5 7,0 7,9 12,1 8,1 5,3 3,9 36.1 5.2 0 100
1956 10,9 5,3 9.7 7,6 9,6 9,4 ,5 4,6 28.2 6,2 0 100
1959 13,1 4,4 7,3 5,7 9,8 12,5 8,0 5,0 26.7 7.5 0 100
1962 12,8 4.7 7,5 6.6 6,8 15,7 9,7 5.3 24,5 6,4 0.1 100
1965 12,4 4,3 8.4 9,1 6.0 19,5 10.6 4,7 19,8 3,5 1.8 100
1968 11,4 6.0 9.5 5.9 5,0 21,1 10.7 4,2 20,0 4.4 1,9 100
1971 12,8 2,8 7,1 8,5 4,0 23,8 11,3 3,7 18.8 7.2 0 100
19
www.biblio-scientifique.net
I l faudra videmment choisir le plan de projection
sur lequel les distances seront en moyenne le mieux
conserves : comme l'opration de projection rac-
courcit toujours les distances d(ii ; fj) ^ ( / { C J ; C J ) ,
on se fixera pour critre de rendre maximale la
moyenne des carrs des distances entre les projec-
tions f, ; f2 ; . . . ; f .
Pour dterminer ce plan que l'on appelle le plan
principal, i l sufht de trouver deux droites A^^ et A2
Si A l et A2 sont perpendiculaires on a :
20
www.biblio-scientifique.net
21
www.biblio-scientifique.net
32
www.biblio-scientifique.net
L'ensemble des variances et des covariances est
regroup dans un tableau V appel matrice de
variance dos p caractres o le terme situ l'inter-
section de la j-ime ligne et de la A;-ime colonne
est la covariance Sjj^. Les termes diagonaux sont
alors les variances s| des p caractres.
/si Sy. . . . .S-j,,'^
V =
^11
De mme l'ensemble des coefficients de corr-
lation est regroup dans la matrice de corrla-
tion R dont les termes diagonaux valent 1 puisque
r{x'\x') = 1.
li = 1
\ l /
R et V sont des matrices carres d'ordre p,
symtriques car Sjj. = s^^ et r^^. r^.^. On jiourra
donc se contenter d'crire seulement la moiti des
termes de ces matrices.
Si on note D,/, la matrice diagonale suivante :
\ * ' VsJ
on a la relation matricielle :
R-D.,.VDi/,.
Ainsi la matrice de corrlation des 11 caractres
de notre exemple est :
23
www.biblio-scientifique.net
1-1
-H o o o
.-( o o o
I I
,H o <=> o o
eo irt 0 "t
N t-;
o' O O
t~ ^ H ^ 0
"t.
>0
c-l e-l
-I O ' ' O
r - H O O 0
i - l 0 0 0 0
25
www.biblio-scientifique.net
o
D = />2
O
\ I
AxeJ
26
www.biblio-scientifique.net
( \ i ^ A'e k
t - l J-1
27
www.biblio-scientifique.net
M peut tre n'importe quelle matrice symtrique
dfinie positive. La formule de Pythagore revient
choisir pour M la matrice unit L
Ceci revient dfinir le produit scalaire de deux
vecteurs et de l'espace des individus par :
< e i ; e2>M = 'ci Me^
on d i t que l'on a muni l'espace des individus d'une
structure euclidienne, la matrice M s'appelle alors
la mtrique de l'espace. Le produit scalaire de
jar lui-mme est not H c j l i et ||ei||u, qui est
'analogue de la longueur du vecteur e^, s'appelle
la M-norme de .
Les mtriques les plus utilises en ACP sont les
mtriques diagonales qui reviennent pondrer les
caractres ; en particulier on utilise trs frquem-
ment la mtrique :
'2
28
www.biblio-scientifique.net
\ ' - a j
ractres par et utiliser ensuite la mtrique
usuelle M = I . Ce rsultat se gnralise une
mtrique M quelconque de la manire suivante :
on dmontre que pour toute matrice symtrique
dfinie positive M i l existe une matrice T (en fait
i l en existe une infinit) telle que M = ' T T . Le
produit scalaire <ei ; e2>M = '^i peut s'crire
alors 'e^'TTca = ' ( T e i ) ( T e 2 ) = < T e i ; Te2>i. Tout
se passe donc comme si on avait transform les
donnes par la matrice T et utilis ensuite le pro-
duit scalaire ordinaire.
Ceci revient remplacer le tableau de donnes X
par Y = X ' T et prendre comme mtrique l a
matrice unit I .
B) Comment calculer les coordonnes des individus
sur un nouvel axe. Considrons le systme d'axes
29
www.biblio-scientifique.net
30
www.biblio-scientifique.net
i
est relie J p a r l a formule de H u y g h e n s :
A = > + d^(g, h )
> ) , est donc t o u j o u r s suprieure J, l a valeur m i n i m u m
tant a t t e i n t e lorsque h = g .
O n en dduit alors que l a recherche d ' u n p l a n r e n d a n t
m a x i m u m Tinertie des projections des n p o i n t s est quivalente
l a recherche d u p l a n passant a u plus prs de Tensemble
des pointe d u nuage a u sens o l a moyenne des carrs de
distance des pointa d u nuage a u p l a n est m i n i m a l e .
Soit h l a p r o j e c t i o n de g sur le p l a n q u i est alors le
centre de gravit de p r o j e c t i o n des p o i n t s d u nuage. L e
triangle ; ; h est rectangle en , d'o :
d^(ei;fi)-d^(ei;h)-d^{fi;h)
et S p i d'(e.- ; f;) = - / h - Sp. \)
fi/
31
www.biblio-scientifique.net
Comme = ^ + d^(g ; h ) on v o i t que rendre m i n i m a l e l a
moyenne des carrs des distances entre les et les s'obtient
lorsque g = h et q u a n d l ' i n e r t i e d u nuage projete S p j ' i ' C i ; h )
est m a x i m a l e .
Dsormais on supposera t o u j o u r s que le p l a n p r i n c i p a l , et
p l u s gnralement les axes p r i n c i p a u x , passent p a r g .
Ou m o n t r e que J s'exprime p a r l a forniole :
J = . Trace ( M V )
32
www.biblio-scientifique.net
11x^11 ||x*|| = i 7 i ;
33
J . - M , BOUROCHB E T O. SAPOBTA 2
www.biblio-scientifique.net
Ca Cl !
r ^ J -
C3 I
34
www.biblio-scientifique.net
soit :
V ^ v = ( V V y T ) v = Xv
35
www.biblio-scientifique.net
36
www.biblio-scientifique.net
A.vec M = D i / ( i , l e s c o m p o s a n t e s p r i n c i p a l e s sont l e s c a r a c -
I V . Les rsultats
et leur interprtation
37
www.biblio-scientifique.net
Valeur o/ o/
/o /o
propre d'inertie cumul
38
www.biblio-scientifique.net
Les deux premiers vecteurs propres Vj et Vg de R
sont ici les suivants :
^1 a
0,08 0,52
0,37 0,00
0,37 0,24
0,06 0,44
0,32 0,28
0,35 0,10
0,42 0,07
0.13 0,56
0,27 0,15
0,40 0,21
0,25 0,08
39
www.biblio-scientifique.net
Les composantes Cj e t d o n n e n t les coordonnes des
i n d i v i d u s sur le p l a n p r i n c i p a l et on o b t i e n t l a configuration
suivante.
O n v o i t immdiatement apparatre quatre groupes d ' i n d i -
v i d u s bien spars :
1923
1926
1935
1932
1B29
1938
196S
1962
1971
1830 1959 1956
1903
1965
1906
1900, 1312
1672 19201309
1953
1947
1950
41
www.biblio-scientifique.net
A) Le cercle des corrlations. Le calcul des cor-
rlations entre les composantes principales et les
caractres initiaux est trs simple effectuer, dans
le cas de la mtrique Dj/g : on montre que le
coefficient de corrlation linaire entre x^ et c^^ ^st
gal la y-me composante du fc-ime vecteur
propre v^^ multiplie par \ / \ On en dduit que
la somme des carrs dv.s corrlations de C;^ avec
les X ' ' vaut "k^.
On trouve ici :
r(c, ; X ' )
42
www.biblio-scientifique.net
4S
www.biblio-scientifique.net
44
www.biblio-scientifique.net
45
www.biblio-scientifique.net
concurrentes. Le problme est alors de reprsenter
graphiquement les proximits entre marques qui
constituent autant d'individus.
Les donnes sont donc le tableau des distances
entre les n individus. Supposons que ces distances
soient euclidiennes, cela veut dire que les n i n d i -
vidus peuvent tre considrs comme des points
dans un espace de dimension p (inconnu) muni
d'une mtrique M . Si on connaissait leurs coor-
donnes sur des axes orthogonaux arbitraires de
cet espace on aurait alors un tableau individus-
caractres X et on pourrait effectuer une ACP. Nous
avons v u que les composantes principales c qui
constituent les listes de coordonnes sur les axes
principaux sont les vecteurs propres de la ma-
trice X M *X D . Or cette matrice peut se calculer en
connaissant uniquement les distances entre individus.
I l suffit alors de calculer ses vecteurs propres
pour obtenir une reprsentation des individus sur
un plan ou u n espace de dimension q dont on mesu-
rera la quaUt au moyen du pourcentage d'inertie
expUque.
L a m a t r i c e X M ' X est l a m a t r i c e d o n t l e s lments ivjj
sont les p r o d u i t s scalaires ^e,-; J ^ M , e t wn = En
a p p l i q u a n t la relation d u triangle :
o :
i-i ^ ^
et d?. = 2 2 P i P j d V i ; j) = 2 J '
46
www.biblio-scientifique.net
47
www.biblio-scientifique.net
CHAPITRE III
LA CLASSIFICATION
48
www.biblio-scientifique.net
49
www.biblio-scientifique.net
50
www.biblio-scientifique.net
51
www.biblio-scientifique.net
52
www.biblio-scientifique.net
S8
www.biblio-scientifique.net
l a premiie q u i calcule l a distance d*uu i n d i v i d u u n
noyau ;
la deuxime q u i une p a r t i t i o n en k classes associe les
k n o y a u x de q p o i n t s , reprsentatifs de ces classes ;
l a troisime q u i mesure l a qualit d'une p a r t i t i o n .
Connaissant ces trois fonctions, le n o m b r e de classes e t
l'effectif des n o y a u x , l ' a l g o r i t h m e est entirement dtermin.
Comme pour l a mthode des centres mobiles, la p a r t i t i o n
finale dpend d u choix i n i t i a l des n o y a u x . A f i n de l i m i t e r cet
inconvnient on procde plusieurs tirages a u sort des n o y a u x
de dpart et on compare les p a r t i t i o n s finales obtenues : les
i n d i v i d u s q u i o n t toujours t classs ensemble dfinissent des
formes fortes q u i sont en quelque sorte les parties v r a i m e n t
homognes de l'ensemble des i n d i v i d u s car elles o n t rsist a u x
alas des tirages des n o y a u x . L e n o m b r e de formes fortes est
gnralement diffrent de k.
Les mthodes de p a r t i t i o n n e m e n t p e r m e t t e n t de t r a i t e r
rapidement de grands ensembles d ' i n d i v i d u s mais elles sup-
posent que le n o m b r e k de classes est fix. Si ce n o m b r e ne
correspond pas l a configuration vritable d u nuage des
i n d i v i d u s on risque d ' o b t e n i r des p a r t i t i o n s de valeur douteuse.
I l f a u t alors souvent essayer diverses valeurs de k, ce q u i
augmente te temps de calcul. Lorsque le nombre des i n d i v i d u s
n'est pas t r o p lev o n recourra plutt des mthodes
hirarchiques.
I I . ClaBBfication hirarchique
M
www.biblio-scientifique.net
dans une classe de la partition suivante. La suite
des partitions obtenues est usuellement reprsente
sous la forme d'un arbre de classification analogue
l'organigramme d'une entreprise.
La figure ci-dessous reprsente la suite de p a r t i -
tions de l'ensemble a, b, c, d, e :
- albjcldle
P4 = abjcldje
Pj = abjcdje
P2 = ahjcde
0,5
Pj = abcde. 0
a b c d e
SS
www.biblio-scientifique.net
SA g.
56
www.biblio-scientifique.net
TJn calcul lmentaire m o n t r e en effet qne :
8(A,B)=J^^rf''(g,;gB)
S7
www.biblio-scientifique.net
47 et sont constitues de la manire suivante :
ce sont les annes 1900 et 1906 qui sont les plus
proches, puis 1959 et 1962, ensuite on rattache 1909
la classe 1900-1906 et ainsi de suite.
Les rsultats sont alors consigns dans le tableau
suivant.
On remarque que la somme des niveaux d'agr-
gation est gale 11 : en effet chaque niveau est
gal la perte d'inertie rsultant de la fusion des
deux lments runis ; la somme des pertes d'inertie
est donc gale l'inertie totale du nuage de points
qui est ici gale au nombre de caractres puisque
l'on a pris Dj/^ comme mtrique.
JVo Niveau
de la classe Elments runis d^agrgation
SB
www.biblio-scientifique.net
De ce tableau on dduit l'arbre de classification.
Son examen montre l'vidence l'existence de quatre
classes relativement homognes obtenues en coupant
l'arbre au niveau 0,5 environ. La classe n'' 40 re-
groupe les annes 1947-1950-1953, la classe n42 les
annes 1950 1971, la classe n 43 les annes 1880
1912 et la classe n 44 les annes 1923 1935.
59
www.biblio-scientifique.net
fera apparatre trois classes, puis deux classes : la
partition en deux classes sparant ici l'avant- et
l'aprs-deuxime guerre.
Rappelons enfin qu' chaque tape on n'obtient pas
forcment la meilleure partition en k classes, mais
seulement la meilleure de celles obtenues par runion
de deux classes de la partition en + 1 classes.
d(A,B).=:p^2 d(e,;e,).
60
www.biblio-scientifique.net
La distance du sup remdie, mais un peu b r u -
talement, au dfaut de la mthode du saut minimal,
car elle exige que les points les plus loigns, donc
tous les points, soient proches.
La distance moyenne offre un compromis entre
les deux prcdentes.
L'ennui est que selon la formule choisie on abou-
t i r a une hirarchie ou une autre.
Ainsi considrons le tableau de distance suivant
entre cinq individus ; on voit que cette distance
n'est pas euclidienne puisque :
d{c,e)>d{c, d) + d(d.e)
6 > 2 + 1/2.
3 A
4 1
2 6
0 1/2
1/2 0
4,75
3,3
n
Si chaque arbre commence par la runion de d
et de (t e en une seule classe / , i l y a tout de
61
www.biblio-scientifique.net
I l est r e c o m m a n d e de procder p l u s i e u r s t y p e s
de classification sur le m m e ensemble en u t i l i s a n t
diverses f o r m u l e s : si les birarcbies c o m p l t e s s o n t
en gnral diffrentes, i l ne d o i t pas y a v o i r de
t r o p grandes v a r i a t i o n s lorsque l ' o n regarde u n i -
q u e m e n t le h a u t de l ' a r b r e , c'est--dire les p a r t i -
t i o n s f a i b l e n o m b r e de classes. S i o n c o n s t a t e de
grosses diffrences c'est peut-tre q u e l ' e n s e m b l e
des i n d i v i d u s se prte m a l t o u t e classification.
N o t o n s e n f i n q u e l ' u n e des p r i n c i p a l e s difficults
en c l a s s i f i c a t i o n consiste dfinir des distances o u
des dis similarits e n t r e i n d i v i d u s , s u r t o u t q u a n d
c e u x - c i s o n t dcrits p a r des caractres q u a l i t a t i f s .
62
www.biblio-scientifique.net
CHAPITRE I V
L'ANALYSE CANONIQUE
63
www.biblio-scientifique.net
d o n n e l ' a n a l y s e c a n o n i q u e , c o m p t e t e n u de sa
fcondit thorique. Les a p p h c a t i o n s les plus e n r i -
chissantes seront obtenues sur des donnes p a r t i -
culires, c o m m e nous le v e r r o n s dans les d e u x c h a -
pitres suivants.
L Prsentation de l a m t h o d e
64
www.biblio-scientifique.net
P a r a i l l e u r s , u n j u r y a n o t les athltes selon l a
qualit de leurs p e r f o r m a n c e s . Q u a t r e critres o n t
t r e t e n u s :
y i = N S A U : note de saut sur 20 (moyenne des notes don-
nes par trois juges sur le style d u saut dans
son ensemble) ;
y2 = N E L A : note d'lan sur 20 (moyenne des notes donnes
par trois juges sur le style de l'lan) ;
y* = N I M P : note d'impulsion sur 20 (moyenne des notes
donnes par trois juges) ;
y* = N S U R : note de suspension rception sur 20 (moyenne
des notes donnes par trois juges).
O n c h e r c h e r a les coefficients :
'a= (oi, ....Oj, ...,ap)
et ' b ^ (6i,
65
J . - H . BOUROCBB B T O. t A M B T A 8
www.biblio-scientifique.net
66
www.biblio-scientifique.net
a t o b t e n u , o n recherche, dans u n deuxime t e m p s ,
u n a u t r e couple de caractres et Y]'^ tels q u e
r{%\ soit m a x i m u m et tels q u e et (res-
p e c t i v e m e n t Tf)^ et T)^) aient u n e corrlation n u l l e
et a i n s i de s u i t e , et Y)*, etc.
L e p r o b l m e de l ' a n a l y s e c a n o n i q u e p e u t tre
rapproch de celui de l a rgression m u l t i p l e . S u p -
posons que nous cherchions prvoir l a v a r i a b l e a;',
saut en l o n g u e u r , l ' a i d e des notes donnes p a r
le j u r y . D a n s ce cas l'espace W j n ' a p l u s q u ' u n e
seule d i m e n s i o n , t a n d i s q u e est inchang. O n
obtient le graphique suivant :
O n recherche le v e c t e u r de W g :
>) = 6 x y ^ - h . . . +&4y*
f a i s a n t u n angle m i n i m u m avec le caractre x ' .
C o m m e n o u s le v e r r o n s dans le p a r a g r a p h e s u i -
v a n t , r\t u n vecteur colinaire avec l a p r o j e c t i o n
o r t h o g o n a l e de x ' sur
IL F o r m u l a t i o n gomtrique
1. P r o j e c t i o n o r t h o g o n a l e siu* un sous-espace
vectoriel,
A ) Le problme de la rgression multiple, A v a n t de r-
soudre le problme de l'analyse canonique, il est ncessaire
67
www.biblio-scientifique.net
d'effectuer quelques rappela sur la rgression multiple, et en
particidier sur la projection orthogonale d'un vecteur sur u n
sous-espace vectoriel.
Considrons le cas d'un caractre expliquer n y et de
p caractres explicatifs x^, . . x ' , . . x V .
Nous supposons que ces p + 1 caractres sont observs
sur le mme ensemble de n individus, chaque individu tant
muai du poids pi > 0 avec : S p f = 1.
Il s'agit de trouver une combinaison linaire des p caractres
explicatifs
= C i X l + . . . + f l j X ' + ... + O p X P
yi eR" et x = eR j = h
J^P4yi = o ^ipi*/ = o j = l p
... xi .. . x;
... xi, ... xt
est gal p.
68
www.biblio-scientifique.net
E n notation abrge, on pose :
W = {eR''/ = X,ii6RP}
O \
D = Pi
o
it'ii'=*;
L a distance entre deux caractres est donne par :
d\xKx^)= ||x'-~x*)|'
= ((xi 1 * ) D(x' x " ' )
69
www.biblio-scientifique.net
Dans la suite, nous noterons f le point de W le plus pioche
de y : y est la projection orthogonale de y sur W .
70
www.biblio-scientifique.net
y est donc le vecteur de W maximisant
71
www.biblio-scientifique.net
A u x v e c t e u r s x^ et nous associons r e s p e c t i -
v e m e n t les sous-espaces v e c t o r i e l s de R " et W j :
Wi^CeR-'/-Xa^aeR"}
W 2 = {)GRVl = Yb, bGR=}
o X p e t Yg s o n t les m a t r i c e s c o n t e n a n t r e s p e c t i -
v e m e n t e n colonnes les v e c t e u r s x^, y = 1 , . .
et y*, k= 1, ...,q.
Les v e c t e u r s x^ (et y*) tant centrs, les sous-
espaces v e c t o r i e l s (et Wg) c o n t i e n n e n t des vec-
t e u r s centrs, c o m b i n a i s o n s linaires de v e c t e u r s
centrs.
L encore, nous supposons q u e les (les y*)
f o r m e n t u n e base de W j (de W j ) et donc q u e :
d i m ( W i ) = p, d i m (W^) = q
r a n g ( X ) = p, rang (Y) =q
G o m t r i q u e m e n t , le problme de l ' a n a l y s e c a n o -
n i q u e p e u t tre formul de l a faon s u i v a n t e :
I l s'agit de t r o u v e r e et yj e W g t e l q u e :
soit m a x i m u m .
72
www.biblio-scientifique.net
B ) Recherche des caractres canoniques. S u p p o -
sons q u e les caractres et YJ^ soient s o l u t i o n d u
problme.
P u i s q u e T a n g l e e n t r e e t ) ne dpend pas de
l e u r n o r m e , o n suppose q u e = j T)|| = 1 .
V)^ d o i t tre colinaire avec l a p r o j e c t i o n o r t h o -
gonale de sur W g q u i est le v e c t e u r de
f a i s a n t u n angle m i n i m u m avec j^ d'aprs l e p a r a -
graphe I l . 1 .C.
Cette c o n d i t i o n s'crit :
o Xl = r? = cos" ( ^ V ) .
O n en dduit q u e et Y)^ sont r e s p e c t i v e m e n t
v e c t e u r s p r o p r e s des oprateurs A ^ A 2 e t A g A ^ as-
73
www.biblio-scientifique.net
socie l a m m e p l u s g r a n d e v a l e u r p r o p r e X^,
gale l e u r cosinus carr ( l e u r corrlation carre).
Les caractres et Y)^ se dduisent l ' u n de
l ' a u t r e p a r u n e s i m p l e a p p l i c a t i o n linaire :
- a i x l 4- . . . + a , x^ + . .. + p
De mme ir) = Yb
74
www.biblio-scientifique.net
L e s facteurs canoniques a et b peuvent tre calculs
directement.
E n posant :
Ai = X ( ' X D X ) ~ ' X D
Aa = Y ( ' Y DY)-i'YD
posons :
Vil = ' X D X
V = 'YDY
V = ' X D Y = 'V
75
www.biblio-scientifique.net
E n f i n a et b se dduisent Tun de l'autre par transformation
et en simplifiant :
b = 4r'^'V,i
de mme :
1
= -^vri^vb
E n i n t r o d u c t i o n , n o u s a v o n s soulign les d i f f i -
cults rencontres dans l ' u t i l i s a t i o n de l ' a n a l y s e
c a n o n i q u e . T o u t e f o i s , sur l ' e x e m p l e des s a u t e u r s de
T h o m a s , nous a l l o n s t e n t e r d'interprter les rsul-
tats o b t e n u s .
Les caractristiques des caractres tudis taient
les s u i v a n t e s :
iVfoyenne Ecart typt
76
www.biblio-scientifique.net
Matrice des corrlations du groupe 1 = V,i
TAIL POID DTH DTV FJAM VIT SAUL 3SAU
lAlL 1,00
pOlD 0,77 1,00
l>TiI 0,51 0.27 1,00
I)TV 0,16 0,04 0,62 1.00
I JAM 0,47 0,74 0.36 0.23 1,00
VIT 0,23 -0,09 0,43 0,33 0,05 1,00
SAUL 0.29 0.05 0,59 0,39 0,06 0,63 1.00
:!SAU 0,31 -0,02 0.64 0,47 0,05 0,54 0,67
NSAU 1,00
NELA 0,83 1,00
NIMP 0,80 0.79 1,00
NSUR 0,82 0,69 0,77 1,00
77
www.biblio-scientifique.net
Les corrlations canoniques sont reportes dans
le t a b l e a u s u i v a n t .
1 0,707 0.841
2 0,309 0,556
3 0.177 0.421
4 0.060 0.246
V- 5' i'
78
www.biblio-scientifique.net
Variablei canoniques i^u groupe 2
yf
y/ 1 /
r
79
www.biblio-scientifique.net
80
www.biblio-scientifique.net
a u x p e r f o r m a n c e s et a u x n o t e s , le t r i p l e saut
semble p l u s li l a n o t e d ' i m p u l s i o n q u ' l a n o t e
d'lan. Ces quelques rsultats a u r a i e n t p u tre
o b t e n u s en e x a m i n a n t de p l u s prs les corrlations
e n t r e caractres.
I V . Conclusion
o ,eW,.
O n m o n t r e aisment que z est s o l u t i o n de
m
( 2 A J Z = ti z
i-l
81
www.biblio-scientifique.net
D a n s le cas o m = 2 , o n o b t i e n t le s c h m a
s u i v a n t a u carr :
62
www.biblio-scientifique.net
CHAPITRE V
L'ANALYSE FACTORIELLE
DES CORRESPONDANCES
I . Prsentation de a mthode
C o m m e nous l ' a v o n s v u a u c h a p i t r e p r e m i e r , u n
t a b l e a u de c o n t i n g e n c e , o u t a b l e a u crois, est u n
t a b l e a u N d'effectifs n^j c o r r e s p o n d a n t l a v e n t i -
l a t i o n des i n d i v i d u s selon d e u x caractres q u a l i t a t i f s .
A i n s i le t a b l e a u s u i v a n t d o n n e l a rpartition
des n 202 100 baccalaurats dlivrs en 1976
83
www.biblio-scientifique.net
s- r
g o fi i-l
c Ae i l
(93 S S cl g
NonAre de baccaaurate (197$)
ILDF Ile-de-France 9 724 5 650 8 679 9 432 839 3 353 5 355 83 43 l i s
CHAH Champagne-Ardennes 924 464 567 984 132 423 736 12 4 242
PICA Picardie 1 081 490 830 1 222 118 410 743 13 4 907
HNOR Hante-Noimandie 1 135 587 686 904 83 629 813 13 4 850
CENT Centre 1 482 667 1 020 I 535 173 629 989 26 6 521
BNOR Baue-Nonaandie 1 033 509 553 1 063 100 433 742 13 4446
BOUR BooTgonie 1 272 527 861 1 116 219 769 1 232 13 6 009
NOPC Nord - Pw^^e-Calais 2 549 1 141 2 164 2 752 587 I 660 1 951 41 12 845
LORR Lorraine 1 828 681 1 364 1 741 302 1 289 1 683 15 8 903
ALSA Alsace 1 076 443 880 1 121 145 917 1 091 15 5 688
FRAC Franche- Comt 827 333 481 892 137 451 618 18 3 757
PAYL Paya de U Loire 2 213 809 1 439 2 623 269 990 14
1 783 10 140
BRET Bretagne 2 158 1 271 1 633 2 352 350 950 1 509 22 10 245
PCHA Poiton-Charentes 1 358 503 639 1 377 164 495 959 10 5 505
AQUI Aquitaine 2 757 873 1466 2 296 215 789 1 459 17 9 872
MU)I Midi-Pyrnes 2 493 1 120 1 494 2 329 254 855 1 565 28 10 138
LIMO Limousin 551 297 386 663 67 334 378 12 2 688
RHOA Rhne-AJpet 3 951 2 127 3 218 4 743 545 2 072 3 018 36 19 170
AUVE Auvergne 1 066 579 724 1239 126 476 649 12 4 871
LARO Languedoc-RoussilloD 1 844 816 1 154 I 839 156 469 993 16 7 287
PROV Provence-Alpea-Cte d'Azur 3 944 1645 2 415 3 616 343 1 236 2 404 22 15 625
CORS Corse 327 31 85 178 9 27 79 0 736
Eiuemblfl 45 593 2156S 32 738 46 017 S339 19 656 30 749 451 202 lOO
KSBmmmmmmim
www.biblio-scientifique.net
O n c o n s t a t e en L o r r a i n e u n e surreprsentation
des bacs t e c h n i q u e s E , F , G , et u n e sous-repr-
s e n t a t i o n des bacs classiques p a r r a p p o r t l a
moyenne nationale.
L e p r o f i l m a r g i n a l est aussi le p r o f i l m o y e n car
i l est l a m o y e n n e des p r o f i l s des lignes pondres
p a r l e p o i d s n^. de c h a q u e l i g n e .
6^ Si r c i p r o q u e m e n t o n v e u t s a v o i r de quelle
rgion p r o v i e n n e n t les bacheliers de chaque section
85
www.biblio-scientifique.net
o n calculera les profils des colonnes en d i v i s a n t les
efiectifs fijj de l a colonne j p a r n,j t o t a l de l a
colonne.
A u s s i le p r o f i l d u b a c est d o n n dans l e t a b l e a u
s u i v a n t (eu % ) :
Ce p r o f i l d o i t tre c o m p a r a u p r o f i l m a r g i n a l
des 22 rgions, t o u s baccalaurats c o n f o n d u s , q u i
mesure l a p a r t p r i s e p a r cbaque rgion dans l a
<( p r o d u c t i o n n a t i o n a l e de bacheliers.
On constate ainsi q u ' i l p r o v i e n t nettement plus
de bacheliers de l a P r o v e n c e , d u L a n g u e d o c -
R o u s s i l l o n et d u Midi-Pyrnes q u e ne l ' e x p U q u e
l a seule i m p o r t a n c e numrique de ces rgions.
o o
D,= 1.
O O
www.biblio-scientifique.net
le tableau renfermant hs p proflB des lignes est le produit
matriciel :
87
www.biblio-scientifique.net
0 1 0 0...0 x , = 1 0 0 0
88
www.biblio-scientifique.net
n o n i q u e s (, V)) les p l u s corrls possible. O n a
= X j a e t V] = X 2 b o a e t b s o n t les f a c t e u r s
canoniques.
E x a m i n o n s p o u r q u o i r e v i e n t c e t t e opration
l o r s q u e X j est u n t a b l e a u d ' i n d i c a t r i c e s e t p r e n o n s
p o u r xer les ides le t a b l e a u s u i v a n t 6 l i g n e s
e t 3 colonnes :
100
010
a =
010
001 0
Vooi;
89
www.biblio-scientifique.net
dicatrices et X 2 n o n centres, ce q u i n e p r -
sente a u c u n i n c o n v n i e n t m a t h m a t i q u e b i e n a u
c o n t r a i r e : en effet a s o m m e des i n d i c a t r i c e s d ' u n
m m e caractre v a u t t o u j o u r s 1 ( u n e m o d a l i t et
u n e seule est p r i s e p a r u n i n d i v i d u ) , l a s o m m e des
v e c t e u r s colonnes de X^^ est alors gale l a s o m m e
des v e c t e u r s colonnes de X g : c'est le v e c t e u r 1 d o n t
t o u t e s les c o m p o s a n t e s s o n t gales 1 .
90
www.biblio-scientifique.net
E n t r e les f a c t e u r s b et les f a c t e u r s a existe l a
relation :
h 1 - V - l V
soit I C I :
b=4=I>r^'Na et a=4=I>r^Nb
V A ^/k
Ces f o r m u l e s s o n t appeles f o r m u l e s de t r a n -
s i t i o n . Sous f o r m e d v e l o p p e o n t r o u v e :
6j S i et a,= ~-Y,fbi
D a n s n o t r e e x e m p l e , c o m m e q = 8 et p = 22
o n c b e r c h e r a d ' a b o r d les f a c t e u r s b et o n en dduira
ensuite les f a c t e u r s a p a r l a f o r m u l e de t r a n s i t i o n .
L a s o m m e des v a l e u r s p r o p r e s possde alors u n e
proprit intressante :
+ Xl + X2 + ...
Puisque XQ = 1 o n t r o u v e f a c i l e m e n t que :
Xl + Xa - f . . . - S 2 ^ ' - ^ - ^ = ^-
ce q u i n ' e s t a u t r e q u e l a mesure de d p e n d a n c e
d u X* e n t r e d e u x caractres q u a l i t a t i f s divise
par n (voir chapitre premier).
Les v a l e u r s p r o p r e s Xj tant les carrs des coeffi-
cients de corrlation c a n o n i q u e , les caractres ca-
91
www.biblio-scientifique.net
n o n i q u e s s o n t alors les couples de caractres n u m -
r i q u e s e x p l i q u a n t p a r o r d r e dcroissant l a d p e n -
dance e n t r e les d e u x caractres q u a l i t a t i f s d u
t a b l e a u de c o n t i n g e n c e .
E n a d o p t a n t l a mtrique e u c l i d i e n n e usuelle o n
risque de f a v o r i s e r les diffrences e n t r e les sections
f o r t e f f e c t i f o des v a r i a t i o n s f o r t e s s o n t fr-
q u e n t e s e t de nghger les sections f a i b l e e f f e c t i f
telles E e t H o o n n ' o b s e r v e q u e de f a i b l e s v a r i a -
t i o n s d ' u n e rgion l ' a u t r e .
Si o n v e u t viter ce p h n o m n e i l f a u t pondrer
c h a q u e caractre en t e n a n t c o m p t e de son i m p o r -
t a n c e sur l ' e n s e m b l e des rgions.
O n appelle mtrique d u p o u r les l i g n e s l a
mtrique diagonale
M,
92
www.biblio-scientifique.net
;.,.)= S - ^ ( ^ - ^ ) '
'^^ " j_in.j\ni. nkJ
ainsi d J . ( L O R R ; I L D F ) = 13,0 (1).
L a distance d u entre lignes possde entre autres p r o -
prits celle de ne pas tre modifie si on regroupe deux
colonnes a y a n t mme p r o f i l .
On peut de l a mme manire dfinir l a distance d u
entre les p r o f i l s des colonnes, p a r = n Dj" ^
Les f a c t e u r s p r i n c i p a u x s o n t d o n c i d e n t i q u e s a u x
f a c t e u r s c a n o n i q u e s b.
Les composa nt es p r i n c i p a l e s c o u c o o r do nn e s des
profils-lignes s ' o b t i e n n e n t en prmultipliant b p a r l e
t a b l e a u de donnes ( c = X u ) , s o i t c = D ^ ^ N b ;
d'aprs les f o r m u l e s de t r a n s i t i o n c n ' e s t donc
a u t r e q u e le f a c t e u r c a n o n i q u e o u p r i n c i p a l a m u l -
tipli p a r y/'X.
O n s'aperoit alors q u e I ' A C P d u n u a g e des p r o f i l s
93
www.biblio-scientifique.net
"2 0
94
www.biblio-scientifique.net
i l c o n v i e n t a v a n t t o u t de b i e n c o m p r e n d r e l e u r
m o d e de c o n s t r u c t i o n , d ' a u t a n t que diverses c o n v e n -
t i o n s s o n t possibles.
^2 bJ
y/X,b] a]
95
www.biblio-scientifique.net
96
www.biblio-scientifique.net
O n c o n s t a t e alors q u e T a x e 1 oppose T l l e - d e -
France l'Alsace et l a Lorraine d'une p a r t ; e t
d ' a u t r e p a r t les sections classiques ( A f i C D ) a u x
sections t e c h n i q u e s ( E F G H ) . O n m e t i c i e n v i -
dence u n p r e m i e r f a c t e u r de diffrenciation e n t r e
rgions : l a spciahsation t e c h n i q u e o u classique.
AM2
34K
ALSA NOPC
e
ILDF
AUVE Aa'l t
C ptCA M X
FRAC
CHAM MIQI
PROV
PAVL
Aaul
KHA
J . - H . BOVROCBB B TO . SA01ITA 4
www.biblio-scientifique.net
tance du faible). A i n s i TAlsace et l a Lorraine
q u i o c c u p e n t des p o s i t i o n s voisines sur le p l a n p r i n -
c i p a l o n t p e u prs l a m m e rpartition des bacca-
laurats. L'interprtation de l a p r o x i m i t e n t r e xme
m o d a l i t i d ' u n caractre e t u n e modalit j de
l ' a u t r e est p l u s prilleuse : o n p e u t s e u l e m e n t d i r e
q u e les i n d i v i d u s possdant l a m o d a l i t i o n t le
m m e c e n t r e de gravit que c e u x q u i possdent l a
modalit / . S o u v e n t , m a i s pas t o u j o u r s , c e t t e p r o x i -
mit rvle u n t r a i t caractristique : ainsi le p o i n t
Alsace est trs p r o c h e d u p o i n t F e t c'est
e f f e c t i v e m e n t en Alsace q u e l ' o n observe l a p l u s
g r a n d e p r o p o r t i o n de bacs F ( 1 6 , 1 % ) de m m e
p o u r le bac B e t l ' I l e - d e - F r a n c e (13,1 % ) ; m a i s
b i e n q u e le p o i n t E s o i t p r a t i q u e m e n t c o n f o n d u
avec le p o i n t L o r r a i n e , c'est dans l a rgion
N o r d - Pas-de-Calais q u e l a p r o p o r t i o n en est l a
p l u s g r a n d e (4,6 % c o n t r e 3,4 % ) .
98
www.biblio-scientifique.net
Contributions
Al A2 A3 A4
Points colonnes
Points lignes
99
www.biblio-scientifique.net
*-i i~\
L a p a r t de \e l a m o d a l i t i est donc piX'^^Y :
c'est l a c o n t r i b u t i o n de l a modalit i l ' a x e k ( 1 ) .
V o i c i e n p o u r c e n t a g e l a l i s t e des c o n t r i b u t i o n s des
p o i n t s a u x q u a t r e p r e m i e r s axes ( v o i r t a b l e a u p . 9 9 ) .
P o u r interprter les axes, o n recherche les c o n t r i -
b u t i o n s les p l u s i m p o r t a n t e s (en italique). L'inter-
prtation des d e u x p r e m i e r s axes a y a n t t d o i m e
p l u s h a u t , nous n ' y r e v i e n d r o n s pas. A f i n que l e
l e c t e u r ne s ' i m a g i n e pas q u e seuls d e u x axes o n t
u n intrt, e x a m i n o n s les renseignements apports
p a r le 3^ e t le 4^ axe. I l est c o u r a n t en p r a t i q u e
d'interprter j u s q u ' 5 axes.
L e 3^ axe reprsente essentiellement l e bac D e t
m e t e n v i d e n c e l e rle p a r t i c u l i e r de l a rgion
H a u t e - N o r m a n d i e : o n c o n s t a t e en r e t o u r n a n t a u x
donnes q u e c e t t e rgion prsente en effet l e p l u s
f a i b l e p o u r c e n t a g e de bacs D (18,6 % ) .
L ' a x e 4 q u i est li a u x bacs B e t E isole l a rgion
N o r d - Pas-de-Calais caractrise l a fois p a r i m
trs f o r t p o u r c e n t a g e de bacs E e t u n f a i b l e p o u r -
centage de bacs B .
B ) Proximits entre points et axes principaux (2).
C o m m e e n A C P o n u t i h s e l e cosinus carr de
l ' a n g l e e n t r e les i n d i v i d u s i c i p r o f i l s l i g n e e t les
profils colonne et l'axe p r i n c i p a l p o u r mesurer l a
qualit de l a reprsentation d a n s les p l a n s p r i n c i -
p a u x . L a s o m m e de ces cosinus carrs p o u r u n
m m e i n d i v i d u e t s u r tous les axes est gale 1.
100
www.biblio-scientifique.net
Cosinus carrs avec les axes
1. L e s donnes* O n relve s u r n i n d i v i d u s n o n
p l u s d e u x m a i s p caractres q u a l i t a t i f s . C'est en
p a r t i c u l i e r le cas des enqutes p a r q u e s t i o n n a i r e o
101
www.biblio-scientifique.net
1 / \
X, X.
/
2. L a mthode. L'analyse des correspondances
simples consistait appliquer l'analyse cano-
nique deux tableaux d'indicatrices. Puisqu'il y a
maintenant p tableaux d'indicatrices, on utilise la
gnralisation de l'analyse canonique propose par
J . D . Carroll (voir chap. I V , fin) qui consiste
reprsenter les individus au moyen de nouveaux
caractres z^, z^..., solutions de l'quation :
S A: Z == OZ
i-1
(1) Les rsultais utiliss Ici sont reproduits avec l'aimable auto-
risation du Centre d'Etudes d'Opinion (maison de Radio-France)
charg des enqutes d'audience auprs des tlspectateurs. Cette
tude a t ralise par D. Ralmondi et C. Chappe.
102
www.biblio-scientifique.net
Pour des tableaux d'indicatrices, cette gnrali-
sation possde la proprit remarquable suivante :
Rechercher les valeurs propres et les vecteurs propres
de S A j revient effectuer une analyse des correspon-
dances sur le tableau disjonctif considr comme un
tableau de contingence.
D e maniie prcise, si on effectue l'analyse des correspon-
dances sur X , les coordonnes des individus-lignes sur les
axes p r i n c i p a u x et les valeurs propres associes sont les vec-
1 v
teurs propres et les valeurs propres de ~
L a dmonstration se f a i t en recourant l'criture e x p l i c i t e
des projecteurs A j :
Ai = Xi{%DXi)-i'XiD
m
www.biblio-scientifique.net
d i r e It n o m b r e m o y e n de modalits m o i n s 1 . Chaque v a l e u r
propre tant infrieure I , le premier facteur reprsente une
p a r t d ' i n e r t i e ncessairement infrieure l'inverse de
Si les p caractres o n t 5 modalits en moyenne le p r e -
m i e r facteur ne pourra j a m a i s dpasser 25 % de l ' i n e r t i e .
L e tableau de contingence des baccalaurats d o n n a i t
une premire valeur propre reprsentant 56 % de l ' i n e r t i e .
L e passage l a f o r m e d i s j o n c t i v e d o n n e r a i t une trace de
( 22 4- 8
\
1j et le premier facteur ne p e u t e x t r a i r e
104
www.biblio-scientifique.net
lyse n*a pas besoin d'tre effectue sur la totalit des
tableaux des rponses mais seulement sur une partie.
Le diplme (4 modalits)
DIO DU DI2 DIS
sans infrieur bac ou encore
diplme au bac suprieur l'cole
Le sexe (2 modalits)
H I F
L*inertie t o t a l e v a l a i t donc 1 = 3,42.
iz
Les premires valeurs propres sont ;
0,340 (9,96 % )
0,285 (8,35 % )
0,249 (7.30 % ) .
105
www.biblio-scientifique.net
n se limitant au plan principal 1-2, on inter-
prte les axes de la manire suivante (les contri-
butions ne sont pas reproduites ici).
L'axe 1 spare, gauche du graphique, les
tlspectateurs de plus de 65 ans (G5), retraits
(CI9), seuls ( A l ) des tlspectateurs de 15 24 ans
( A G I ) , lves ou tudiants (CI7) encore l'cole
(DI3) qui sont droite du graphique.
L'axe 2 isole en haut les tlspectateurs d'ins-
truction suprieure ( D I 2 ) , cadres ou professions
librales (CI2, CI3), de 25 34 ans (AG2), de l'en-
semble des autres catgories, en particiJier des
agriculteurs (CIO) et des sans diplmes (DIO).
L* (lti
nclunt*
A3 CM Un* AngiliM
ramwiuqui
cil
ig liniifi
Monywowl"
,Un iur
' l f l l *
106
www.biblio-scientifique.net
A u centre du graphique on trouve le tlspecta-
teur moyen de l'chantillon qui correspond aux
ouvriers {CI5, C6).
Le sexe du tlspectateur ne semble pas tre u n
caractre trs discriminant. Sur cette grille d'inter-
prtation qui permet de structurer l'chantillon
selon deux axes (ge, niveau culturel), i l suffit
maintenant de projeter les rponses concernant l a
vision des diffrents films (centre de gravit des
individus prenant la modalit v u en totalit )
pour caractriser rapidement leur public. Bien en-
tendu une tude dtaille doit prendre en compte
les axes 3, 4, etc. (l'axe 4 tait ici caractristique
des agricidteurs). Les films tous publics se situant
au centre du graphique tandis que les films q u i
intressent seulement certaines catgories de tl-
spectateurs se dtachent nettement : ainsi La Flte
enchante^ opra film, se situe dans le quart nord-
ouest du graphique (tlspectateurs cultivs et
gs). Sous les yeux d'Occident, d'Y. Allgret avec
P. Fresnay (1936), et Nana avec Martine Carole
(1955) sont situs dans le quart sud-ouest (tl-
spectateurs moins cultivs et gs), tandis que Un
jour la fte, comdie musicale avec M . Fugain (1975),
semble caractristique des tlspectateurs jeunes
d'un milieu peu cultiv et le Zinzin d'Hollywood
de Jerry Lewis sur l'axe 1 droite a d tre v u
par des jeimes de tous les milieux.
I V . Conclusion
vers Fanalyse non linaire dea donnes
107
www.biblio-scientifique.net
page en classes de ses valeurs (ex. : le caractre
ge dcoup en classes d*ge), i l est possible d'tu-
dier des tableaux comportant u n mlange de carac-
tres numriques et qualitatifs : i l suflBt de t o u t
Tendre qualitatif et d'effectuer une analyse des cor-
respondances multiples. A la limite u n tableau
individus-caractres numriques que l'on tudie
usuellement par l'analyse en composantes princi-
pales peut tre rendu qualitatif, mis sous forme
disjonctive et soumis une analyse des correspon-
dances. Une telle dmarche peut surprendre puis-
qu' premire vue on perd de l'information en ren-
dant qualitatif u n caractre numrique. L'intrt
est qu'en procdant ainsi on peut prendre en
compte des liaisons non linaires ventuelles entre
caractres. E n effet, I'ACP repose essentiellement
sur l'tude des corrlations ; or le coefficient de
corrlation ne mesure que la forme plus ou moins
linaire de la dpendance entre deux caractres.
U n coefficient de corrlation voisin de zro ne si-
gnifie pas forcment q u ' i l y a indpendance ; i l peut
exister ime relation non linaire, paraboUque par
exemple. De plus, la recherche des composantes
principales est Umite par principe aux combinai-
sons linaires des caractres initiaux.
108
www.biblio-scientifique.net
CHAPITRE V I
L'ANALYSE DISCRIMINIVT
109
www.biblio-scientifique.net
titatifs ? Le b u t de l'analyse factorielle discrimi-
nante (AFD) est de rpondre cette question. Mais
prcisons ce problme l'aide d'un exemple.
Dans une exprience ralise par J.-C. Amiard,
23 poissons sont rpartis dans trois aquariums sou-
mis diffrents niveaux de contamination.
On dsire dterminer dans quelle mesure la conta-
mination des poissons est lie l'intensit de la
radiocontamination. Le caractre qualitatif prend
ici trois modalits : l'appartenance l ' u n des trois
aquariums. On mesure les quinze caractres quan-
titatifs suivants :
*> YEU Radioactivit des y e u x
BR Radioactivit dea branchies
OP Radioactivit des opercules
X* N A G Radioactivit des nageoires
x^ F O I Radioactivit d u foie
TUB Radioactivit d u t u b e digestif
x' EC Radioactivit des cailles
X* M U S Radioactivit des muscles
X* P O I Poids
x"> L O N Longueur
LONS Longueur staudard
LART L a r g e u r de l a tte
LAR Largeur
x" LARM Largeur d u museau
x" DYEU Diamtre des y e u x
110
www.biblio-scientifique.net
Ainsi sur l'exemple suivant, trois groupes sont
reprsents sur le plan des deux caractres et x^.
c
111
www.biblio-scientifique.net
k-l
W est appele matrice de variance intraclasse.
Soit enfin B la matrice de variance des p carac-
tres calcule sur le nuage des q centres de gravit
munis de leurs poids respectifs. B est appele matrice
de variance interclasse.
On montre alors facilement l a relation :
V = W + B.
La variance d u caractre c s'crit donc :
Il c||* = HiVa = W n + HiBn
US
www.biblio-scientifique.net
US
www.biblio-scientifique.net
x = ^ - < O . X . l ) .
2('uVu) B u 2('uBu) V a = 0
V - B u = Xu
lis
www.biblio-scientifique.net
116
www.biblio-scientifique.net
L'analyse discriminante peut donc tre prsente
comme une analyse canonicpie entre l'ensemble des
variables indicatrices associes au caractre expli-
quer et l'ensemble des caractres explicatifs.
Une fois de plus, l'analyse canonique apparat
comme une mthode gnrale permettant de d-
crire les liaisons entre deux ensembles de caractres.
117
www.biblio-scientifique.net
DYEU
1
LARM
LAR
ssi
LART
sSs-s
LONS
!-IS-S
LON
SlISsS
POI
slISSS
MUS
1 1 1 M 1
EC
2S3llsS-53
1 1 1 1 1 1 1
TUB
:-IS33S33l
mmm-
1 1 11 i1 11 I1
1 1 1 1
FOI
mmmm
1 M 1 1 M
NAG
OP
1 1 11 11i
!-3353l33S-3Ss
1i 1 M 1
1
BR
3Sl3i533S-S3S-3
11 11 11 1I M 1
1 1 1
YEU
2- o o o o cT o o cT o- <= o
1 M 1 1 i 1
www.biblio-scientifique.net
@ 2
2
119
www.biblio-scientifique.net
Facteurs
1 2 1 2
120
www.biblio-scientifique.net
groupe 1, les plus gros, se diffrencient sur le pre-
mier facteur et sont les moins contamins.
Les poissons du groupe 2 se diffrencient par une
plus forte contamination des muscles et sont en
position intermdiaire sur la plupart des autres
caractres.
121
www.biblio-scientifique.net
Prvision
Non-
Ava- ava-
lanche lanche
Etat Avalanche 38 19
de l a n a t u r e Non-avalanche 247 2 267
122
www.biblio-scientifique.net
mandeurs cfui ont la plus forte probabilit d'tre
des bons clients et rejeter les demandeurs qui
ont une bonne chance de terminer au contentieux.
Chaqpie candidat au prt doit remplir u n dossier
dont on extrait les caractres explicatifs. Sur un
chantillon de dossiers accepts, on observe le
comportement des clients qui sont ensuite rpartis
en deux catgories, les bons et les mauvais, ou en
trois catgories : les bons, les douteux, les mauvais.
L'analyse discriminante permet alors d'laborer
une rgle de dcision utilise dans un deuxime
temps pour slectionner les bons demandeurs. No-
tons que dans ce cas, la plupart des caractres
explicatifs sont qualitatifs.
I I I . Conclusions
( 1 ) D u n o m de T h o m a s B a y e s q u i l ' o n d o i t d ' I m p o r t a n t s t r a v a u x
s u r les probabilits c o n d i t i o n n e l l e s ( 1 7 6 3 ) . O n c o n s u l t e r a sur ce
sujet T . W . A N D B R S O N , Introduction to multii/ariate ttalittical ana-
Igsls. W U e y . I 9 5 S .
123
www.biblio-scientifique.net
124
www.biblio-scientifique.net
BIBLIOGRAPHIE
125
www.biblio-scientifique.net
116
www.biblio-scientifique.net
T A B L E DES MATIRES
INTRODUCTION 3
C H A P I T R E I I . L ' a n a l y M en cotnpowuitea p r i n c i p a l e * . . . 17
! . Prsentation de la m t h o d e , 17, I I . G o m t r i e des
caractres et des i n d i v i d u s , 2 2 . I I I . Recherche des c o m p o -
santes, axes et f a c t e u r s p r i n c i p a u x , 34. TV. Les rsultats
et l e u r interprtation, 3 7 . v . L ' a n a l y s e des t a b l e a u x de
proximits, 45.
CHAPITRE I I I . L a claasificatian 48
I , C l a s s i f i c a t i o n n o n hirarchique, 4 9 . 11. C l a s a l f l c a t i o n
hirarchique, 5 4 .
CHAPITRE I V . L ^ a n a l y w canonique 63
I . Prsentation de la m t h o d e , 6 4 . I I . F o r m u l a t i o n g o m -
t r i q u e , 67. I I I , Les rsultats et l e u r Interprtation, 7 6 .
I V . Conclusion, 8 1 .
BIBLIOGRAPHIE 125
127
www.biblio-scientifique.net
Imprim en France
Imprimerie des Presses Universitaires de France
73, avenue Ronsard, 41100 Vendme
Novembre 199a N " 38 645
www.biblio-scientifique.net
COLLECTION ENCYCLOPDIQUE
fonde par Paul Angoulvent
9 782130 4 5 0 8 3 2
2686 La lgion tiangie
A.-P. COUOH