Académique Documents
Professionnel Documents
Culture Documents
Analyses factorielles
simples et multiples
Objectifs, mthodes et interprtation
4e dition
Brigitte Escofier
Jrme Pags
Algeria-Educ.com
ANALYSES FACTORIELLES
SIMPLES ET MULTIPLES
Objectifs, mthodes et interprtation
ANALYSES FACTORIELLES
SIMPLES ET MULTIPLES
Objectifs, mthodes et interprtation
Brigitte Escoffier
Ancien professeur lUniversit de Rennes et lIUT de Vannes
Jrme Pags
Ingnieur agronome, professeur lAgrocampus de Rennes
4e dition
Introduction
10
11
12
13
15
17
21
24
27
31
31
34
42
49
55
60
vi
63
63
3.2 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
65
66
68
68
71
3.7 La dualit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
74
79
79
79
3.11 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
85
85
4.2 Objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
89
91
99
101
104
4.7 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
105
107
5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
107
5.2 Calcul des axes dinertie et des facteurs dun nuage de points .
107
112
5.4 Dualit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
115
121
123
vii
125
127
127
128
130
132
139
142
143
6.8 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
147
149
149
164
171
172
173
179
188
194
197
202
203
Mthodologie de lAFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
205
205
viii
211
219
223
223
228
240
257
10.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
266
269
11.1 Prolgomnes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
269
272
280
282
284
289
12 Fiches techniques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
295
295
299
301
Index systmatique
309
Bibliographie
317
Introduction
Lanalyse des donnes : outil de connaissance dans les domaines les plus divers
Depuis une trentaine dannes, les mthodes danalyse des donnes ont largement
dmontr leur efficacit dans ltude de grandes masses complexes dinformations.
Ce sont des mthodes dites multidimensionnelles en opposition aux mthodes de la
statistique descriptive qui ne traitent quune ou deux variables la fois. Elles permettent donc la confrontation entre de nombreuses informations, ce qui est infiniment
plus riche que leur examen spar. Les reprsentations simplifies de grands tableaux
de donnes que ces mthodes permettent dobtenir savrent un outil de synthse
remarquable. De donnes trop nombreuses pour tre apprhendes directement, elles
extraient les tendances les plus marquantes, les hirarchisent et liminent les effets
marginaux ou ponctuels qui perturbent la perception globale des faits.
Nes luniversit, elles ont dabord t connues essentiellement des chercheurs et
appliques des domaines scientifiques comme lcologie, la linguistique, lconomie,
etc. Elles ont permis daborder des tudes nouvelles plus riches et plus complexes.
Mais leur domaine dapplication dborde depuis longtemps ce cadre universitaire,
surtout depuis que lacquisition et le stockage des informations sont facilits par
le dveloppement de linformatique. Dans tous les domaines (marketing, assurance,
banque, etc.), dimportants fichiers de donnes sont accumuls. Le premier objectif est
de conserver les informations et de pouvoir les consulter facilement. Mais on saperoit
vite que pour exploiter lensemble de linformation contenue dans ces fichiers, dont le
recueil est souvent coteux, il est ncessaire de disposer doutils statistiques adapts.
Puissance des reprsentations gomtriques de lanalyse factorielle
Parmi les mthodes de lanalyse des donnes, lanalyse factorielle tient une place
primordiale. Elle est utilise soit seule, soit conjointement avec des mthodes de
classification (alors que ces dernires sont rarement appliques seules). Cette place de
choix tient en partie aux reprsentations gomtriques des donnes, qui transforment
en distances euclidiennes des proximits statistiques entre lments.
Elles permettent dutiliser les facults de perception dont nous usons quotidiennement : sur les graphiques de lanalyse factorielle, on voit, au sens propre du terme
Introduction
(avec les yeux et lanalyse assez mystrieuse que notre cerveau fait dune image), des
regroupements, des oppositions, des tendances, impossibles discerner directement
sur un grand tableau de nombres, mme aprs un examen prolong.
Ces reprsentations graphiques sont aussi un moyen de communication remarquable
car point nest besoin dtre statisticien pour comprendre que la proximit entre deux
points traduit la ressemblance entre les objets quils reprsentent.
Lanalyse factorielle ou les analyses factorielles ?
Les analyses factorielles ont t conues pour tudier un tableau de donnes unique. Or,
les personnes qui analysent des donnes sont de plus en plus frquemment confrontes
ltude simultane de plusieurs tableaux rectangulaires. Il sagit le plus souvent :
Introduction
Esprit du livre
Cet ouvrage est destin avant tout aux utilisateurs danalyse des donnes. Cest pourquoi il prsente des mthodes danalyse factorielle en tentant de dgager leurs objectifs
et les interprtations de leurs rsultats. Pour en faciliter la lecture aux non-spcialistes,
nous avons pris le parti de sparer le plus possible les aspects intuitifs des mthodes
(objectifs, principe gnral et reprsentations gomtriques), des aspects mathmatiques et thoriques. Les aspects intuitifs ne ncessitent quun trs faible bagage
statistique et mathmatique et sont donc abordables par beaucoup. Ils sont largement
comments sur quatre exemples.
Les aspects thoriques sont regroups essentiellement dans deux chapitres. Leur
but est de fournir les justifications des mthodes en prcisant les critres optimiss
et les algorithmes de calcul. La bibliographie est restreinte au minimum : lorsquune
dmonstration risque dalourdir trop le texte, une note en bas de page renvoie une
rfrence plus complte.
Les objectifs. Devant un jeu de donnes analyser, se pose le problme du choix du
traitement statistique, cest--dire du choix du couple indissociable codage-mthode.
Pour bien choisir, il est ncessaire de connatre les moyens dont on dispose, donc
les possibilits des mthodes qui peuvent rpondre chacune un certain nombre
dobjectifs prcis. La rflexion sur les objectifs dune tude est fondamentale. Elle est
plus efficace si elle se fait dans le cadre des possibilits techniques. Cette rflexion doit
toujours intervenir le plus tt possible car elle influe non seulement sur le traitement
statistique mais aussi sur le recueil mme des donnes.
Introduction
Ce livre contient la fois un rappel des mthodes classiques, des exposs des mthodologies danalyse des tableaux multiples bases sur ces dernires et une introduction aux
mthodes danalyse spcifiques de ces tableaux. Ces dernires ont t conues par les
auteurs et exposes dans le cadre de leurs recherches, mais cet ouvrage est le premier
qui en contient une prsentation gnrale destine aux utilisateurs. Linterprtation
des rsultats dune analyse factorielle, qui est avec le codage la phase la plus dlicate
de ltude, est illustre par quatre exemples tout le long du texte ; elle fait aussi lobjet
dune rflexion gnrale.
La premire partie du livre, qui comprend cinq chapitres, prsente les mthodes
classiques danalyse factorielle : lACP, lAFC et lACM. Le traitement dun exemple
par ACP donne loccasion de prsenter une mthode de classification et son dpouillement conjointement avec celui dune analyse factorielle. Une prsentation formalise
de lACP, de lAFC et de lACM, incluant les dmonstrations essentielles, est faite
dans un cadre commun ces trois mthodes.
La deuxime partie est consacre aux tableaux multiples. Les chapitres 6, 7, 8 et 9
concernent ltude simultane de plusieurs tableaux croisant les mmes individus et
diffrents groupes de variables numriques ou qualitatives. Le chapitre 6 commente
plusieurs traitements de la mme enqute par les mthodes classiques. Cest la fois
une illustration des mthodes prsentes dans les premiers chapitres, une rflexion
sur les objectifs gnraux de ltude de tableaux comprenant plusieurs groupes de
variables, et un bilan sur lintrt et les limites des mthodologies bases sur ces
mthodes. Lanalyse factorielle multiple (AFM), conue pour ce type de donnes,
est introduite dans le chapitre 7 partir des rsultats issus de son application un
second exemple ; sa prsentation complte constitue le chapitre 8 ; une rflexion sur
son utilisation constitue le chapitre 9. Le chapitre 10 traite des tableaux de frquence
ternaires et plus gnralement de ltude simultane de plusieurs tableaux de frquence
binaires. Bien quil sagisse comme dans les quatre chapitres prcdents de tableaux
multiples, la nature des donnes (frquences au lieu de variables) implique des objectifs
fondamentalement diffrents. Ce chapitre tente den dgager les principaux et illustre
sur un mme exemple les mthodologies drives de lAFC et une technique nouvelle,
baptise analyse intra, qui permet dtudier un aspect spcifique des tableaux de
frquence ternaire : les liaisons conditionnelles.
La dernire partie, rduite un chapitre, est entirement consacre linterprtation
des rsultats en analyse factorielle. Elle est issue en partie des rflexions dun groupe de
Introduction
travail1 runi par lADDAD2 dans le cadre dun contrat avec la Socit THOMSON.
A partir des expriences confrontes et du regroupement de commentaires pars
dapplications danalyse factorielle, nous avons construit un guide. Ce guide propose
une dmarche gnrale dinterprtation en analyse factorielle en diffrenciant ACP,
AFC, ACM et AFM.
Il est conseill aux lecteurs novices en analyse des donnes de commencer la lecture
de cet ouvrage par les deux premires fiches techniques incluses dans le chapitre 12.
Ces deux fiches dtaillent les reprsentations gomtriques des nuages dindividus
et de variables utilises systmatiquement en analyse factorielle. La troisime fiche,
plus technique, est destine plutt aux lecteurs qui souhaitent approfondir les aspects
mathmatiques et thoriques dvelopps dans les chapitres 5 et 8.
Lindex systmatique reprend lensemble des notions essentielles.
Note sur la quatrime dition
Pour cette quatrime dition, le texte a t rvis et augment notamment sur deux
points qui correspondent une demande croissante des utilisateurs :
1. lanalyse simultane de variables quantitatives et qualitatives, sans transformer
les variables quantitatives ; pour cela, une prsentation de lanalyse factorielle
sur donnes mixtes (AFDM) a t incluse ;
2. la prise en compte dune structure hirarchique sur les variables dans un tableau
individusvariables ; lexemple classique est celui dun questionnaire dont les
questions sont structures en thmes et sous-thmes ; ce livre contient maintenant une prsentation de lAnalyse Factorielle Multiple Hirarchique (AFMH),
prolongement naturel de lAFM adapt ce type de donnes.
Ces mthodes, ainsi que toutes celles dcrites dans ce livre, sont dsormais disponibles
dans FactoMineR, logiciel libre danalyse des donnes dvelopp par le laboratoire de
mathmatiques appliques dAgrocampus.
Au terme de ce travail, il est agrable de remercier Radwan JALAM, ingnieur
informaticien Agrocampus, qui a assur la mise en forme de cette nouvelle dition.
1. Ch. Bastin, Ch. Bourgarit, J. Confais, B. Escofier, B. Gomel, J.P. Fnelon, J.Pags.
2. LAssociation pour le Dveloppement et la Diffusion de lAnalyse des Donnes diffuse aussi les
logiciels correspondants toutes les mthodes dcrites
Chapitre 1
Variables
k
Individus
xik
I
Figure 1.1 Tableau des donnes en ACP. xik : valeur de la variable k pour lindividu i. I : nombre
dindividus et ensemble des individus. K : nombre de variables et ensemble des variables.
Les termes individu et variable recouvrent des notions diffrentes. Par exemple,
dans le tableau tudi au chapitre 6, les individus sont des vins et les variables sont
des critres dcrivant ces vins (acidit, astringence, etc.). Les questions que lon se
pose sur les individus et celles que lon se pose sur les variables ne sont pas de mme
nature.
propos de deux individus, on essaie dvaluer leur ressemblance : deux individus
se ressemblent dautant plus quils possdent des valeurs proches pour lensemble des
variables. En ACP, la distance d(i,l) entre deux individus i et l est dfinie par :
d2 (i, l) =
(xik xlk )2
kK
propos de deux variables, on essaie dvaluer leur liaison. En ACP, la liaison entre
deux variables est mesure par le coefficient de corrlation linaire (dans de rares
situations, on utilise la covariance), not usuellement r . Soit :
r (k, h) =
=
covariance(k, h)
variance(k) variance(h)
1
xik xk
xih xh
I
sk
sh
iI
Dans la plupart des cas, les individus jouent le mme rle. Nous nous sommes situs
implicitement dans cette situation jusquici, en affectant le mme poids chaque
individu. Par commodit, on choisit ces poids tels que la masse totale de ces individus
soit gale 1 : chaque individu on associe alors le poids 1/I . Toutefois, dans certains
cas, on peut souhaiter attribuer des poids diffrents aux individus. Cette situation se
prsente notamment lorsque les individus reprsentent chacun une sous-population ;
on affecte alors un individu un poids proportionnel leffectif de la sous-population
quil reprsente. Ce poids intervient dans le calcul de la moyenne de chaque variable
(cest--dire dans la dfinition dun individu thorique moyen), dans le calcul de la
variance de chaque variable et dans celui de la mesure de liaison (le coefficient de
corrlation)
entre les variables. Soit, en appelant pi le poids affect lindividu i
( i pi = 1) :
xk =
pi xik sk2 =
pi (xik xk )2
i
r (k, h) =
i
pi
xik xk
sk
xih xh
sh
Les programmes complets dACP permettent tous dintroduire des poids dindividus.
b) Poids des variables
Nous avons accord jusquici la mme importance a priori aux diffrentes variables.
On est trs rarement conduit, dans la pratique, souhaiter leur affecter des importances
diffrentes. tel point que les programmes courants dACP ne le permettent pas. Cette
importance peut tre module laide dun coefficient appel poids de la variable. En
appelant m k le poids de la variable k, la distance entre deux individus i et l est dfinie
par :
10
d2 (i, l) =
m k (xik xlk )2
kK
Toutefois, comme nous le verrons dans le chapitre 5 qui contient lensemble des
rsultats techniques concernant les analyses factorielles, ces poids ne modifient en rien
les principes gnraux de lanalyse. Afin de ne pas alourdir lexpos de ce chapitre,
nous considrons dans la suite que les individus possdent le mme poids ( pi = 1/I
quel que soit i I ) ainsi que les variables (m k = 1 quel que soit k K ).
11
RK
NI
Individus
i
i
xik xk
sk
O=G
xik xk
sk
variable k
Figure 1.2 Tableau des donnes et nuage des individus associ dans lespace R K . Du fait du
centrage, lorigine des axes est confondue avec le centre de gravit du nuage.
12
factorielles en gnral, et dans ce cas particulier de lACP, qui fournissent des images
planes approchant le mieux possible (au sens dun critre dfini et discut section 1.5)
un nuage de points situ dans un espace de grande dimension.
Variables
1
Individus
NK
h
k
xik xk
sk
individu i
xik xk
sk
Figure 1.3 Tableau des donnes et nuage des variables associ dans lespace R I .
13
Ainsi, lorsque les variables sont centres rduites, chaque variable a pour longueur 1 : le nuage N K est alors situ sur une sphre de rayon 1 (on dit aussi
hypersphre pour rappeler que R I est de dimension suprieure 3). Pour cette
raison, lACP sur donnes centres-rduites est dite ACP norme. Lorsque les
variables sont seulement centres, leur longueur est gale leur cart-type et on
parle alors dACP non norme.
2. Le cosinus de langle form par les vecteurs reprsentant les deux variables h
et k, obtenu en calculant le produit scalaire not h, k entre ces deux vecteurs
norms, est gal au coefficient de corrlation entre ces deux variables. Soit :
1 xih xh xik xk
cos(h, k) = h, k =
= corrlation(h, k)
I
s
s
h
k
i
Linterprtation dun coefficient de corrlation comme un cosinus est une proprit
trs importante puisquelle donne un support gomtrique, donc visuel, au coefficient
de corrlation. Cette proprit ncessite le centrage, ce qui justifie cette transformation
prsente section 1.1 comme un intermdiaire technique. Elle justifie aussi le choix de
la distance (on dit aussi mtrique) dans R I et implique que, dans la reprsentation des
variables, on sintresse surtout aux directions dtermines par les variables, cest-dire aux vecteurs plutt qu leurs extrmits.
La longueur des vecteurs reprsentant les variables tant gale 1, la coordonne
de la projection dune variable sur une autre sinterprte comme un coefficient de
corrlation.
Conclusion
Raliser un bilan des coefficients de corrlation entre les variables revient tudier les
angles entre les vecteurs dfinissant le nuage N K . Cette tude directe est impossible du
fait de la dimension de R I . Lintrt de lACP est de fournir des variables synthtiques
qui constituent un rsum de lensemble des variables initiales et sont la base dune
reprsentation plane approche des variables et de leurs angles.
14
premiers axes u 1 et u 2 rend maximum linertie projete sur ce plan. Il en est de mme
pour le sous-espace engendr par les trois premiers axes, etc.
NI
RK
i
u1
Hi
G=O
u2
Il est quivalent de rendre maximum i O Hi2 ou de rendre minimum i i Hi2 .
Cette deuxime criture, forme classique du critre des moindres carrs, montre que les
axes factoriels rendent minimum lcart entre le nuage des individus et sa projection.
Du fait du centrage, le critre (inertie maximum par rapport au centre de gravit G)
permet dinterprter les axes factoriels comme des directions dallongement maximum
du nuage N K . On parle aussi de principales dimensions de variabilit, dans la mesure
o ils rendent compte le plus possible de la diversit des individus.
On peut montrer que, toujours
du fait
maximum i O Hi2
du centrage, rendre
est quivalent rendre maximum i l (O Hi O Hl )2 . Cette dernire forme fait
apparatre les distances entre points projets. La projection ne pouvant que rduire la
distance entre points, les axes factoriels apparaissent comme les directions telles que
les distances entre points projets ressemblent le plus possible aux distances entre les
points homologues de N I (cf. Figure 1.5).
Selon les objectifs dune analyse, on mettra en avant lune ou lautre des interprtations du critre.
Individus supplmentaires (= illustratifs)
Frquemment, on souhaite que certains individus ninterviennent pas dans la dtermination des axes ; par contre, on souhaite connatre la position de leur projection sur les
15
RK
NI
i
u1
l
Hi
Hl
2
Figure 1.5 La reprsentation des
distances
(O H
2 inter-individuelles. Laxe u 1 rend i l
i O Hl )
maximum, cest--dire est tel que i l d (Hi Hl ) est le plus proche possible de i l d2 (i, l).
axes dtermins par les autres individus (dits actifs). Tous les programmes prvoient
cette situation ce qui revient mettre un poids nul certains individus au niveau du
critre dajustement.
Ces individus sont appels individus supplmentaires (ou illustratifs). On introduit
un individu en supplmentaire lorsque lon souhaite quil participe linterprtation
des plans factoriels mais non leur construction. Cest le cas lorsque lon dispose
dindividus prsentant des caractres exceptionnels, ou suspects davoir t lobjet
derreurs de mesures, ou enfin nappartenant pas au champ strict de ltude mais un
domaine voisin.
16
RI
1
NK
k
Hk
v1
v2
1
Composantes principales
Les variables, comme les individus, peuvent tre traites en lments supplmentaires.
Les variables supplmentaires sont simplement projetes sur les axes dtermins par
les autres variables, dites actives. Cela permet de visualiser les corrlations entre
nimporte quelle variable, mme extrieure au domaine tudi, et les composantes
principales.
Leffet taille
Si, dans un jeu de donnes, les variables sont toutes corrles positivement deux
deux, alors le nuage N K est loin de lorigine. Le premier axe factoriel rend alors
surtout compte de la position de N K par rapport lorigine : paralllement, la forme
17
du nuage N K est mal reprsente en ce sens que les projections des variables sont
proches les unes des autres (cf. Figure 1.7).
RI
NK
v1
1
Figure 1.7 Leffet taille dans R I . Les variables, tant corrles positivement deux deux, forment
entre elles des angles aigus. Le nuage N K est concentr sur un petit secteur de la sphre. La
projection des variables sur le premier axe factoriel, dfini par v1 , rend compte principalement de
la position de N K par rapport O.
1.7.1 Inerties
Tout dabord, leur inertie totale est la mme ; elle est gale au nombre de variables
(lorsque les variables sont rduites) :
2
1 xik xk
Inertie totale de N I (ou de N K ) =
=K
I
sk
k
La projection de chacun de ces deux nuages sur une suite daxes orthogonaux
correspond une dcomposition de linertie totale. On peut montrer que les deux
18
dcompositions sont identiques : les inerties des nuages N I et N K projets sur les axes
factoriels de mme rang sont gales (et notes ls ). Soit, pour les axes de rang s :
Inertie(N I /u s ) = Inertie(N K /vs ) = ls
1.7.2 Facteurs
Lensemble des projections de tous les points du nuage dindividusN I sur le s e axe
factoriel u s , appel s e facteur sur les individus, constitue une nouvelle variable note
Fs . On montre, dans la section 5.4.1, que cette variable se confond, la norme prs,
avec la s e composante principale vs obtenue dans lanalyse du nuage des variables.
Plus prcisment, le carr de la norme du facteur Fs (vecteur de R I ), tant la somme
des carrs de ses coordonnes, vaut ls ; la relation entre le s e facteur sur I et le s e axe
factoriel de R I scrit donc :
1
vs = Fs
ls
Ces rsultats sont illustrs dans la figure 1.8.
Ainsi, les projections planes des individus dans R K sont des reprsentations graphiques des couples de variables synthtiques obtenues dans R I . Les rsultats issus de
ltude de chacun des deux nuages possdent fondamentalement la mme signification,
mme sils sexpriment en termes dindividus pour lun et en termes de variables pour
lautre.
Fs
RK
RI
1
NI
i
NK
us
Fs(i)
i Fs(i)
Fs
vs
1
I
Figure 1.8 Une des deux formes de la dualit. Les coordonnes de N I sur u s (s e axe factoriel de
N I ) constituent le s e facteur sur les individus (not Fs ). Le vecteur Fs dans R I est colinaire vs
(s e axe factoriel de N K ).
19
Le rle du nuage des individus et celui du nuage des variables sont, dans une certaine
mesure, symtriques et la dualit se formule de manire analogue en changeant le
rle des deux nuages : la projection des K variables sur le s e axe factoriel vs de leur
nuage N K dfinit une valeur pour chacune des K variables : ces valeurs constituent le
s e facteur sur les variables (not G s ) qui est en quelque sorte un individu nouveau.
Cette notion dindividu type est moins classique que celle de composante principale
(pratiquement, on prend plutt des individus rels comme individus types). Cependant,
dans quelques cas particuliers, comme celui o les individus sont des courbes et les
variables leurs valeurs en K points de discrtisation, ces individus sont reprsentables
et de ce fait utiliss.
On montre que le point reprsentant dans R K cet individu type est situ sur le s e
axe du nuage des individus. Plus prcisment :
1
us = Gs
ls
Cette relation montre que, au coefficient ls prs, les coordonnes des variables
sur vs sont les coefficients de la combinaison linaire des variables que constitue
laxe u s de R K . Ainsi, la coordonne de la variable k sur vs sinterprte la fois
comme le coefficient de corrlation entre k et vs et comme le coefficient de k dans u s ;
cette double interprtation est caractristique des axes principaux et essentielle dans
linterprtation ( linverse, penser aux difficults dinterprtation des coefficients de
la rgression multiple quand ils ne sont pas de mme signe que les coefficients de
corrlation associs). Ce rsultat est illustr dans la figure 1.9.
RI
1
Gs
1
NK
k
RK
NI
vs
Gs(k)
Gs
i Gs(k)
us
var k
Gs(k)
1
I
Figure 1.9 La deuxime forme de la dualit. Les coordonnes de N K sur vs ( s e axe factoriel de
N K ) constituent le s e facteur sur les variables (not G s ). Le vecteur G s dans R K est colinaire au s e
axe factoriel u s de N I .
20
1 1 xik xk
Fs (i)
I ls
sk
i
La premire relation exprime le fait que la projection Fs (i) dun individu i, est une
combinaison linaire des projections G s (k) de toutes les variables. Dans cette combinaison linaire, le coefficient dune variable k est positif si la valeur xik de cette
variable pour lindividu i dpasse la moyenne xk . Dans le cas contraire, ce coefficient
est ngatif. Ainsi, lorsque lon regarde simultanment les deux graphiques, un individu est du ct des variables pour lesquelles il a de fortes valeurs et loppos des
variables pour lesquelles il a de faibles valeurs.
Le graphique des individus est une reprsentation approche des distances interindividuelles. Celui des variables peut tre considr en tant qulment explicatif
de cette reprsentation : deux individus situs une mme extrmit dun axe sont
proches car ils ont tous deux gnralement de fortes valeurs pour les variables situes
du mme ct queux et de faibles valeurs pour les variables situes loppos.
Rciproquement, le graphique des individus peut intervenir en tant quaide linterprtation du graphique des variables : si deux variables sont trs corrles positivement,
elles sont situes du mme ct sur un axe. Sur laxe correspondant du nuage dindividus, les individus qui ont de fortes valeurs pour ces deux variables se situent du mme
ct quelles et ceux qui ont de faibles valeurs se situent loppos. Les individus
extrmes pour ces variables sont loin de lorigine. Les ventuels individus particuliers
induisant eux seuls des corrlations fortes sont ainsi reprs facilement.
Ainsi, en ACP, le graphique des individus et celui des variables sont la fois
optimaux en eux-mmes (ils reprsentent le mieux possible lun les individus lautre
les variables) et se servent mutuellement daides linterprtation. Cette proprit liant
les reprsentations des lignes et des colonnes vaut pour toutes les analyses factorielles
et leur est spcifique.
21
rapport ls .
Notre prfrence va la 1e reprsentation superpose, fonde sur les relations de
transition donnes plus haut, car elle permet dinclure les variables supplmentaires.
Les donnes brutes. Lignes (individus) et colonnes (variables) ne jouent pas des
rles symtriques : les moyennes et les variances nont gnralement de sens
que pour les colonnes.
22
Variables
k
K
individus
x ik
I
3
1
xik xk
sk
xik xk
sk
xik xk
sk
i
I
RK
RI
NI
NK
6
h
k
individu i
O
variable k
O=G
xik xk
sk
AF
xik xk
sk
AF
11
F2
G2
10
relations
de transition
9
i
k
1
F1
12
G2 F2
i
k
1
G1
F1
r(k,F1)
G1
2.
23
Les donnes centres et rduites. Que lon sintresse aux individus ou aux
variables, le tableau est transform de la mme faon. Le centrage est surtout
technique. La rduction permet de saffranchir de larbitraire des units de
mesure.
3 et 4. Dans ltude des individus, le tableau est considr comme une juxtaposition
de lignes. Dans ltude des variables, le tableau est considr comme une
juxtaposition de colonnes. Cest le mme tableau qui est considr de deux
faons diffrentes.
5.
Un individu est une suite de K nombres et peut tre reprsent par un point
de R K . Dans le nuage N I , on sintresse aux distances inter-individuelles qui
sinterprtent comme des ressemblances. Du fait du centrage, lorigine des axes
est confondue avec le centre de gravit de N I . Dans la plupart des cas, on affecte
chaque individu le mme poids : 1/I .
6.
Une variable est une suite de I nombres et peut tre reprsente par un vecteur
de R I . Dans le nuage N K , on sintresse surtout aux angles entre variables. Le
cosinus dun angle entre deux variables sinterprte comme le coefficient de
corrlation entre les deux variables. Du fait de la rduction, toutes les variables
sont quidistantes de lorigine et donc situes sur une hypersphre de rayon 1.
7 et 8. LAnalyse Factorielle (AF) dun nuage consiste mettre en vidence une suite
de directions telles que linertie, par rapport O, de la projection du nuage
sur ces directions est maximum. Dans R K , o lorigine O est confondue avec
le centre de gravit G, les axes factoriels sont les directions dallongement
maximum de N I . Dans R I , o la projection dune variable sur une autre sinterprte comme un coefficient de corrlation, les axes factoriels sont les variables
synthtiques les plus lies lensemble des variables initiales.
9.
Le plan factoriel croisant deux facteurs sur les individus -ici F1 (I ) et F2 (I )fournit une image approche de N I dans R K . La distance entre deux points
sinterprte comme une ressemblance.
10.
Le plan factoriel croisant deux facteurs sur les variables -ici G 1 (K ) et G 2 (K )fournit une image approche de N K dans R I . Les coordonnes dune variable
sinterprtent comme des coefficients de corrlation avec les facteurs sur les
individus.
11.
Les relations de transition expriment les rsultats dune AF (par exemple dans
R I ) en fonction des rsultats de lautre (par exemple dans R K ).
12.
Du fait des relations de transition, les interprtations des axes factoriels doivent
tre menes simultanment. Il peut tre commode de superposer ces deux
reprsentations.
24
1.9.1 Dfinitions
a) Qualit de reprsentation dun lment par un axe
Cest aussi le cosinus carr de langle u entre Oi et laxe s (cf. Figure 1.11).
QLTs (i) =
(O His )2
= cos2 u
(Oi)2
i
us
O
s
Hi
Figure 1.11 Qualit de reprsentation dun lment par un axe. His : projection de i sur laxe de
rang s
25
Un axe factoriel rend maximum (sous contrainte dorthogonalit avec les axes prcdents) linertie projete dun nuage. Cette inertie projete du nuage peut tre dcompose point par point. Le quotient de linertie de la projection de llment i (de poids
pi ) sur laxe s [soit pi (O His )2 ] par linertie de la projection de lensemble du nuage
sur laxe s (soit ls ) reprsente la contribution de llment i linertie de laxe s. Soit,
en notant CTRs (i) la contibution de llment i laxe de rang s :
2
pi O His
C T Rs (i) =
ls
Cet indicateur se gnralise un sous-ensemble dlments. La contribution dun
ensemble de points linertie dun axe est la somme des contributions des points
26
A
B
C
D
E
F
G
Pour F1
QLT1 CTR1
0
0
0
0
1
.026
1
.263
1
.047
.692
.332
.692
.332
G (.07)
B (.15)
D (.5)
-1
F1
C (.05)
E (.01)
A (.15)
F (.07)
Figure 1.12 Nuage plan pondr reprsent dans ses axes principaux. Les poids figurent entre
parenthses. QLT1 , CTR1 : qualit de reprsentation et contribution (pour le premier axe).
a) Coordonnes sur F1
32
inertie projete de G
Exemple : QLT1 (G) = inertie totale de G = 2
= .692
(3 + 22 )
Les points D, C et E, situs sur laxe, ont une qualit de reprsentation gale 1.
Leurs distances dans le plan ( lorigine et entre eux) sont compltement traduites
dans leur projection sur F1 . Les points D et E, la fois extrmes et bien reprsents,
sont caractristiques de laxe : lexamen de leurs diffrences avec la moyenne et entre
eux permet de prciser lopposition traduite par F1 . Rciproquement, toute valeur de
E et de D qui scarte de la moyenne sinterprte par F1 .
27
Les points A et B, situs dans une direction orthogonale laxe 1, ont une qualit
de reprsentation sur le premier axe gale 0 : ni leur cart par rapport lorigine, ni
leur distance dans le plan ne sont visibles sur le premier facteur.
Les points F et G, extrmes, ont une qualit de reprsentation moyenne : bien que
trs marqu pour le facteur F1 , leur cart la moyenne nest quen partie traduit par
lui.
Contribution linertie de F 1
Exemple : inertie du nuage (l1 ) : .5(1)2 + .05(1)2 + .01(3)2 + .07(3)2 + .07(3)2 = 1.9
CTR1 (F) = inertie du point F/ inertie du nuage = (.07 32 )/1.9 = .332
Les points A et B ont une coordonne nulle, donc une contribution nulle. Le point
C est proche de O et a un petit poids : sa contribution est extrmement faible. La
suppression de ces trois points ne modifierait pas la direction du premier facteur.
Les points E et F ont la mme coordonne mais E, ayant un poids 7 fois plus faible
que F, a une contribution 7 fois plus faible. La suppression de E risque moins de
modifier le facteur que celle de F, pourtant moins bien reprsent.
Le point D, malgr son poids gal plus de 7 fois celui de F, a une contribution plus
faible car il est situ plus prs de lorigine (dans la contribution linertie, la distance
intervient par son carr alors que le poids intervient tel quel).
28
29
Remarque
La taille dune ellipse ainsi obtenue dpend de la variabilit (dans le plan factoriel)
des individus prsentant la modalit tudie mais aussi de son effectif.
Lutilisation pratique des ellipses de confiance sarticule autour de deux questions
relatives aux modalits.
La modalit m est-elle caractrise par le plan factoriel ? Autrement dit, les individus possdant la modalit m occupent-ils (dans lensemble) une position excentre
sur le plan ? Pour cela, on examine la position de lorigine des axes, centre de gravit
de lensemble I , par rapport lellipse de confiance de m. Si cette ellipse englobe
lorigine, on dcidera que la modalit m (i.e. les individus possdant cette modalit)
nest pas caractrise par le plan.
Les deux modalits m et m sont-elles diffrencies par le plan ? Autrement dit,
les individus possdant la modalit m occupent-ils, dans lensemble, la mme rgion
du plan que ceux possdant la modalit m ? Pour cela, on examine le recouvrement
entre les deux ellipses associes aux modalits m et m . Une absence de recouvrement
conduit dcider que le plan diffrencie les deux modalits et, linverse, un fort
recouvrement conduit dcider dune non diffrenciation. Un recouvrement faible
laisse la place au doute : pour aider sa dcision, lutilisateur peut calculer la probabilit
critique du test statistique T2 de Hotelling appliqu la comparaison des deux
modalits du point de vue des deux composantes principales tudies considres
simultanment.
Les questions concernant la position des modalits sur un plan peuvent tre poses
pour chaque axe. Pour cela, en projetant les ellipses sur chaque axe, on obtient un
intervalle de confiance que lon peut utiliser comme un intervalle de confiance usuel.
Il existe aussi un indicateur, appel valeur-test et introduit initialement dans le logiciel
SPAD, qui permet de juger, pour un axe factoriel (et, plus gnralement pour nimporte
quelle variable), de lcart entre le centre de gravit dune classe et le centre de gravit
gnral (cf. section 2.4.4 page 54).
Chapitre 2
Le commentaire de lACP dun petit tableau permet dillustrer les rgles et la dmarche
dinterprtation dune ACP (voir aussi chapitre 11). Nous en prsentons un ci-aprs.
En pratique, le dpouillement des rsultats dune analyse factorielle saccompagne
gnralement de celui des rsultats dune classification ascendante hirarchique (CAH)
ralise sur les mmes donnes. Lobjet de ce livre, ddi aux analyses factorielles,
exclut une prsentation gnrale des mthodes de classification. En revanche, il a
paru utile daccorder quelque place lnonc des principes rgissant la mthode
de classification ascendante hirarchique la plus utilise simultanment aux analyses
factorielles (la mthode de Ward) et lillustration du dpouillement conjoint des
rsultats des deux mthodes.
Les donnes utilises pour illustrer lACP serviront introduire ces lments de
classification.
32
janv fvr mars avri mai juin juil ao sept octo nove dce
Bordeaux
Brest
Clermont
Grenoble
Lille
Lyon
Marseille
Montpellier
Nantes
Nice
Paris
Rennes
Strasbourg
Toulouse
Vichy
5.6
6.1
2.6
1.5
2.4
2.1
5.5
5.6
5.0
7.5
3.4
4.8
.4
4.7
2.4
6.6
5.8
3.7
3.2
2.9
3.3
6.6
6.7
5.3
8.5
4.1
5.3
1.5
5.6
3.4
9.1
9.0
6.6
6.5
6.1
6.7
10.2
10.0
8.2
11.5
7.1
7.8
4.9
8.6
6.6
15.4
10.2
16.8
18.6
14.7
18.6
17.8
17.1
13.8
15.2
15.7
13.1
18.6
16.2
16.9
Moyenne
4.0 4.8 8.2 11.0 14.4 17.8 19.8 19.6 17.0 12.3 7.9 4.9 46.0 2.58 11.8 15.9
Ecart-type 1.94 1.81 1.48 1.37 1.45 1.73 2.06 1.94 1.79 1.77 1.74 1.89 2.22 3.21 1.55 2.25
2.1.2 Problmatique
Le but gnral de ltude est de comparer les tempratures mensuelles des diffrentes
villes. Prcisons quelques questions auxquelles les rsultats de lACP permettent de
rpondre en abordant le tableau successivement travers ses lignes et travers ses
colonnes.
a) Point de vue des lignes (ou individus : les villes)
Chaque ville est caractrise par ses 12 tempratures moyennes mensuelles. Quelles
sont, de ce point de vue, les villes qui se ressemblent ? Quelles sont celles qui diffrent ? Plus gnralement, peut-on faire une typologie des villes mettant en vidence
lensemble des ressemblances ainsi dfinies ? En ACP, la dissemblance entre les individus est mesure par une distance (cf. section 1.1 page 7). Ici, le carr de la distance
entre deux villes est la somme des carrs des douze diffrences entre leurs tempratures
moyennes mensuelles. Cela traduit bien la notion souhaite de proximit. Cette typologie faite, on peut se demander si ces ressemblances (ou dissemblances) correspondent
des proximits (ou des loignements) gographiques.
Ltude des individus revient donc analyser leur variabilit. Un point de vue voisin
de celui de typologie consiste mettre en vidence les principales dimensions de cette
variabilit.
33
Chaque mois est vu au travers des tempratures moyennes mensuelles des 15 villes.
Le problme nest pas de sparer les mois chauds des mois froids pour lensemble
des 15 villes (ce qui arriverait si nous les considrions comme des individus) mais de
comparer la rpartition des 15 villes (des plus chaudes aux plus froides) pour deux
mois diffrents sans tenir compte du fait que dun mois lautre les tempratures sont
globalement plus ou moins leves (llimination de cet effet de moyenne est assure
par le centrage). Les comparaisons entre mois se font au travers de la notion de liaison,
plus prcisment de corrlation, entre variables numriques. Deux mois sont dautant
plus corrls que, pour chacun, on observe la mme rpartition des 15 villes selon leur
temprature. linverse, ils sont peu corrls si ce ne sont pas dans les mmes villes
que lon trouve les tempratures les plus leves (ou les plus basses).
Cela pos, les questions sont les suivantes : quels mois sont corrls entre eux ?
Quels sont ceux qui le sont peu ? Plus gnralement, peut-on faire un bilan des corrlations entre les 12 mois ? Les tempratures mensuelles sont-elles lies la position
gographique ? Dautre part, si les mois sont corrls, linformation donne par les
12 colonnes est, en un certain sens, redondante. Peut-on la rsumer en remplaant les
12 mois par un petit nombre de variables synthtiques ?
c) Ajout de variables supplmentaires (ou illustratives)
Il apparat dans la problmatique que les tempratures doivent tre analyses en ayant
lesprit la position gographique des villes. On peut formaliser cette position par
la latitude et la longitude, donnes introduites dans lanalyse en tant que variables
supplmentaires. Deux autres variables supplmentaires ont t ajoutes pour des
raisons qui apparaissent au cours de linterprtation.
d) Faut-il rduire les donnes ?
Lorsque les units de mesure diffrent dune variable lautre, le recours la rduction
des variables est systmatique (cf. 1.2 page 10). Ce nest pas le cas ici et la question
mrite dtre pose.
Ne pas rduire revient ici considrer quun cart de 1 degr entre deux villes a
la mme importance quel que soit le mois au cours duquel il est observ, que ce soit
un mois o les carts entre les tempratures des 15 villes sont plutt faibles ou au
contraire importants. Selon ce point de vue, dans les distances entre les villes, un mois
possde alors dautant plus dinfluence que lon y observe de grandes diffrences de
tempratures dune ville lautre (ne pas rduire les variables revient accorder aux
variables rduites un poids gal leur variance). linverse, en rduisant, on accorde
chaque mois de lanne la mme importance a priori dans lanalyse.
34
Sur ce jeu de donnes, les deux points de vue sont galement dfendables. Pour
cet exemple didactique, nous choisissons de rduire les donnes ; lACP est alors dite
norme. Comme les carts-types varient peu dun mois lautre (minimum : 1.37 et
maximum : 2.06), les deux analyses, norme et non norme, conduisent ncessairement
des rsultats trs proches. Ceci a t vrifi : pour les quatre premiers facteurs, les
coefficients de corrlation entre les facteurs de mme rang des deux analyses sont tous
suprieurs 0.99.
Remarque
En pratique, la rduction est loption par dfaut dans les logiciels.
Bordeaux
Brest
Clermont
Grenoble
Lille
Lyon
Marseille
Montpellier
Nantes
Nice
Paris
Rennes
Strasbourg
Toulouse
Vichy
Ensemble
Coordonne
F1
F2
3.121 0.109
2.268 4.093
1.726
0.593
1.529
1.688
4.217 0.595
0.835
1.788
4.833
0.829
4.147
0.435
0.281 1.115
6.007 0.789
1.242
0.156
1.439 1.671
4.106
2.172
1.736
0.136
2.201
0.575
0
0
35
Contribution
F1
F2
6.8
0
3.6
49.1
2.1
1
1.6
8.3
12.4
1
0.5
9.4
16.2
2
12
0.6
0.1
3.6
25.1
1.8
1.1
0.1
1.4
8.2
11.7
13.8
2.1
0.1
3.4
1
100
100
Qual. de reprsentation
F1
F2
F1,F2
.947
.001
.948
.234
.763
.998
.88
.104
.984
.429
.523
.952
.972
.019
.991
.178
.817
.995
.964
.028
.993
.986
.011
.997
.056
.886
.943
.98
.017
.997
.889
.014
.903
.42
.567
.986
.776
.217
.993
.953
.006
.958
.922
.063
.984
.7985 .1897
.9882
d(i, O)
Inertie
3.207
4.685
1.840
2.335
4.278
1.978
4.922
4.177
1.184
6.068
1.317
2.220
4.662
1.779
2.293
5.7
12.2
1.9
3
10.2
2.2
13.5
9.7
0.8
20.5
1
2.7
12.1
1.8
2.9
100
Tableau 2.2 Aides linterprtation des 15 villes pour les 2 premiers facteurs.
janv fvr mars avri mai juin juil aot sept octo nove dce lati longi moy ampl
Facteur 1 .76 .88 .97 .97 .87 .86 .84 .90 .97 .98 .90 .77 -.84 .17 1.00 .10
Facteur 2 -.64 -.47 -.16 .20 .47 .50 .53 .43 .21 -.17 -.41 -.62 -.31 .79 -.02 .99
Tableau 2.3 Coordonnes (=corrlations) des variables actives et supplmentaires pour chacun
des 2 premiers facteurs.
Compte tenu des relations entre les coordonnes des individus et celles des variables
(cf. relations de transition, section 1.7.3 page 20), on sattend trouver, le long de
laxe 1, les villes chaudes du ct des coordonnes positives et les villes froides du
36
janv fvr mars avri mai juin juil aot sept octo nove dce lati longi moy ampl
Janvier
Fvrier
Mars
Avril
Mai
Juin
Juillet
Aot
Septembre
Octobre
Novembre
Dcembre
1
.97
.84
.61
.36
.34
.30
.41
.60
.85
.95
.99
Latitude
Longitude
Moyenne
Amplitude
-.42
-.39
.77
-.57
1
.93
.76
.55
.52
.49
.59
.76
.94
.99
.97
1
.92
.77
.76
.72
.80
.91
.97
.93
.83
1
.95
.94
.91
.95
.98
.91
.78
.62
1
.99
.98
.98
.94
.77
.59
.38
1
.99
.99
.94
.76
.57
.36
1
.99
.93
.74
.55
.32
1
.97 1
.81 .93
1
.64 .80 .96
1
.43 .62 .87 .96
-.90
.50
.89
.52
-.90
.35
.97
.31
-.78
.07
.98
-.06
-.64
-.13
.91
-.30
1
-.44 1
-.35 -.31
.79 -.83
-.54 -.42
1
.16
1
.83 .08
ct des coordonnes ngatives. Cest bien ce que lon observe, laxe 1 opposant principalement Nice, Marseille et Montpellier ( droite) Lille et Strasbourg ( gauche).
Cette opposition se retrouve facilement dans les donnes. Ainsi, quel que soit le mois
de lanne, les tempratures mesures Nice, Marseille et Montpellier se situent audessus de la moyenne (calcule sur les 15 villes) tandis que celles mesures Lille et
Strasbourg se situent au-dessous de cette moyenne. Attention, la premire formule de
transition relie la coordonne dune ville lensemble des coordonnes des variables.
Ainsi, Lille a la plus faible coordonne sur le premier axe, mais il serait faux den
conclure quelle est, quel que soit le mois, la ville la plus froide. La fausset de cette
affirmation se constate immdiatement sur les donnes : bien que toujours plus froide
que la moyenne, Lille nest la ville la plus froide que deux mois sur douze (septembre
et avril).
La position extrme de Lille provient du fait que cette ville est la plus froide sur
lensemble de lanne. Certains mois de lanne, une autre ville, ou mme plusieurs,
sont plus froides quelle mais elles sont sensiblement moins froides que Lille pendant
beaucoup dautres mois. La position des villes proches de lorigine sinterprte dans
le mme esprit. La faible coordonne, sur le premier axe, de Nantes, Lyon ou Paris
indique que, sur lensemble de lanne, la temprature de ces villes est moyenne. Mais
on ne peut en dduire que les tempratures y sont toujours moyennes car elles peuvent
aussi tre tantt leves et tantt basses. Le deuxime facteur est clairant sur ce point.
37
Les mois dautomne et dhiver sont opposs aux mois de printemps et dt. Les
mois qui encadrent les solstices dhiver et dt sont les plus corrls ce facteur.
Cette opposition montre que, temprature moyenne annuelle gale (i.e. premier
facteur fix), certaines villes sont plutt chaudes en t et plutt froides en hiver
alors que dautres, linverse, sont plutt froides en t et plutt chaudes en hiver.
Lamplitude thermique, plus importante pour les premires que pour les secondes,
semble correspondre ce facteur.
38
Compte tenu des relations de transition, on sait que les coordonnes des villes ayant
une forte amplitude thermique sont positives tandis que celles des villes faible
amplitude sont ngatives. Ainsi, Brest, dont la coordonne sur ce facteur est la plus
leve, prsente des tempratures au-dessus de la moyenne depuis novembre jusqu
fvrier et trs au-dessous de la moyenne depuis avril jusqu septembre. Cette tendance
se retrouve de faon attnue pour la belle ville de Rennes. loppos, Grenoble subit
des tempratures trs en dessous de la moyenne depuis novembre jusqu fvrier et
presque gales la moyenne depuis mai jusqu aot. Brest apparat donc comme la
situation la plus extrme dune tendance gnrale.
c) Coordonnes des variables supplmentaires (cf. Tableau 2.3)
39
F2 : 19.0 %
longitude
juin-juillet
mai-aot
septembre - avril
F1 : 79.9 %
mars - octobre
latitude
novembre
fvrier
janvier-dcembre
Figure 2.1 Projection des 12 variables actives et de 2 variables supplmentaires sur le plan des
deux premiers facteurs. Deux variables trs proches ne sont reprsentes que par un seul vecteur.
Tous les angles entre les vecteurs reprsentant les variables tant infrieurs un angle
droit, les douze tempratures mensuelles sont corrles positivement entre elles. En
plus, il apparat une structure qui correspond au cycle annuel avec deux priodes. De
40
F2 : 19.0 %
Strasbourg
Lyon
Grenoble
Vichy
Clermont
Paris
Marseille
Toulouse
Montpellier
Bordeaux
Lille
Nantes
Nice
F1
79.9 %
Rennes
Brest
Figure 2.2 Projection des 15 villes sur le premier plan factoriel.
janvier juin dune part et de juillet (trs proche de juin) dcembre (trs proche de
janvier) dautre part, les mois se rpartissent dans lordre du calendrier : deux mois
proches dans le calendrier sont fortement corrls entre eux (la corrlation entre deux
mois conscutifs nest jamais infrieure 0.92) et dans chacune des deux priodes,
cette liaison dcrot rgulirement avec lloignement. Dautre part, les mois des deux
priodes se superposent quasiment deux deux. Finalement, on constate que deux
mois sont dautant plus corrls quils correspondent la mme dure du jour.
c) Variables synthtiques
Il est clairement apparu que lvolution thermique annuelle de lensemble des 15 villes
peut tre presque parfaitement synthtise par deux variables : la temprature moyenne
annuelle et lamplitude thermique.
d) Typologies des villes (cf. Figure 2.2)
Sur ce plan, les deux axes correspondent aux deux variables synthtiques. Ainsi, plus
une ville est froide, plus elle est situe gauche sur le plan ; plus son amplitude
thermique est grande, plus elle est situe en haut.
Remarquons que les villes chaudes , situes droite, sont proches de laxe
horizontal : le deuxime facteur ne les diffrencie gure. Au contraire, pour les villes
froides , les diffrences damplitude thermique sont importantes.
41
La distance (d(i, O) dans le tableau 2.2) calcule dans lespace complet (ici
12 dimensions) entre un individu i et le point moyen indique dans quelle mesure
lindividu i est extrme ou particulier du point de vue de lensemble de ses
coordonnes. Ici, on remarque que les villes les plus extrmes du point de vue de
lensemble de leurs tempratures mensuelles sont Nice, Marseille, Brest et Strasbourg.
Cela ntonne pas puisque ces villes sont gographiquement les plus excentres.
Dans cette analyse o les individus sont presque parfaitement reprsents sur le
premier plan, cet indicateur apporte peu par rapport lexamen visuel (ces quatre
villes sont la priphrie du nuage). Lorsque ce nest pas le cas, cet indicateur est
prcieux pour dtecter rapidement des individus particuliers. Remarque : quelques
logiciels fournissent le carr de cette distance.
42
Un autre point de vue pour dtecter des individus particuliers consiste calculer leur
inertie, par rapport au point moyen et rapporte linertie totale du nuage. Lorsque les
individus ont le mme poids, ce qui est le cas ici et est dailleurs le cas le plus frquent,
cet indicateur napporte quune nuance la distance (en revanche, si les poids diffrent
dun individu lautre, linformation est clairement diffrente). Dans ces donnes,
on dira que Nice contient 20 % de la variabilit du jeu de donnes, ou que les quatre
villes prcdentes (Nice, Marseille, Brest et Strasbourg) en contiennent 58 %.
2.2.5 Conclusion
Ce cas est typique dune ACP car il met en vidence un effet taille et une autre
structure complmentaire que lon peut appeler, en opposition la premire, effet
forme .
En revanche, il prsente deux particularits. Dabord, le premier plan factoriel
reconstitue presque parfaitement les donnes, ce qui est en pratique dautant plus
rare que le nombre de variables est grand. Ensuite, chacun des deux facteurs est
facilement interprtable, ce qui est prcieux pour un exemple finalit pdagogique,
mais lutilisateur rencontre ordinairement des situations plus complexes.
Bo
rd
To
Ni
Mo
Ma
ce
eau ulous ntpe rseil
le
llie
e
x
r
B
Na
R
nte enne rest
s
s
Pa
ris
Cle
V
L
rm ichy yon
on
t
Gr
eno Lille
ble
43
Str
asb
o
urg
Figure 2.3 Arbre hirarchique issu de lalgorithme de Ward appliqu au tableau 2.1.
On commence par regrouper les deux lments les plus proches. Dans lexemple,
ce sont Vichy et Clermont, ce qui est cohrent avec la position de ces deux villes sur le
plan factoriel (cf. Figure 2.2). Plus directement, un rapide coup dil sur les donnes
montre que ces deux villes ont des tempratures voisines tout au long de lanne, ce
qui ntonne pas compte tenu de leur proximit gographique. On constitue ainsi le
premier nud de larbre. La hauteur laquelle on relie les lments correspond la
ressemblance entre les lments relis : cest lindice de niveau du nud. La dfinition
de cet indice dans la mthode de Ward est indique plus loin.
lissue de lagrgation de Vichy et Clermont, on ne dispose plus que de 14
lments classifier : 13 villes et un groupe de 2 villes. Dans lexemple, lalgorithme
regroupe ensuite Marseille et Montpellier. Ces deux villes ont des tempratures trs
44
voisines, trs lgrement moins que les 2 villes prcdemment agrges, ainsi que le
montre le calcul de distances ralis partir des donnes initiales centres-rduites.
d(V ichy, Cler mont) = .54 < d(Mar seille, Mont pellier ) = .86
Lindice de niveau du nud correspondant cette deuxime agrgation est donc
plus lev que le prcdent. Et ainsi de suite, on agrge petit petit les villes mais
aussi les groupes de villes. Ce dernier point pose le problme de la dfinition de la
ressemblance entre groupes de villes. Plusieurs possibilits existent, dont les plus
simples sont les suivantes : la distance entre deux groupes A et B peut tre dfinie
comme la plus petite (algorithme dit du saut minimum) ou la plus grande (algorithme
dit du diamtre) des distances entre deux lments appartenant lun A lautre B.
La faon dont la mthode de Ward rsout ce problme est dcrite plus loin.
Si lon classifie I individus, larbre contient I 1 nuds, quil est dusage de
numroter de I +1 2J 1. Les deux lments runis par chaque nud sont quelquefois
appels lun an, lautre benjamin.
Inertie
2 classes
Partition en
3 classes
45
4 classes
Totale
100.00
100.00
100.00
Inter-classes 65.68
78.70
84.44
dont
classe 1
43.79 (5)
43.79 (5) 43.79 (5)
classe 2
21.89 (10) 11.73 (3) 11.73 (3)
classe 3
23.19 (7)
8.90 (5)
classe 4
20.03 (2)
Intra-classes
dont
classe 1
classe 2
classe 3
classe 4
34.32
21.30
7.29 (5)
27.03 (10)
-
7.29 (5)
3.98 (3)
10.03 (7)
-
15.56
7.29 (5)
3.98 (3)
2.07 (5)
2.21 (2)
Tableau 2.5 Dcompositions de linertie relatives aux trois partitions les moins fines associes
larbre hirarchique de la figure 2.3. Les inerties sont exprimes en % de linertie totale ; entre ( ) :
effectifs des classes.
46
classes quau dernier nud de la CAH ; elle est clairement isole par le premier axe
de lACP) du fait quelle exprime, en tant que classe (i.e. en ne considrant que son
centre de gravit), presque la moiti de la variabilit (43,79 %) totale. Remarque : on
ne confondra pas cette inertie avec linertie totale de la classe (43.79 + 7.29 = 51.08)
que lon peut calculer directement partir de la colonne inertie du tableau 2.2.
Linertie intra-classes peut aussi tre dcompose par classes. Ainsi, dans la partition
en 2 classes, la seconde classe (les 10 villes du nord) contribue majoritairement
linertie intra-classe. Cela a deux origines : dabord cette classe contient plus de villes ;
ensuite elle est plus htrogne, ce dont on peut se rendre compte en calculant linertie
intra moyenne (i.e. la variance) par classe (27.03/10 = 2.703 > 7.29/5 = 1.458).
47
Figure 2.4 Arbre hirarchique prsentant un effet de chane. Les individus sagrgent un par un
au groupe dj constitu. Les partitions obtenues par coupure dun tel arbre, mettant toutes en
vidence un seul groupe et des individus isols, sont gnralement sans intrt pratique.
Figure 2.5 Inversion dans un arbre hirarchique. k sagrge au groupe {i, j} un niveau infrieur
celui de lagrgation entre i et j. Ce phnomne est impossible avec les algorithmes usuels.
La somme des indices de niveau, effectue sur lensemble des I 1 nuds, est gale
linertie totale du nuage. Soit, en notant dn laugmentation dinertie intra au pas n :
48
n=I
1
dn = Inertie totale
n=1
Dans lexemple, le plus haut indice vaut 7.88 soit 65.68 % de linertie totale (gale
12 ; cf. section 2.2.1). Ainsi, la partition en deux classes (villes chaudes/villes froides)
exprime 65.68 % de la variabilit des donnes. Autrement dit, en ne considrant
que ces deux classes, on a simplifi les donnes dans une grande proportion (on ne
considre plus 15 villes mais 2 points moyens) tout en conservant 65.68 % de la
variabilit.
Ce pourcentage est comparer celui associ au premier axe de lACP : 79.85 %.
Laxe exprime plus de variabilit (il distingue, par exemple, Nice et Toulouse, ce que
ne permet pas la partition en deux classes) mais est moins synthtique.
Toujours dans lexemple, le deuxime indice (en partant du haut de larbre) vaut
1.56 soit 13.02 % de linertie totale. La sparation des 10 villes froides en 3 villes
faible amplitude thermique et 7 villes forte amplitude thermique exprime donc
13.02 % de la variabilit des donnes. La comparaison entre ce pourcentage et celui
associ au deuxime axe de lACP (18.97 %) conduit un commentaire analogue
celui ralis pour le premier axe.
En additionnant les pourcentages associs aux deux nuds les plus levs, on
obtient le rapport inertie inter/inertie totale associ la partition en trois classes :
78.70 % de la variabilit des donnes est exprime par cette partition. Ce pourcentage
est plus faible que celui associ au premier plan de lACP (98.82 %), ce qui correspond
au caractre plus synthtique de la partition.
En abaissant encore le niveau de coupure, on augmente le nombre de classes et
le rapport inertie inter/inertie intra, ce qui montre bien que ce dernier doit toujours
tre examin en rfrence au nombre de classes de la partition et au nombre total
dindividus ( la limite, la valeur la plus leve de ce rapport, 1, est obtenue pour la
partition qui contient un et un seul individu par classe, partition sans intrt pratique).
49
On reprsente classiquement les niveaux des nuds (au moins pour les plus levs
lorsquil y a beaucoup dindividus) par un diagramme en btons (cf. Figure 2.6).
On illustre ainsi ce que lon gagne (en inertie inter cest--dire, en quelque sorte, en
reprsentation des donnes) lorsque lon passe dune partition donne la partition
immdiatement plus fine. Lallure de ce diagramme suggre des niveaux de coupure
privilgis, ceux qui prcdent une dcroissance rapide du gain en inertie inter.
Pour lexemple, le diagramme suggre une coupure en 2, 3 ou 6 classes. Dans
chacun de ces cas, le gain dinertie inter obtenu en passant la partition immdiatement
plus fine est sensiblement plus petit que celui obtenu en considrant cette partition
plutt que celle immdiatement moins fine (comparer avec le cas des partitions en 4 et
5 classes).
2.4.1 Problmatique
Larbre permet de dfinir chaque classe par lnumration des individus qui la composent. Cela est tout fait appropri dans lexemple car les individus sont peu nombreux et leurs donnes sont familires. Mais, mme dans ce cas, ce nest pas suffisant
pour connatre avec prcision les caractristiques communes des individus dune
classe.
Lide la plus simple consiste calculer, pour chaque variable X , la moyenne des
individus de chaque classe. Pour une classe q donne, en comparant pour chaque
variable la moyenne de la classe (note xq ) la moyenne gnrale (note x), on
peut caractriser la classe. Mais lindicateur xq x nest pas suffisant car il doit tre
relativis par leffectif de la classe q (not Iq ) et lcart-type de la variable X (not s),
comme lillustre la figure 2.7.
La figure 2.7 reprsente trois cas ayant la mme moyenne gnrale (
x ) et la mme
moyenne pour la classe q(
xq ). La variable X caractrise mieux la classe q :
1. dans le cas 1 que dans le cas 2 ; xq x doit tre apprci en tenant compte de
lcart-type gnral ;
2. dans le cas 3 que dans le cas 2 ; xq x doit tre apprci en tenant compte de
leffectif de la classe q.
50
niveau d'agrgation
8
29 28 27 26 25 24 23 22 21 20 19 18 17 16
n du
nud
Figure 2.6 Diagramme des indices de niveau de larbre de la figure 2.3. La ligne horizontale en
pointills matrialise le niveau de coupure en 3 classes.
choisit lcart-type comme unit, ce qui permet de comparer entre elles des valeurs de
variables diffrentes.
Lide de relativiser par leffectif de la classe se situe sur un tout autre plan. Empiriquement, on a lintuition que mme pour une variable qui na rien voir avec la
partition (ce serait le cas dune variable supplmentaire trangre aux variables
actives), la diffrence xq x nest jamais (en pratique) exactement nulle et risque,
lcart-type gnral s tant fix, de scarter dautant plus de 0 que leffectif de la
classe est faible.
xq
51
cas 1
cas 2
cas 3
Figure 2.7 Insuffisance de lcart entre villes moyennes pour caractriser une classe. La grande
ellipse reprsente lensemble des individus ; la petite rassemble les points de la classe q.
Iq I Iq
I 1
52
Cas
Classe
Variable xq
xq x s
sxq valeur-test
3.33
2.92
-2.18
des tempratures est plus grande en juillet quen avril. Finalement, selon la valeurtest qui synthtise ces donnes, cette classe est (lgrement) mieux caractrise
par sa forte temprature en avril que par sa forte temprature en juillet.
2. Cas 2 et 3 : Selon lcart brut, la temprature en juillet caractrise moins la classe
{Nice, ..., Toulouse} (par des valeurs leves) que la classe {Brest, ..., Nantes}
(par des valeurs basses). Mais leffectif de la premire (5) est plus important
que celui de la seconde (3). Finalement, selon la valeur-test qui synthtise ces
donnes, la temprature en juillet caractrise plus solidement la premire classe
que la seconde.
On notera ici que cest la valeur absolue de la valeur-test qui indique le degr de
caractrisation dune classe par une variable ; le signe indique le sens (moyenne de
classe plus basse ou plus leve que la moyenne gnrale) de cette caractrisation.
53
Tableau 2.7 Caractrisation des 3 classes de villes par lensemble des variables. Pour chaque
classe, les variables sont tries par valeurs-tests dcroissantes.
V. test
3.40
3.39
3.33
3.32
3.24
3.18
3.00
3.00
2.97
2.92
2.88
2.54
2.46
0.65
0.50
-2.95
0,003
43.56
V. test
1.49
1.28
1.11
0.66
0.44
Proba
0,136
0,201
0,267
0,509
0,660
Variable
latitude
janvier
dcembre
fvrier
novembre
-0.25
-0.41
-0.74
-1.30
-1.45
-2.02
-2.02
-2.05
-2.18
-2.88
-2.95
0,803
0,682
0,459
0,194
0,147
0,043
0,043
0,040
0,029
0,004
0,003
8.03
11.93
11.20
10.03
15.60
12.87
17.47
15.93
17.43
-2.34
12.37
mars
octobre
moyenne annuelle
avril
septembre
mai
aot
juin
juillet
longitude
amplitude annuelle
46.04
8.23
12.32
11.81
10.98
16.99
14.43
19.57
17.83
19.83
2.58
15.91
0.47
0.26
0.25
0.38
0.65
0.70
0.95
1.09
1.16
1.35
1.38
1.56
2.22
1.48
1.77
1.55
1.37
1.79
1.45
1.94
1.73
2.06
3.21
2.25
latitude
0,317
0,234
0,222
0,168
0,040
0,035
0,009
0,005
0,004
0,002
0,001
0,001
0,001
19.24
17.24
13.93
18.80
15.94
10.16
10.66
10.90
7.03
6.36
3.16
3.07
2.11
19.83
17.83
14.43
19.57
16.99
10.98
11.81
12.32
8.23
7.93
4.83
4.85
3.97
1.04
0.91
0.74
0.88
0.74
0.64
0.62
0.66
0.81
0.65
0.76
0.91
0.88
2.06
1.73
1.45
1.94
1.79
1.37
1.55
1.77
1.48
1.74
1.81
1.89
1.94
juillet
juin
mai
aot
septembre
avril
moyenne annuelle
octobre
mars
novembre
fvrier
dcembre
janvier
54
P[X |valeur-test|]
avec X distribue selon une loi normale centre rduite.
-|vt|
|vt|
Figure 2.8 Valeur-test et probabilit associe. Laire hachure matrialise la probabilit associe
la valeur-test vt.
55
56
2.5.2 Indicateurs
Le tableau 2.5 met en vidence la dcomposition de linertie associe une partition
dans lespace entier (R K ). Chaque terme de cette dcomposition peut lui-mme tre
dcompos axe par axe. Cette nouvelle dcomposition, applique la partition en
57
F2
St.
Vichy
Ct Gr.
Paris
Lyon
Marseille
Mt
To
Bordeaux
Lille
Nantes
Nice
F1
Rennes
Brest
Figure 2.9 Reprsentation simultane dun arbre hirarchique (cf. Figure 2.3) et dun plan
factoriel (cf. Figure 2.2).
trois classes, est donne tableau 2.8, dans lequel chaque inertie est exprime en
pourcentages, par rapport :
1. la somme de sa colonne, cest--dire linertie associe laxe correspondant ;
ce pourcentage sinterprte comme une contribution laxe ; par exemple, la
spcificit de la classe 1 (i.e. ce qui distingue son centre de gravit du centre
gravit gnral) contribue pour 54.80 % linertie du premier axe ;
2. la somme de sa ligne (dans cette somme, tous les axes sont pris en compte mme
si seuls les deux premiers apparaissent dans le tableau), cest--dire linertie de
la ligne exprime dans lespace complet ; ce pourcentage sinterprte comme une
qualit de reprsentation (au sens du rapport [inertie projete / inertie totale]) ;
par exemple, la spcificit de la classe 1 est exprime presque parfaitement (
99.93 %) par le premier axe.
58
Inertie (effectifs)
Contributions
F1
F2
Qualits de reprsentation
F1
F2
(F1, F2)
Totale (15)
100.00
100.00
79.85
18.97
98.82
Inter classes
dont
classe 1 (5)
classe 2 (3)
classe 3 (7)
83.47
63.36
84.69
15.27
99.96
54.80
3.69
24.99
1.50
46.19
17.02
99.93
25.11
86.06
.06
74.71
13.92
99.99
99.82
99.98
16.53
36.64
61.96
32.64
94.60
7.40
1.39
7.74
4.33
14.69
17.62
81.03
27.79
61.65
11.27
70.01
33.34
92.30
97.80
94.99
Intra classes
dont
classe 1 (5)
classe 2 (3)
classe 3 (7)
Tableau 2.8 Inerties associes la partition en 3 classes, dcomposes selon les deux premiers
axes factoriels. Contributions : inerties exprimes en % de linertie totale de laxe. Qualits de
reprsentation : inerties exprimes en % de linertie dans lespace complet.
59
Tableau 2.9 Trois indicateurs importants dans lanalyse dune partition. La distance et les
coordonnes sont celles des centres de gravit des classes. La valeur-test, qui prend en compte la
coordonne, leffectif de la classe et linertie de laxe, est comparable dun axe lautre et dune
classe lautre.
Classe
1 : Nice, ..., Toulouse
2 : Brest, ..., Nantes
3 : Lyon, ..., Lille
Distance
lorigine
3.97
2.65
2.44
Coordonnes
F1
F2
3.97
.10
-1.33 -2.29
-2.27 . 91
Valeurs-tests
F1
F2
3.39
.18
-.80 -2.84
-2.56 2.11
1. La distance (ou son carr) dans lespace complet entre le centre de gravit de
la classe et le centre de gravit gnral. En ce sens, la classe 1 est celle qui se
diffrencie le plus, rsultat en harmonie avec le tableau 2.5 (linertie de cette
classe ramene son centre de gravit reprsente 43.79 % de linertie totale) et
le premier axe de lACP.
2. La valeur-test, dfinie propos dune variable initiale, sapplique aux axes factoriels. Ainsi, daprs les coordonnes, la classe 3 se caractrise surtout par laxe1.
Daprs sa valeur-test pour laxe 2, qui prend en compte la beaucoup plus faible
variabilit des 15 villes selon cet axe, la classe 3 peut aussi tre caractrise par
sa coordonne pour laxe 2.
60
61
Classe 1 Classe 2
Pas 1
G11
Pas 2
G12
Classe 1
Classe 2
G21
G22
Classe 1
Classe 2
Figure 2.10 Illustration de lalgorithme dagrgation autour des centres mobiles. Donnes : 8
individus situs aux sommets de 2 carrs. Initialisation : le tirage au hasard a conduit aux
barycentres G01 et G02 ; la mdiatrice du segment G01 G02 permet de dfinir laffectation des individus
aux classes : chaque individu est affect la classe correspondant au barycentre dont il est le plus
proche. Pas 1 : on calcule les barycentres G11 et G12 des classes du pas prcdent ; la mdiatrice du
segment G11 G12 permet de dfinir une nouvelle affectation des individus aux classes. Pas 2 : on
calcule les barycentres G21 et G22 des classes du pas prcdent ; laffectation aux classes 1 et 2
induite par la mdiatrice de G21 G22 est identique celle du pas prcdent. Lalgorithme a converg.
Chapitre 3
Analyse Factorielle
des Correspondances
64
modalits de la
premire variable
kij
I
n
Figure 3.1 Tableau des donnes brutes. I : ensemble des lignes et nombre de lignes (8 niveaux
de diplme). J : ensemble des colonnes et nombre de colonnes (9 catgories demploi). ki j :
nombre dindividus possdant la fois la modalit i de la premire variable et la modalit j de la
seconde (i.e. qui ont le niveau
de diplme i et qui occupent un emploi de la catgorie j).
i
j ki j = n (nombre total dindividus).
J marge
fi j
f i.
i
fij
fi.
I
marge
f.j
f. j
f i.
= ki j /n
=
fi j
j
=
fi j
i
=
f. j =
fi j = 1
j
3.2 Objectifs
65
f i j = f i. f . j
Il y a liaison entre les deux variables ds que certaines cases du tableau f i j diffrent
du produit f i. f . j . Si f i j est suprieur ce produit, les modalits i et j sassocient plus
quelles ne le font dans lhypothse dindpendance : on dit que i et j sattirent. Au
contraire, si f i j est infrieur au produit des marges, i et j sassocient moins que dans
lhypothse dindpendance : on dit quil y a rpulsion entre ces deux modalits.
Lindpendance sexprime aussi en considrant le tableau comme un ensemble de
lignes. En effet, lgalit ci-dessus est quivalente lgalit :
fi j
= f. j
f i.
La quantit f . j reprsente le pourcentage de la population totale qui possde la modalit j tandis que f i j / f i. reprsente ce mme pourcentage dans la sous-population
possdant la modalit i. Lorsquil y a indpendance, les I sous-populations caractrises par les modalits i de la premire variable se rpartissent selon les J modalits j
de la deuxime variable avec les mmes pourcentages. Toutes les lignes sont alors proportionnelles. La rciproque est vraie : lorsque toutes les lignes sont proportionnelles,
elles sont proportionnelles la marge f . j et les deux variables sont indpendantes. Il y
a donc liaison ds lors que les lignes ne sont pas toutes proportionnelles la marge,
cest--dire lorsquelles ne sont pas identiques du point de vue de leur association avec
lensemble des colonnes.
Remarquons enfin que, dans un tableau de contingence, les lignes et les colonnes
jouent un rle absolument symtrique : lindpendance sexprime de la mme faon
sur lensemble des colonnes. Les deux galits ci-dessus sont en effet quivalentes
la suivante :
fi j
= f i.
f. j
Il y a indpendance lorsque tous les pourcentages en colonnes sont gaux la marge
f i. cest--dire lorsque les colonnes sont proportionnelles. Il y a liaison lorsquelles
ne le sont pas.
3.2 OBJECTIFS
Bien que le tableau tudi soit de nature trs diffrente de celui tudi en ACP, les
objectifs de lAFC peuvent sexprimer de manire analogue ceux de lACP : on
cherche obtenir une typologie des lignes, une typologie des colonnes et relier ces
deux typologies entre elles ; mais la notion de ressemblance entre deux lignes, ou entre
deux colonnes, est diffrente de celle de lACP.
66
67
Cette transformation dcoule de lobjectif qui vise tudier la liaison entre les deux
variables au travers de lcart entre les pourcentages en lignes. Elle se justifie aussi
de faon directe puisque la comparaison de deux lignes du tableau brut risque dtre
influence principalement par leurs effectifs marginaux. Ainsi, dans le tableau croisant
emplois et diplmes, la diffrence entre les lignes brutes Bac technique et Bac gnral
traduit essentiellement une diffrence entre les effectifs globaux de ces deux diplmes.
GJ
fij / fi.
I
GI
fij / f.j
fi.
I
f.j
68
f . j f i.
fl.
j
2
1
fi j
f ik
2
dx (profil-colonne j, profil-colonne k) =
f i. f . j
f .k
2
Dans ces relations, la distance entre deux lignes dpend essentiellement des diffrences terme terme entre les deux profils dont elle fait une somme des carrs
pondrs. La pondration 1/ f . j quilibre linfluence des colonnes sur la distance entre
les lignes : elle augmente les termes, a priori plus faibles, concernant les modalits
rares ; elle joue, jusqu un certain point, un rle analogue celui de la division par
lcart-type dans le cas des variables numriques.
La distance du x2 jouit dune proprit fondamentale appele quivalence distributionnelle. Selon cette proprit, si deux colonnes proportionnelles dun tableau
sont cumules en une seule, la distance entre les profils-lignes est inchange. Le cas
dune proportionnalit parfaite entre deux colonnes ne se rencontre gure en pratique mais constitue une situation limite dont on peut tre assez proche. La proprit
mathmatique est alors utilise sous la forme dune rgle pragmatique : remplacer,
par leur somme, deux colonnes ou deux lignes presque proportionnelles ne modifie
pas sensiblement les rsultats dune AFC. On se rfre surtout cette rgle lorsque
plusieurs ensembles de modalits sont possibles pour dfinir une mme variable. Ainsi,
la variable catgorie demploi peut tre plus ou moins dtaille : par exemple, on peut
se demander si les catgories ouvrier qualifi et ouvrier non qualifi peuvent tre
regroupes en une seule catgorie. Du fait de lquivalence distributionnelle, si ces
deux catgories ont des profils voisins, le choix entre les deux solutions nest pas
fondamental puisque les AFC des deux tableaux aboutissent des rsultats analogues.
69
NI
profil-ligne l
GI
hyperplan HI
profil-ligne i
colonne j
f .j
f ij /f i.
Figure 3.4 Le nuage N I des profils-lignes dans R J . Le point i a pour coordonne sur laxe
j : f i j / f i. ; son poids est f i. ; la distance entre deux profils est la distance du x2 ; Le barycentre G I
du nuage N I a pour coordonne sur laxe j la frquence marginale f . j ; le nuage N I appartient
un hyperplan not HI .
En AFC, les poids affects chaque point du nuage sont imposs. Le point i a un
poids gal la frquence marginale f i. (ce poids est proportionnel leffectif de la
classe dindividus reprsente par le point i).
Le barycentre des points de N I munis de ces poids est not G I . Sa j e coordonne
est gale la frquence marginale f . j .
f. j =
i
f i.
fi j
f i.
Il sinterprte comme un profil moyen. Dans lexemple du tableau qui croise les
niveaux de diplme et les catgories demploi, G I est le profil demplois de lensemble
de la population, tous les diplmes tant cumuls. Il sert constamment de rfrence
dans ltude des lignes du tableau ; ainsi, tudier dans quelle mesure et de quelle faon
une classe dindividus i diffre de lensemble de la population revient tudier lcart
entre le profil de cette classe i et le profil moyen. tudier la dispersion du nuage
70
autour de son barycentre revient tudier lcart entre les profils des lignes et le profil
marginal, et donc la liaison entre les deux variables (cf. section 3.1).
NJ
profil-colonne k
GJ
hyperplan HJ
profil-colonne j
ligne i
f i.
f ij /f .j
Figure 3.5 Le nuage N J des profils-colonnes dans R I . Le point j a pour coordonne sur laxe
i : f i j / f . j ; son poids est f . j ; la distance entre deux profils est la distance du x2 ; le barycentre G J
du nuage N J a pour coordonne sur laxe i la frquence marginale f i. ; le nuage N J appartient
un hyperplan not H J .
71
Figure 3.6 Ajustement dans R J du nuage des profils-lignes. i : point associ au profil-ligne
i. u 1 :
vecteur unitaire du premier axe factoriel. Hi : projection de i sur u 1 . u 1 rend maximum i f i. OHi2 .
72
une fraction importante de la population totale. Selon un autre point de vue, les
modalits deffectif faible, pour lesquelles les profils risquent dtre moins fiables,
interviennent moins dans la construction des axes.
En rsum, lajustement du nuage N I en AFC est analogue celui du nuage des
individus en ACP. Il en diffre par trois points :
1. les lignes interviennent au travers de leur profil ;
2. la distance entre les profils est celle du x2 ;
3. chaque ligne i est affecte du poids f i. .
73
RJ
1
NI
hyperplan HI
GI
i
1
Figure 3.7 Le premier axe factoriel du nuage N I non centr est le facteur trivial OG I orthogonal
HI . Linertie projete de N I sur OG I vaut 1.
w1
GI
i
1
u1
w2
Figure 3.8 Analyse par rapport au barycentre et par rapport lorigine. w1 : premier axe factoriel
du nuage N I lorsque lorigine des axes est en O. w2 : deuxime axe factoriel du nuage N I lorsque
lorigine des axes est en O (orthogonal u 1 ). u 1 : premier axe factoriel du nuage N I lorsque
lorigine des axes est en G I . Les projections de N I sur w2 et u 1 sont identiques.
74
3.7 LA DUALIT
Les deux nuages N I et N J constituent deux reprsentations dun mme tableau, lune
travers ses profils-lignes, lautre travers ses profils-colonnes. Il sensuit que les
analyses de ces deux nuages ne sont pas indpendantes : les relations entre ces deux
analyses sont communment regroupes sous le terme de dualit.
Cette dualit est plus fondamentale et plus riche en AFC quen ACP car les lignes
et les colonnes reprsentent des objets de mme nature, ce qui nest pas le cas en ACP.
ij
(n f i j n f i. f . j )2
n f i. f . j
ij
La statistique x2 est gale, au coefficient n prs, linertie totale par rapport leur
barycentre de lun ou lautre des nuages N I et N J . En effet, dans R I , linertie totale
de N I par rapport G I scrit :
Inertie(N I ) =
i
Inertie(i) =
i
f i. d (i, G I ) =
i
2
1 fi j
f i.
f. j
f . j f i.
j
Soit :
x2 = n[Inertie(N I )] = n[Inertie(N J )]
Cette double galit montre que linertie totale de chacun des deux nuages N I et
N J reprsente, sous deux formes diffrentes, la liaison entre les deux variables.
Remarque : La quantit x2 /n , note F2 , mesure lintensit de la liaison entre
deux variables qualitatives (cette liaison est dautant plus intense que les modalits de lune sassocient exclusivement aux modalits de lautre) et non sa significativit (elle ne dpend pas de leffectif total) ; lindicateur x2 , lui, mesure la
significativit (une liaison forte peut ne pas tre significative si elle est observe
sur trs peu dindividus ; une liaison faible peut tre significative si elle est
observe sur beaucoup dindividus).
3.7 La dualit
75
Les formules de transition prcisent les relations entre les points reprsentant dune
part les lignes et dautre part les colonnes. Avec les notations suivantes :
1. Fs (i) : projection de la ligne i sur laxe de rang s de N I ,
2. G s ( j) : projection de la colonne j sur laxe de rang s de N J ,
76
les deux nuages. Sur les graphiques ainsi obtenus, les rapports entre la position des
points lignes et des pointscolonnes dus aux relations de transition peuvent tre dcrits
ainsi : au coefficient 1/ ls prs, la projection, note Fs (i), de la ligne i sur laxe
de rang s (dans R J ) est le barycentre des projections, notes G s ( j), des colonnes
j sur laxe de rang s (dans R I ), chaque colonne j tant affecte du poids f i j / f i.
(cette expression dune formule de transition est appele proprit barycentrique).
Les lments lourds attirant le barycentre, une colonne j attire dautant plus une
ligne i que la valeur de f i j / f i. est leve. Sur les plans factoriels, les points loigns
de lorigine retiennent particulirement lattention car ce sont les profils les plus
diffrents du profil moyen. On trouve donc, pour un facteur, du mme ct quune
ligne i les colonnes j auxquelles elle sassocie le plus et, loppos, celles auxquelles
elle sassocie le moins. Il est ainsi possible dinterprter la position dune ligne par
rapport lensemble des colonnes, ce qui justifie lintrt pratique de la reprsentation
simultane.
La formulation symtrique vaut, en inversant les rles jous par les lignes et les
colonnes. Do le nom de double proprit barycentrique donne ce qui est la
principale rgle dinterprtation des graphiques de lAFC. Cette double proprit
est non seulement spcifique de lAFC, mais la caractrise : on dmontre que lon
retrouve les facteurs de lAFC en cherchant construire des fonctions dfinies sur
les lignes et les colonnes dun tableau de contingence telles que la double proprit
barycentrique soit vrifie.
La reprsentation simultane en AFC est universellement adopte, ce qui nest pas
le cas de celle de lACP. On peut citer deux arguments importants en faveur de cette
superposition.
1. Alors quen ACP les lignes et les colonnes reprsentent des objets de nature bien
diffrentes (individus et variables), les lignes et les colonnes, dans lAFC dun
tableau de contingence, sont de mme nature, savoir des classes dindividus.
Selon ce simple point de vue, cela ne pose aucun problme de figurer toutes ces
classes sur un mme graphique.
2. Il existe dautres prsentations de lAFC dans lesquelles les classes dindividus
que constituent les lignes et les colonnes dun tableau de contingence sont situes
dans un mme espace : leur reprsentation simultane est alors naturelle.
En rsum, sur les graphiques de la reprsentation simultane des lignes et des
colonnes, la position relative de deux points dun mme ensemble (lignes ou colonnes)
sinterprte en tant que distance tandis que la position dun point dun ensemble par
rapport celle de tous les points de lautre ensemble sinterprte en tant que barycentre. Toute association entre une ligne et une colonne suggre par une proximit
sur le graphique doit tre contrle sur le tableau de donnes.
3.7 La dualit
77
78
J1
J2
T11
T12= 0
1
I1
I1
J1
I2
T21= 0
I2
F1
J2
1=1
T22
I
Figure 3.9 Cas dune inertie associe un axe gale 1. Partitions, des lignes dune part et des
colonnes dautre part, mises en vidence par un axe factoriel associ une inertie gale 1. Tous
les effectifs des sous-tableaux T12 et T21 sont nuls.
la diagonale. Il rsulte de ce qui prcde que, dans ce cas, chaque axe de lAFC est
associ une inertie de 1.
Cette formule, appele formule de reconstitution des donnes, permet de recalculer les
valeurs du tableau initial en fonction des marges et des facteurs. Lorsque lon dpouille
les rsultats dune AFC, on limite gnralement linterprtation aux premiers facteurs.
Cela revient considrer non pas le tableau des donnes mais son approximation
obtenue laide des premiers termes de la somme ci-dessus.
Cette relation met en vidence une dcomposition de lcart du tableau relativement
lhypothse dindpendance en une somme de tableaux dont chacun ne dpend que
dun couple de facteurs (Fs , G s ) de mme rang. Elle formalise laspect de lobjectif
annonc : dcomposition de la liaison en lments simples. En effet, chaque tableau
de terme gnral f i. f . j Fs (i)G s ( j) exprime une liaison simple puisque le terme de la
case (i, j) ne dpend que de la ligne i et de la colonne j. Si les valeurs de Fs (i) et de
G s ( j) sont de mme signe, cette case exprime une attirance entre i et j ; dans le cas
contraire, il exprime une rpulsion dautant plus importante que Fs (i) et G s ( j) sont
grands en valeur absolue.
79
Nous illustrons cette dcomposition dans la section 10.3.1.a, page 231, propos
dun exemple.
80
f ij / f i .
k ij
i
I
J marge
f
ij
fij /fi.
f
.j
I
marge
I
GI
i.
fij /f.j
f
i.
I
.j
RI
RJ
5
profil-ligne l
profil-colonne k
hyperplan HI
hyperplan H J
GJ
GI
profil-ligne i
f.j f /f
ij i.
profil-colonne j
f
i. fij /f.j
ligne i
colonne j
AF
11
AF
relations
de transition
9
F2
10
G2
i
GI
12
F1
G2
k
l
GJ
F2
i
j
GI
GJ
G1
F1
G1
81
1. Les donnes brutes. Lignes et colonnes jouent des rles symtriques : ce sont des
modalits de variables. La somme de tous les termes ki j du tableau est n.
2. Ce tableau intermdiaire fait apparatre les donnes sous forme de loi de probabilit : f i j = ki j /n. Les probabilits marginales sont { f i. |i I } et { f . j | j J }.
3. et 4. Pour tudier les lignes du tableau, on les transforme en profils-lignes. Pour
tudier les colonnes, on les transforme en profils-colonnes. On dispose donc de deux
tableaux. Un profil sinterprte comme une probabilit conditionnelle. Les profils
moyens G I et G J sont les distributions marginales associes au tableau 2.
5. Un profil-ligne est une suite de J nombres et peut tre reprsent par un point
de R J . Le nuage N I des profils-lignes appartient lhyperplan HI des vecteurs dont
la somme des coordonnes vaut 1. Chaque profil-ligne i est affect du poids f i. ; le
nuage N I ainsi pondr a pour barycentre le profil moyen G I . Dans le nuage N I , on
sintresse la ressemblance entre les profils mesure au travers de la distance du x2 .
6. La reprsentation des profils-colonnes dans R I appelle des commentaires strictement symtriques ceux de la reprsentation des profils-lignes dans R J .
7. LAnalyse Factorielle (AF) dun nuage consiste mettre en vidence une suite de
directions orthogonales telles que linertie, par rapport O, de la projection du nuage
sur ces directions est maximum. Applique N I , lAF fournit une premire direction
dite triviale reliant O G I et orthogonale HI . Pour les directions suivantes, G I se
projette lorigine des axes : ces directions suivantes sont les directions dallongement
maximum de N I . Il est donc quivalent de raliser lanalyse par rapport O ou par
rapport G I .
8. On peut reprendre point par point le commentaire de 7 en le transposant aux
colonnes.
9. et 10. Les plans factoriels, croisant deux facteurs, sur les lignes ou sur les
colonnes, fournissent des images approches des nuages N I et N J . Sur ces plans,
la distance entre deux points sinterprte comme une ressemblance entre les profils de
ces points. Lorigine des axes est confondue avec le profil moyen.
11. Les relations de transition expriment les rsultats dune AF (par exemple dans
I
R ) en fonction des rsultats de lautre (par exemple dans R J ).
12. Du fait des relations de transition, les interprtations des plans factoriels reprsentant N I et N J doivent tre menes simultanment. Il est commode de superposer
ces reprsentations. Linterprtation de cette reprsentation simultane est rgie par la
double proprit barycentrique.
82
3.11 CONCLUSION
Dans ce chapitre, lAFC est introduite comme une mthode particulirement bien
adapte ltude dun tableau de contingence. Dun point de vue historique, elle a
dailleurs t imagine pour traiter ce type de tableau. Toutefois, les remarquables
proprits de cette mthode ont trs tt incit lappliquer dautres tableaux :
aujourdhui, la pratique courante de lAFC dpasse largement le cadre des tableaux de
contingence.
Ds linstant que lon tudie un tableau qui nest pas un tableau de contingence,
lobjectif de lAFC ne peut plus tre formul en terme de liaison entre deux variables
qualitatives. En revanche, il existe des tableaux dont ltude ncessite une typologie
des lignes dune part et des colonnes dautre part, travers leur profil.
Pour tablir lintrt de lAFC dans la ralisation de telles typologies, il convient de
sassurer que les diffrentes notions mises en jeu par cette mthode (transformation en
profils, distance du x2 , poids des lments) sont en accord avec le point de vue que
lon veut avoir sur les donnes tudies. Les formules barycentriques, qui relient les
projections des lignes et des colonnes et qui permettent elles seules de caractriser
les facteurs, peuvent aussi justifier lapplication de lAFC.
Nous illustrons ces situations laide de deux exemples.
Premier exemple : Dans ltude de la liaison entre le diplme obtenu et lemploi
occup, on peut sintresser deux tableaux de mme structure tablis lun en se
limitant aux hommes et lautre en se limitant aux femmes. Le chapitre 10 propose une
srie danalyses pour ce couple de tableaux. Ds maintenant, on peut se rendre compte
de lintrt de lAFC sur une juxtaposition en ligne de plusieurs tableaux. En
ralit, ce tableau est encore un tableau de contingence dont lune des deux variables
est obtenue par croisement des deux variables emploi et sexe.
Second exemple : Les lignes sont les entreprises dun secteur conomique. Les
colonnes sont les postes dactif du bilan. lintersection de la ligne i et de la colonne
j, se trouve la valeur du poste j pour lentreprise i. Un tel tableau peut tre analys
laide dune ACP. En ce cas, les postes sont des variables centres et rduites ;
chaque poste est affect du mme poids ainsi que chaque entreprise. Gnralement,
les entreprises diffrent assez sensiblement par leur total dactif, ce qui induit presque
toujours un effet taille en tant que premier facteur (cf. section 1.6).
Mais ce tableau peut aussi tre analys laide dune AFC. Tout dabord, ses marges
(qui servent de rfrence) ont une signification claire : la somme des termes de la i e
ligne est le total des actifs de lentreprise i ; la somme des termes de la j e colonne
est la valeur du poste j pour lentreprise fictive que constitue lensemble du secteur.
Sans entrer dans les dtails, les principales caractristiques impliques par lAFC de
ce tableau sont les suivantes.
3.11 Conclusion
83
1. Chaque entreprise est analyse au travers de son profil : chacun de ses postes est
exprim par rapport au total des actifs. Un ventuel effet taille est limin.
2. Chaque entreprise a un poids proportionnel son total dactif.
3. Chaque poste de bilan a un poids proportionnel son importance pour lensemble
du secteur.
4. Les postes du bilan sont transforms en profil ; cette harmonisation des donnes
nest pas trs diffrente du couple centrage-rduction en ACP. la diffrence de
lACP, le nuage des postes est analys partir de son barycentre : on tudie les
diffrences entre postes. Ce qui est commun lensemble des postes est limin :
on ne peut observer deffet taille.
Ce second exemple montre que certains tableaux peuvent tre analyss par ACP ou
AFC. Ces deux analyses ne sont pas quivalentes et peuvent fournir des clairages
assez diffrents. On examinera les pondrations induites par lAFC aussi bien pour
choisir entre les deux mthodes que pour interprter conjointement leurs rsultats.
Chapitre 4
86
possde par i mais beaucoup de logiciels acceptent pour xi j une chane de caractres
dsignant la modalit (codage dit alphabtique ).
Naturellement, mme lorsque ce sont des nombres, les valeurs xi j sont des codifications qui ne possdent pas de proprits numriques. Si la variable j est la couleur
des individus, cette couleur peut tre codifie ainsi : bleu = 1, blanc = 2, rouge = 3.
Il est clair que la moyenne entre bleu et rouge na pas grand sens et ne peut tre
considre comme tant blanc ! Il nest donc pas possible de traiter directement ce
tableau par ACP (ou AFC) : les tableaux IndividusVariables qualitatives possdent
des spcificits et leur analyse factorielle ncessite une mthode spcifique.
variables qualitatives
j
J
individus
xij
I
Figure 4.1 Tableau des donnes sous forme de codage condens. I : nombre et ensemble des
individus. J : nombre et ensemble des variables qualitatives. xi j : codage condens de la valeur de
lindividu i pour la variable j (numro ou chane de caractre).
variable 1
1
87
variable j
1 k Kj
variable J
K
individus
marge
J
0100
xik
0010
I
marge I1
Ik
IK
IJ
88
K3
q
Iklq
K2
1
k
K1
variable j
k
variable l
q
K
variable j
variable l
0
0
Ik
Iqk
Iqk
Iq
K
marge
JIk
Figure 4.4 Tableau de Burt. Le tableau est symtrique. Les tableaux J situs sur la diagonale sont
diagonaux. Iqk : nombre dindividus possdant la fois la modalit q (de la variable l) et la
modalit k (de la variable j). Ik : nombre dindividus possdant la modalit k (de la variable j).
4.2 Objectifs
89
Ce tableau est analogue une matrice des corrlations en ce sens quil rcapitule
lensemble des liaisons entre les variables prises 2 2. Il contient beaucoup moins
dinformation que lhypertableau et ne permet pas de reconstruire le TDC.
4.2 OBJECTIFS
La problmatique de lACM est apparente celle de lACP (tude dun tableau IndividusVariables) mais peut tre considre aussi comme une gnralisation de celle de
lAFC (tude de la liaison entre plusieurs variables qualitatives). Ces deux aspects sont
toujours plus ou moins explicitement prsents dans les objectifs de lACM, prsents
ici partir des trois familles dobjets qui interviennent en ACM : les individus, les
variables et les modalits des variables.
90
tudies. Ainsi, une variable ne pourra tre considre comme un indicateur de statut
social que si elle est lie la fois la catgorie socio-professionnelle, au type de
diplme, etc.
Remarque. Par rapport lACP, on cherche, selon ce second point de vue, une
variable quantitative pour synthtiser un ensemble de variables qualitatives (et non
quantitatives) ce qui implique, dune faon ou dune autre, daffecter un coefficient
chaque modalit de chaque variable ; pour un individu, la valeur de la variable
synthtique est alors la somme des coefficients des modalits quil possde.
91
Les objectifs indiqus dans ltude des variables et des individus sexpriment ainsi
en grande partie laide des modalits.
Lorsque les programmes dAFC ont commenc tre diffuss, lide est venue dappliquer ces programmes des TDC. Rapidement, on sest rendu compte que cette
mthodologie fournissait des rsultats intressants, cest--dire faisait apparatre des
structures du tableau des donnes mettant en jeu un grand nombre de lignes et de
colonnes.
En fait, conue pour traiter des tableaux de frquence, lAFC en tant que mthode
ne peut sappliquer aux tableaux IndividusVariables qualitatives. En revanche, les
calculs de lAFC, cest--dire concrtement le programme, peuvent bien sr tre
appliqus aux TDC. Mais, dans ce cas, ces calculs doivent tre rinterprts en fonction
de la nature particulire du tableau. Ces calculs, munis de cette nouvelle interprtation,
constituent une mthode part entire ; do lintroduction du vocable Analyse des
Correspondances Multiples. LAFC dun TDC nest quune faon pratique de raliser
les calculs, dailleurs incomplte puisquelle ignore la notion de variable et donc ne
fournit aucun rsultat les concernant.
Cela tant, nous suivrons cette dmarche historique et commode pour prsenter
lAnalyse des Correspondances Multiples.
Un TDC possde non seulement une nature diffrente de celle dun tableau de
contingence (ils codent les donnes diffremment) mais aussi des proprits numriques particulires. Les plus importantes sont celles-ci (cf. Figure 4.2) :
1. les valeurs dans le tableau ne sont que des 0 et des 1 ;
2. les colonnes peuvent tre regroupes par paquets (qui correspondent chacun
une variable) dont la somme est une colonne compose de 1 ;
3. la somme des nombres dune mme ligne est constante et gale J , nombre total
de variables.
Les sections suivantes montrent que les distances, les poids et les facteurs de lAFC
dun TDC correspondent aux objectifs pralablement fixs.
92
=
(xik xlk )2
d 2 (i, l) =
Ik
J
J
J
Ik
k
Ik
Ih
i
93
modalits dune mme variable sont obligatoirement assez loignes lune de lautre
dans lespace. Deux modalits possdes par les mmes individus sont confondues.
Les modalits rares sont loignes de toutes les autres. Cette distance traduit bien le
premier des deux points de vue sur la ressemblance entre modalits indiqus dans les
objectifs.
En appliquant ce calcul la distance entre une modalit k et le centre de gravit
G K du nuage des modalits (correspondant une modalit possde par tous les
individus), on trouve : d2 (k, G K ) = (I /Ik ) 1 ; cela spcifie linfluence de leffectif
dune modalit sur sa distance au point moyen.
Le poids de la modalit k vaut Ik /I J ; il est proportionnel leffectif Ik .
Remarques
1
Ik
(1 )
J
I
Ce rsultat montre que, dans linfluence dune modalit rare, le faible poids ne
suffit pas compenser leur loignement. Par exemple, une modalit prsente dans 1 %
seulement de la population possde une inertie (cest--dire une influence) presque
deux fois plus grande quune modalit prsente dans 50 % de la population. Concrtement, il est courant de voir les premiers facteurs dune ACM dtermins presque
exclusivement par quelques modalits trs rares partages par les mmes individus.
Comme il est souvent beaucoup plus intressant de dgager des phnomnes gnraux
plutt que ces phnomnes ponctuels, on cherche, en pratique, viter les modalits
trop rares (en effectuant des regroupements).
En sommant les inerties des modalits, on montre facilement que linertie totale du
nuage tudi vaut (K /J ) 1. En ACM, comme en ACP et la diffrence de lAFC,
linertie totale des nuages nintervient pas dans linterprtation.
Linertie des K j modalits de la variable j vaut (K j 1)/J . Cette inertie, tant lie
directement au nombre de modalits de la variable j, incite exiger des nombres de
modalits gaux pour toutes les variables actives. En fait, cette diffrence dinertie
entre variables ayant des nombres de modalits diffrents vaut pour lespace entier R I .
Ds linstant que lon considre une seule direction de R I , ce qui est le cas des axes
factoriels, linertie du nuage des K j modalits dune mme variable j est toujours
infrieure 1/J , quantit ne dpendant pas de K j . Il en rsulte quil nest pas gnant,
de ce point de vue, de faire intervenir simultanment en actif des variables ayant des
nombres de modalits diffrents. Ce problme sera nouveau abord en section 4.3.5.
94
1 xik
G s (k)
ls kK J
1 xik
Fs (i)
ls iI Ik
Du fait que xik ne prend que les valeurs 0 ou 1, ces relations de transition sinterprtent
95
tant que ressemblance entre deux classes dindividus. Par exemple, en dcrivant un plan
factoriel sur lequel apparaissent diffrents repres sociaux, on interprte la proximit
entre les modalits retraits et plus de 65 ans en terme dassociation (ce sont presque
les mmes individus qui possdent ces deux modalits) et la proximit entre 60 65 ans
et plus de 65 ans en terme de ressemblance (ces deux classes dindividus possdent
des caractristiques identiques quant aux autres variables). Ainsi, les relations de
transition, mme si elles ne sont pas utilises dans le cadre strict dune reprsentation
simultane, confrent la reprsentation des modalits les proprits souhaitables
dgages dans lexpos des objectifs.
kK j
La projection conserve cette proprit. Lensemble des modalits dune mme variable
est donc centr sur lorigine pour tous les graphiques ; les facteurs opposent entre elles
la fois lensemble de toutes les modalits et lensemble des modalits de chaque
variable.
b) Sous-espace engendr par les modalits dune variable
96
97
2 1
2 0
Figure 4.5 Illustration des deux valeurs extrmes du rapport de corrlation. 8 individus,
reprsents par un symbole diffrent selon leur modalit pour une variable qualitative, figurent
sur un axe reprsentant une variable numrique.
kK j
Notons que le rapport de corrlation tant compris entre 0 et 1, linertie du sousnuage des modalits dune mme variable sur un axe est comprise entre 0 et 1/J : elle
vaut 1/J si Fs appartient au sous-espace engendr par les modalits de la variable.
La quantit maximise par les axes factoriels dans lespace R I est linertie projete
du nuage de lensemble des modalits. En regroupant les modalits dune mme
variable, ce critre nest autre que la moyenne des carrs des rapports de corrlation
entre le facteur et chacune des variables. Il en rsulte que les facteurs Fs de lACM
sont les variables numriques les plus lies lensemble des variables qualitatives
tudies et, en ce sens, constituent bien les variables synthtiques annonces.
La premire relation de transition (cf. section 4.3.4) fournit un clairage sur la faon
dont le facteur Fs est calcul pour chaque individu. chaque modalit k, lACM
affecte le poids G s (k) ; Fs (i)est la moyenne de ces coefficients pour les modalits
possdes par lindividu i ( ls prs).
Les proprits nonces dans ces deux derniers paragraphes permettent de prciser
linfluence relative dune variable en ACM : pour un axe donn, limportance a
98
priori de chaque variable est la mme mais le nombre daxes sur lesquels une
variable peut influer est directement li au nombre de ses modalits. Cela implique
notamment que, si quelques variables trs riches en modalits sont lies entre elles,
les premiers facteurs peuvent nexprimer que ces liaisons et il faudra alors chercher
trs loin dans la suite des facteurs pour percevoir dautres liaisons.
2(j,Ft)
2(j,Fs)
Fs
Figure 4.6 Reprsentation des variables en ACM (carr des liaisons). h2 ( j, Fs ) : rapport de
corrlation entre la variable qualitative j et le facteur Fs . Par construction, pour tout j et tout s :
0 h2 ( j, Fs ) 1. Ce graphique montre que les variables j et j sont trs lies au facteur Fs et
que seule j est lie Ft .
99
100
du fait de la symtrie). Il en dcoule que les facteurs dfinis sur le mme ensemble de
colonnes
K des deux tableaux ne sont pas gaux, mais homothtiques dans le rapport
ls . Les inerties (dans lesquelles les distances interviennent par leur carr) associes
aux facteurs du tableau de Burt sont les carrs de leurs homologues dans le TDC.
101
102
De tels phnomnes sont naturellement invisibles dans les rsultats dune ACP qui
ne tient compte que des liaisons linaires. Paradoxalement, en rduisant linformation
traite (lappartenance une classe ou un intervalle est moins prcise quune valeur
numrique), on augmente la richesse du rsultat ! Notons par exemple que la moyenne
dune classe dindividus comprenant des individus trs grands et des individus trs
petits correspond un individu moyen pour une variable numrique alors quelle
correspond une rpartition dans les deux extrmes pour cette mme variable code
en qualitative.
LACM de variables numriques codes en variables qualitatives est une approximation dune analyse non linaire dans le sens suivant : on cherche des variables
synthtiques qui soient des combinaisons linaires de fonctions quelconques des
variables tudies et non, comme en ACP, des variables elles-mmes. Ce problme
na de sens que dans le cadre dun modle o la population est infinie. En pratique, en
ACM sur une population finie, au lieu de considrer lensemble des fonctions dune
variable, on divise lintervalle des valeurs de la variable en sous-intervalles et lon
considre lensemble des fonctions constantes sur chaque sous-intervalle. En effet,
quand on traite par lACM une variable qualitative j, cette variable est reprsente
dans R I par le sous-espace E j engendr par les indicatrices de ses classes ; E j nest
autre que lensemble des variables ayant une mme valeur pour tous les lments
dune mme classe. Le premier facteur est la combinaison linaire des lments de ces
J sous-espaces E j (chaque lment est une fonction constante sur les classes dune
variable) la plus proche possible de tous ces sous-espaces.
Ce codage permet aussi dtudier des variables dont les distributions sont trs
irrgulires et pour lesquelles le coefficient de corrlation est une mesure de liaison
inadapte. Par exemple, si un lment a une valeur trs loigne des valeurs des autres
lments, il influe de manire prpondrante sur les coefficients de corrlation et un
codage qualitatif le neutralise.
103
104
En ACM, elle scrit (en notant h2 le carr du rapport de corrlation ; cf. section 4.3.6) :
h2 ( j, Fs )
j
4.7 Conclusion
105
Ce critre quilibre le rle de chacune des variables quel que soit son type ; cet
quilibre implique que les variables quantitatives soient centres et rduites.
3. Pour raliser pratiquement une AFDM (en labsence dun logiciel ad hoc), on
juxtapose le tableau des variables quantitatives centres rduites et le tableau disjonctif
complet dans lequel les valeurs 1 pour la modalit k sont remplaces par Ik . Ce
tableau est ensuite soumis une ACP non norme.
4. Les trois graphiques de base de lAFMD reprsentent :
les individus comme en ACP ou en ACM ;
les variables quantitatives comme en ACP (cercle des corrlations) ;
les modalits des variables qualitatives comme en ACP cest--dire
lexact
barycentre des individus qui les possdent (et non pas au coefficient ls prs
comme en ACM).
ces graphiques, on ajoute celui des variables des deux types construit de la faon
suivante : la coordonne de la variable quantitative k sur laxe de rang s est r 2 (k, Fs ) ;
celle de la variable qualitative j vaut h2 ( j, Fs ). Ce graphique a dj t introduit
pour lACM (Figure 4.6) ; il montre simultanment les liaisons entre les variables
des deux types et les facteurs (do sa dnomination carr des liaisons ) mais
sinterprte aussi, pour les variables actives, en terme de contributions au critre (une
autre interprtation, gomtrique, sera donne en 8.4 propos de lAFM). Le carr des
liaisons peut-tre construit partir de nimporte quelle analyse factorielle applique
un tableau dont les lignes sont des individus (ACP, ACM, AFDM, AFM).
4.7 CONCLUSION
LACM est une mthode dtude de plusieurs variables qualitatives dfinies sur un
ensemble dindividus. Sa problmatique est trs riche et va bien au-del dune simple
mise en uvre de lAFC sur un tableau particulier.
Cest l un des aspects de lquivalence entre lAFC sur le TDC et sur le tableau
de Burt. Il existe dailleurs dautres quivalences que celles dj cites ; des points
de vue trs diffrents sur ltude de variables qualitatives ont induit la conception de
mthodes qui conduisent, au moins partiellement, aux mmes rsultats que lAFC sur
le TDC (cf. section 8.6).
Outre quelles permettent de considrer lACM comme une mthode part entire,
ces convergences la renforcent. Les mcanismes de lACM, supportant plusieurs
interprtations, sont dune part adapts une vaste palette de problmes concrets et
dautre part fournissent des rsultats en accord avec plusieurs points de vue.
Chapitre 5
Calculs et dualit
en Analyse Factorielle
5.1 INTRODUCTION
Les mthodes danalyse factorielle prsentes dans les premiers chapitres sont fondes
sur des principes communs : partir dun tableau de donnes, on construit deux nuages
de points reprsentant respectivement les lignes et les colonnes ; ces deux nuages sont
projets chacun sur une suite daxes orthogonaux maximisant linertie projete ; sur
chacun de ces axes, les deux nuages ont la mme inertie projete et les projections des
points sont lies dun nuage lautre par les relations dites de transition.
Dans ce chapitre, nous indiquons comment calculer ces facteurs, montrons la dualit
des deux nuages et donnons des dmonstrations des formules de transition. Le cadre
dans lequel nous nous plaons est assez gnral. Non seulement il recouvre lACP et
lAFC, mais il permet dintroduire et de calculer les facteurs danalyses factorielles
fondes sur dautres distances et dautres poids.
108
obtenir les facteurs et leur inertie, nous utilisons des techniques simples de calcul
matriciel.
Les coefficients m j pondrent linfluence de chaque colonne j dans les distances entre
lments ; cette proprit justifie leur nom de poids des colonnes . Or, lorsque M
nest pas diagonale, ses termes apparaissent comme des poids associs des couples
de colonnes, ce qui na pas de rsonance concrte.
Le produit scalaire (associ d M ) entre deux vecteurs u et v scrit :
u, v M = u Mv = v Mu
o u et v dsignent les transposs des vecteurs colonnes u et v.
Les coordonnes des points de N I et la mtrique de lespace R J dfinissent entirement la forme du nuage mais, dans le calcul des axes dinertie, le poids des points
de N I intervient. Ces poids, nots pi , sont rangs dans une matrice diagonale, de
dimension I , note D. Toute linformation ncessaire pour calculer les facteurs est
contenue dans les trois matrices X , M, D.
Matrice et application linaire. Dans ce chapitre, nous serons conduit considrer
lapplication linaire associe une matrice ; nous utilisons la mme notation pour ces
deux objets. Nous prcisons quil sagit dun endomorphisme lorsque lapplication
associe un vecteur dun espace vectoriel E un autre vecteur de cet espace.
5.2 Calcul des axes dinertie et des facteurs dun nuage de points
109
O
Fu(i)
Figure 5.1 Projection Fu (i) du point i sur laxe dfini par le vecteur unitaire u.
Linertie du nuage projet sur u est gale i pi [Fu (i)]2 . Cette quantit scrit matriciellement en fonction de la matrice diagonale D et du vecteur Fu sous la forme
Fu D Fu . Comme Fu = X Mu, linertie vaut u M X D X Mu.
Chercher un axe de R J tel que linertie du nuage projet soit maximum revient
donc chercher un vecteur u, unitaire pour la mtrique M (i.e. u Mu = 1), rendant
maximum la quantit u M X D X Mu.
u =
s
u s es avec
X DXu = X DX
s
u 2s = 1
u s es =
s
ls u s es
110
u X D X u =
ls u 2s l1
u 2s = l1
Ainsi, avec la contrainte s u 2s = 1, cette inertie est majore par l1 . Ce maximum
est atteint lorsque la premire composante u 1 de u vaut 1 ou 1 et que les autres sont
nulles cest--dire lorsque u = e1 . Linertie du nuage projet sur un axe est donc
maximum lorsque cet axe est colinaire aux vecteurs propres de X D X associs sa
plus grande valeur propre l1 . Elle vaut alors l1 .
Les vecteurs propres de la matrice symtrique X D X tant orthogonaux deux
deux, le mme raisonnement montre que la direction orthogonale u 1 qui maximise
linertie du nuage projet est celle dun vecteur propre associ la deuxime valeur
propre l2 de X D X ; cette inertie vaut alors l2 . La suite daxes orthogonaux maximisant linertie projete est donc dfinie par une suite de vecteurs propres de X D X
rangs par valeurs propres dcroissantes (les valeurs propres sont supposes distinctes
ce qui toujours le cas en pratique).
5.2.5 Calcul des axes dinertie maximum pour une mtrique quelconque
Si la mtrique M nest pas la mtrique identit, le raisonnement ci-dessus sapplique
sans changement majeur. En effet, X D X M dfinit un endormophisme de R J symtrique pour la mtrique M. Rappelons que la M-symtrie dun endomorphisme A est
dfinie par lgalit, pour tout couple de vecteurs u et v, des deux expressions :
u, Av M = Au, v M
Matriciellement : A M = M A ; on retrouve la notion usuelle de matrice symtrique si
M est la matrice identit. Cette galit est vrifie pour X D X M :
u, X D X Mv M = u M X D X Mv = X D X Mu, v M
Lendomorphisme X D X M, tant M-symtrique, est diagonalisable et admet une
base M-orthonorme de vecteurs propres. Comme au paragraphe prcdent, la dcomposition dun vecteur u quelconque sur cette base montre que la solution est donne
par les vecteurs propres de X D X M rangs par valeurs propres dcroissantes.
5.2 Calcul des axes dinertie et des facteurs dun nuage de points
111
X D X Mu s = ls u s
(X M)(X D X Mu s ) = ls (X M)u s
X M X D Fs = ls Fs
Linertie du nuage N I projete sur u s est la somme des carrs des termes de Fs
pondrs par les poids des lments i soit :
pi Fs (i)2 = Fs D Fs = ls
112
Espace
RJ
RI
Mtrique
M
D
Poids
D
M
Coordonnes du point k
k e ligne de X
k e ligne de X
113
travers de cette matrice, il apparat clairement ici que ces axes ne dpendent que des
liaisons linaires entre variables.
fi j
f i j f i. f . j
1=
f i. f . j
f i. f . j
Cette matrice contient les carts (rapports au produit f i. f . j ) entre le tableau des
donnes f i j et le tableau de terme gnral f i. f . j qui correspond lhypothse dindpendance. Cette prsentation des donnes correspond bien aux objectifs de lAFC
dcrits au chapitre 3.
Les matrices M et D sont diagonales de coefficients f . j et f i. respectivement.
Les poids des lignes sont donc gaux aux f i. et ceux des colonnes sont gaux aux
f. j .
b) quivalence entre les deux dfinitions
Pour montrer quavec ces matrices on obtient les rsultats de lAFC prsente au
chapitre 3, il faut montrer que les nuages de lignes et de colonnes obtenus par les
deux approches sont isomorphes. Le nuage des lignes de X est, comme le nuage
des profils-lignes du tableau de donnes, situ dans un espace de dimension J . Les
coordonnes des points sont diffrentes et les deux espaces ne sont pas munis de la
mme mtrique. Lun est muni de la mtrique M et lautre de la mtrique du x2 qui
nest autre que linverse M 1 de M.
On peut vrifier directement que les distances entre les couples de points homologues sont les mmes. Mais cette galit dcoule dun isomorphisme induit par M
que lon peut utiliser dans toute analyse factorielle et qui a une signification intressante en AFC. En effet, la mtrique M de lespace R J dfinit un isomorphisme de R J
dans son dual not R J . Si lon munit R J de la mtrique M 1 , lapplication M est
114
Mu
(R J , M)
1
M
M
(R J , M 1 )
Or le nuage des profils-lignes dans R J , not ici N I , est limage, par cet isomorphisme M, du nuage N I dfini en 5.3.2. En effet, si lon applique M au point i de N I ,
sa j e coordonne devient :
xi j =
f i j f i. f . j M
f i j f i. f . j
fi j
xi j =
=
f. j
f i. f . j
f i.
f i.
5.4 Dualit
115
5.4 DUALIT
5.4.1 Relations entre les axes dinertie et les facteurs des deux nuages
Le calcul des axes dinertie et des facteurs du nuage des colonnes est absolument
identique celui du nuage des lignes. Tous les rsultats concernant le nuage des
colonnes se dduisent de ceux obtenus pour le nuage des lignes, en remplaant X par
sa transpose X et en changeant les matrices M et D.
Ainsi, dans lespace R I , on cherche une suite de vecteurs {vs ; s = 1, ..., I }, chacun
rendant maximum la quantit vs X M X Dvs sous la double contrainte dtre unitaire
(vs Dvs = 1) et orthogonal aux vecteurs dj trouvs (vs Dvt = 0 pour tout t < s). La
solution est donne par lquation :
X M X Dvs = ms vs
qui exprime que vs est vecteur propre unitaire de X M X D associ la valeur propre
ms de rang s. La comparaison de cette quation avec lquation aux facteurs de la
section 5.2.6 (X M X D Fs = ls Fs ) conduit aux deux rsultats suivants.
1. ms = ls : les inerties projetes des nuages N I et N J sur leurs axes principaux de
mme rang sont identiques. Ces valeurs propres
tant positives ou nulles, les inerties totales des deux nuages sont gales s ls . Lorsque les matrices X D X M
et X M X D ne sont pas de mme dimension et admettent des nombres diffrents
de valeurs propres, les valeurs propres non communes aux deux matrices sont
nulles.
2. Les facteurs Fs et les axes vs sont vecteurs propres, de la mme matrice X M X D,
associs la mme valeur propre. Or, les quations aux vecteurs propres caractrisent ces vecteurs la norme prs (sauf en cas dgalit de plusieurs valeurs
116
Espace
Mtrique
Coordonnes
Poids
Axe dinertie
Equation
Norme
Orthogonalit
Facteur
Equation
Norme
Orthogonalit
Inertie sur laxe s
Inertie totale
Nuage N I
RJ
M
X
D
us
X D X Mu s = ls u s
u s M = 1
u s , u t M = 0 si s = t
Fs = X Mu s
X M X D Fs =
ls Fs
Fs D = ls
F
(i)F
s
t (i) pi = 0 si s = t
s
ls
2
s ls =
i
j pi p j x i j
Nuage N J
RI
D
X
M
vs
X M X Dvs = ls vs
vs D = 1
vs , vt D = 0 si s = t
G s = X Dvs
X D X M Gs =
ls G s
G s M = ls
G
(
j)G
s
t ( j)m j = 0 si s = t
s
ls
2
s ls =
i
j pi p j x i j
5.4 Dualit
117
Fs
1
i Fs(i)
RJ
i
RI
j
Gs
Fs(i)
us
Fs
I
Gs(j)
vs
Gs
1
j Gs(j)
Figure 5.3 Relations entre les axes dinertie dun nuage et les facteurs de lautre nuage.
118
RJ , M
RJ*, M -1
Gs = s us
X'
X'
RI*, D -1
u*s
X
v*s
RI, D
Fs = s vs
Figure 5.4 Le schma de dualit. M, D, X et X dsignent ici les applications associes aux
matrices de mme nom. gauche, les espaces en jeu et leur mtrique ; droite, les rsultats de
lanalyse factorielle dans ces espaces.
yjx j =
j
mj
yj
xj
mj
En ACP, o les colonnes de X sont les variables initiales, nous avions propos deux
objectifs : la recherche de projections du nuage des individus et la recherche de
variables synthtiques, combinaisons linaires des variables initiales. Les critres
dajustement choisis, inertie projete maximum du nuage dindividus et variable maximisant la somme des carrs des corrlations avec les autres variables (= inertie projete
du nuage des variables), aboutissent au mme rsultat. Lidentit entre projection du
nuage dindividus et combinaison linaire des variables montre que ces deux objectifs
sont deux expressions dun mme problme exprim travers les individus dune part
et travers les variables dautre part.
5.4 Dualit
119
vs
1
Gs
ls
1
Fs
ls
Elles indiquent que, dans lespace R I , la reprsentation des colonnes (G s ) sert de base
(u s ) la reprsentation des lignes et rciproquement. La liaison entre les facteurs des
deux nuages est donc une liaison fondamentale et il est ncessaire de les interprter
conjointement.
Les formules de transition permettent de calculer les projections de lun des deux
nuages en fonction des facteurs sur lautre nuage. Elles drivent directement des
relations entre axes et facteurs et scrivent :
Fs
Gs
1
X M Gs
ls
1
X D Fs
ls
Fs (i) =
G s ( j) =
1
xi j m j G s ( j)
ls j
1
xi j pi Fs (i)
ls i
Ces formules montrent comment, de faon concrte, les facteurs des deux nuages
doivent sinterprter conjointement, cest--dire comment chacun des ensembles peut
servir de support et daide linterprtation des facteurs de lautre ensemble. Dans une
reprsentation superposant les projections des lignes et des colonnes (pour les facteurs
de mme rang), la relation entre la position dun lment dun ensemble et celles de
tous les lments de lautre ensemble peut sexprimer ainsi : si xi j est positif, il y a
attirance entre i et j, si xi j est ngatif il y a rpulsion. Les poids m j et pi pondrent
cette influence. Un lment i (resp. j) est donc situ du ct des lments j (resp. i)
pour lesquels les valeurs de xi j sont les plus grandes.
Applique lACP norme, la seconde formule de transition montre que la coordonne de la variable centre-rduite j sur laxe de rang s est gale au coefficient de
120
d 2 (., .) =
i
pi d 2 (i, .) =
pi pl d 2 (i, l)
i,l
1 2
d (i, .) + d 2 (., l) d 2 (i, l) d 2 (., .)
2
Cette relation est dite formule de Torgerson . On appelle Analyse Factorielle sur
Tableau de Distances (AFTD) la technique qui, partir dun tableau de distances entre
individus, calcule la matrice W associe et construit la reprsentation des individus
dduite des premiers vecteurs propres de WD (cette ide drive de la proprit selon
laquelle Fs est vecteur propre de WD ; cf. tableau 5.2).
On peut montrer que si la distance d est une distance euclidienne, W correspond
au produit scalaire dont drive d. Si d nest pas une distance euclidienne, les valeurs
121
propres de W D ne sont pas toutes positives. Dans ce cas, on se limite aux vecteurs
propres associs aux valeurs propres positives, cest--dire une approximation euclidienne des donnes.
Si les donnes ne sont pas des distances mais des similarits, on se ramne au cas
prcdent en les transformant en distances. Par exemple, on peut dfinir la distance
par la diffrence entre la borne suprieure des similarits et chaque similarit.
Les formules de transition, outre lintrt fondamental quelles prsentent pour linterprtation conjointe des facteurs des lignes et des colonnes, permettent des conomies
de calcul trs substantielles. En effet, les facteurs de lun des ensembles se dduisant
des facteurs de lautre ensemble, il suffit de diagonaliser une seule matrice pour obtenir
tous les rsultats. Ainsi, au niveau des calculs, une des deux dimensions du tableau
de donnes nest pratiquement pas limite. La plupart des logiciels diagonalisent une
matrice de dimension gale au nombre des colonnes, X D X M par exemple, dont les
facteurs G s sont vecteurs propres. La construction de cette matrice ne ncessite quune
seule lecture ligne ligne du tableau de donnes, proprit prcieuse dans le cas dun
trs grand nombre dindividus ne permettant pas le stockage des donnes en mmoire.
En ACP, o les individus et les variables ne sont pas traits de la mme faon, ce
sont les variables qui constituent les colonnes car elles sont le plus souvent moins
nombreuses que les individus. Lorsquil ny a pas de pondration des variables, cest
la matrice des corrlations qui est diagonalise si les variables sont rduites ; cest la
matrice des covariances, lorsque les variables ne sont pas rduites. Certains logiciels
diagonalisent la plus petite des deux matrices X D X M et X M X D ce qui permet
danalyser des tableaux dans lesquels un petit nombre dindividus est dcrit par un
trs grand nombre de variables.
fi j fi j
f. j
f i. f . j
i
122
propre nulle et que les autres vecteurs propres et valeurs propres sont exactement ceux
de X D X M.
Indiquons le principe de ce calcul. Les deux matrices dfinies par les deux lments
du terme gnral de X D X M admettent, comme vecteur propre associ la mme
valeur propre 1, le vecteur dont toutes les coordonnes sont gales 1 :
fi j fi j
=
f. j = 1
f i. f . j
i
j
La seconde matrice est de rang 1. Elle annule donc tous les vecteurs orthogonaux ce
premier vecteur et notamment tous les autres vecteurs propres de la premire matrice.
X D X Mu = lu
M 1/2 X D X M 1/2 M 1/2 u = lM 1/2 u
123
Relation utilise
X D X
Mu s = ls u s
G s = ls u s
Fs = X Mu s
G s = 1l X D Fs
s
Rsultat
u s et ls
Coordonnes des colonnes actives
Coordonnes des lignes actives ou supplmentaires
Coordonnes des colonnes supplmentaires
Fs (i)G s ( j)
=
ls
s
Cette dernire expression, appele formule de reconstitution des donnes, permet de
calculer les valeurs xi j en fonction des facteurs et des valeurs propres de lanalyse.
En limitant la somme ses premiers termes, on obtient des valeurs approches. La
formule de reconstitution dordre S ne retient que les S premiers termes de la somme ;
plus S est grand, plus lapproximation se rapproche des donnes initiales.
Interprtation dans lespace des matrices
124
v2u'2
1
v1u'1
Figure 5.5 Dans lespace R I J , la reconstitution dordre 2 de X est une projection de X sur un plan.
vs u s , vt u t m j pi
un systme orthonorm et
vs (i) vt (i) pi
u s ( j) u t ( j) m j
0 si s = t
1 si s = t
=
xi j vs (i)u s ( j)m j pi =
pi vs (i)Fs (i) = ls
=
X , vs u s m j pi
s=1
125
Quelques calculs, en procdant par itration sur s, permettent de vrifier que la solution
unique est donne par les premiers facteurs de lanalyse factorielle.
X = I Y E 1 et M = E/(I Q)
La matrice diagonalise scrit :
X D X M = E 1 Y Y /Q
Notons B le tableau de Burt. Dans une AFC sur ce tableau, les matrices X et M
ont pour terme gnral respectivement : (I I jk )/(I j Ik ) et (I j /I Q). Le tableau de Burt
tant symtrique, les matrices M et D sont identiques. En remarquant que le tableau
de Burt est li au TDC (B = Y Y ), ces matrices peuvent scrire :
X = I E 1 Y Y E 1
M = D = E/(I Q)
La matrice diagonalise scrit : X D X M = E 1 Y Y E 1 Y Y /Q 2
Si u s est laxe de rang s issu de lAFC sur le TDC, alors il vrifie :
(1/Q)E 1 Y Y u s = ls u s
Il vrifie aussi lquation de lAFC applique au tableau de Burt :
126
(1/Q)2 E 1 Y Y E 1 Y Y u s = l2s u s
Chapitre 6
128
Rubrique
Effectif
informations locales
276
faits divers
250
page tl
241
accidents
224
informations dpartementales 221
informations sociales
208
informations politiques
206
dcs
204
informations trangres
177
informations conomiques
167
sports
164
larticle de premire page
161
spectacles
161
Rubrique
Effectif
Lariflette
159
reportage de la page 2
150
jeunesse ducation
139
courrier des lecteurs
128
courrier des consommateurs 127
au jour le jour
120
pour vous Madame
117
petites annonces
112
crmonies officielles
109
annonces sur lemploi
91
informations agricoles
78
feuilleton
46
informations maritimes
17
129
Zone
dhabitat
Sexe
Situation
de
famille
Age
Enfants
charge
Rurale
Centre ville
Z.U.P.
Rsidentielle
non-rponse
Homme
Femme
non-rponse
Clibataire
Mari
Veuf
Autre
non-rponse
18-26 ans
27-38 ans
39-55
+ de 55 ans
non-rponse
Pas denfant
1 enfant
2 enfants
3 enfants et +
132
77
72
43
16
198
137
5
77
229
24
4
6
75
91
106
61
7
159
46
63
72
CSP
Niveau
dinstruction
Mode
dhabitat
Agriculteur
Gros Com. Indus.
Com. Artisan
Cad. sup-Prof. lib.
Cad.moyen
Employ
Ouvrier
Etudiant-scolaire
Retrait-div.-inactif
Femme foyer
non-rponse
Primaire
Primaire suprieur
Techniq. commerc.
Secondaire
Suprieur
non-rponse
Maison propritaire
Maison locataire
Appart. propritaire
Appart. locataire
non-rponse
35
14
43
36
55
31
27
8
25
10
66
117
66
23
51
76
7
113
62
43
114
8
Il existe aussi des tableaux mixtes qui prsentent des groupes de variables
numriques et des groupes de variables qualitatives.
Un autre exemple de tableaux comprenant plusieurs groupes de variables est celui
de mesures (numriques ou qualitatives) effectues plusieurs dates. Les variables
mesures peuvent tre les mmes chaque date ou varier dans le temps. Contrairement
au cas de lenqute Ouest-France, le nombre de tableaux peut tre alors trs grand.
Pour analyser des donnes structures en plusieurs groupes de variables, il est
possible dappliquer les mthodes classiques danalyse factorielle : ACP pour des
variables numriques et ACM pour des variables qualitatives. Une mthodologie
sest dgage usant trs largement de la technique des lments supplmentaires :
un ou plusieurs tableaux servent de base lanalyse, les autres tableaux sont mis en
supplmentaire.
Dans lenqute Ouest-France, qui comporte deux groupes de variables qualitatives,
deux solutions de ce type sont possibles :
130
131
132
Aprs stre assur que la rpartition des individus est peu prs rgulire sur le premier plan factoriel, on examine la projection des rubriques-non-lues et des rubriqueslues (cf. Figure 6.1). Notons dabord que les deux modalits dune mme rubrique
(lue et non-lue) sont toujours alignes avec lorigine des axes. En effet, en ACM, lorigine des axes est au barycentre des modalits dune mme variable (cf. section 4.3.5) ;
133
lorsquil ny a que deux modalits, comme cest le cas ici, lorigine est situe sur le
segment qui les joint. Certaines modalits, comme les informations conomiques par
exemple, ont des positions peu prs symtriques car les effectifs des lecteurs et des
non-lecteurs de cette rubrique sont presque gaux (167 et 173). Lorsque ces effectifs
ne sont pas du tout quilibrs (cas des informations maritimes qui nintressent que
17 personnes sur 340), la modalit lourde (non-lue) est prs de lorigine tandis que la
modalit lgre (lue) est excentre. En termes de mcanique, on retrouve le principe
du bras de levier.
Sur le plan des deux premiers facteurs, certains regroupements sont visibles, notamment celui des informations trangres, conomiques, politiques et sociales avec les
articles de fond de la page 1 et de la page 2 ainsi que la rubrique jeunesse et ducation.
Les modalits lue de ces rubriques sont toutes situes en haut du graphique (coordonne positive sur le deuxime facteur) et les modalits non-lue sont toutes situes en bas
du graphique (coordonne ngative sur le deuxime facteur). Le point commun entre
ces diffrentes rubriques est leur aspect relativement intellectuel. Cela explique sans
doute quelles intressent (ou nintressent pas) les mmes sous-populations. Notons
134
F2
2 = 12.5 %
2 = .125
info maritimes
info trangres
info conomiques
info politiques
dcs
accidents
page 2
ducation
page 1
info sociales
spectacles
faits divers
annonces emploi
sports
tl
pour vous Madame
petites annonces
info dpartementales
lariflette
feuilleton
au jour le jour
crmonies
agriculture
info maritimes
courrier consommateurs courrier lecteurs
petites annonces
info locales
annonces emploi
agriculture
info locales
tl
faits divers
courrier lecteurs
crmonies
F1
1 = 15.5 %
lariflette
info dpartementales
sports
ducation
page 2
spectacles
courrier consommateurs
accidents
dcs
feuilleton
page 1
pour vous Madame
info conomiques
LEGENDE
info sociales
info trangres
info politiques
Figure 6.1 Les deux premiers facteurs de lanalyse des rubriques : les rubriques. En haut
gauche, lallure du nuage des individus.
que les proximits entre ces rubriques prises deux deux ne sont pas forcment trs
fortes ; par contre, elles sont globalement assez proches entre elles (la lecture de lune
de ces rubriques est associe frquemment la lecture de deux ou trois autres rubriques
du groupe). Lintrt dune analyse multidimensionnelle est de mettre en vidence de
tels phnomnes.
Le premier facteur
Les rubriques dont la contribution linertie du premier facteur est la plus importante
(en cumulant celle des deux modalits) sont : le courrier des lecteurs, le courrier des
consommateurs, les dcs et les autres rubriques dinformation plutt anecdotiques.
Les modalits lue sont toutes situes lextrme-droite et les non-lue sont situes
lextrme-gauche. Ce facteur oppose donc les lecteurs et les non-lecteurs de plusieurs
135
de ces rubriques. On peut aussi suivre lordre des rubriques lues et non-lues qui
apparat sur le premier axe et qui donne un classement des enquts : depuis les
lecteurs assidus des rubriques trs anecdotiques (courrier des lecteurs, feuilleton,
crmonies officielles, etc.) jusqu ceux qui non seulement ne sintressent pas ces
rubriques mais ne lisent mme pas les informations locales qui ont pourtant un large
public (276 sur les 340 enquts).
Schmatiquement, ce facteur classe les lecteurs suivant lintrt quils portent aux
rubriques anecdotiques.
Le deuxime facteur
Le deuxime facteur oppose les lecteurs des rubriques intellectuelles aux nonlecteurs de ces mmes rubriques. Les premiers nprouvent gure dintrt pour les
rubriques dcs et accidents dont les modalits non-lue ont des coordonnes positives
sur le deuxime axe.
La modalit lue de la rubrique sports est assez proche de celles des rubriques intellectuelles . Mais la qualit de reprsentation des deux modalits des sports (identiques
car elles sont alignes avec lorigine) est faible sur les deux premiers axes (0.010 et
0.068) ; cela indique que sa position dans lensemble des rubriques est mal exprime
sur ce plan. Le rapprochement avec les rubriques intellectuelles existe, mais ce nest
pas ce qui caractrise le plus la lecture des sports : on en conclut aussi que lattitude
vis--vis de cette rubrique est assez indpendante de la dispersion gnrale des profils
de lecture reflte par le premier plan. Pour prciser la situation des sports dans la lecture du journal, il faut tudier plutt le troisime facteur o sa qualit de reprsentation
est la plus forte (0.279).
Nous nattachons gure dimportance la rubrique informations maritimes dont
la position trs excentre est due son faible effectif. Elle est en ralit peu lie
aux deux premiers facteurs, comme lindiquent ses qualits de reprsentation et ses
contributions linertie (sa qualit de reprsentation sur ces facteurs vaut 0.002 et
0.041 et les contributions cumules de ses deux modalits valent 0.005 et 0.013).
b) Les individus
Les observations prcdentes ne rpondent pas la question qui lit quoi ? . Lanalyse
factorielle permet aussi dy rpondre. En effet, la reprsentation des rubriques, on
peut superposer une reprsentation des individus, ici les 340 enquts (pour des raisons
de lisibilit, nous navons pas reproduit cette superposition). Dans ce nouveau nuage de
points, deux aspects sont retenir : dune part, deux individus sont proches sils lisent
(et ne lisent pas) les mmes rubriques ; dautre part, un individu est situ, une homothtie prs, au centre de gravit des modalits lue ou non-lue des rubriques quil lit ou
ne lit pas. Concrtement, cela signifie quun individu situ au bas droite du graphique
136
est un lecteur assidu dun ensemble de rubriques assez peu intellectuelles (courrier
des lecteurs, feuilleton, crmonies officielles, etc.) dont les coordonnes sur laxe
horizontal sont fortement positives comme la sienne. Mais les informations politiques,
trangres, sociales ou conomiques ne lattirent gure car, pour ces rubriques, ce sont
les modalits non-lue qui ont, comme lui, une coordonne ngative sur laxe vertical.
Mais la position de tel ou tel point ne nous intresse gure : le seul intrt de ce
graphique est de voir que les enquts se rpartissent assez uniformment sur le plan
et quil ny a donc pas de classes de profils de lecture trs marques. Par contre, la
position des enquts nous intresse pour reprsenter les tendances du qui ? dans la
question qui lit quoi ? . Cest l quintervient le signaltique des enquts puisque
lon connat pour chaque individu son sexe, son niveau dinstruction (cod en cinq
niveaux), sa CSP, etc. Pour mieux voir comment ces catgories sont lies aux modes
de lecture, il est possible de reprsenter les deux barycentres des hommes et des
femmes, les cinq barycentres du niveau dinstruction, les huit barycentres des CSP,
etc. Ce point de vue sur lanalyse des individus se confond avec ltude des modalits
supplmentaires.
c) Les variables supplmentaires : le signaltique
La projection des modalits de ces variables sur le plan 1-2 (seulement les plus loigns
du barycentre) est donne figure 6.2 o sont rappeles quelques-unes des rubriques.
Lune des variables est troitement lie au premier plan : cest le niveau dinstruction.
Les cinq niveaux dinstruction vont du plus faible au suprieur en passant par les
niveaux intermdiaires. Il est remarquable de voir ces 5 niveaux ordonns et aligns ;
ils sont de plus trs loigns de lorigine qui reprsente le barycentre des 340 enquts.
Le fait de retrouver lordre naturel des cinq modalits du niveau dinstruction est un
argument qualitatif mais essentiel pour conclure que cette variable est lie la structure
des profils de lecture schmatise sur le premier plan. Lloignement, par rapport
lorigine, des cinq points est un autre argument qui peut tre quantifi par le calcul du
rapport de corrlation. Le carr de ce rapport, pour un facteur donn, est proportionnel
la somme des contributions des modalits de cette variable au facteur (cf. section 4.3.6
page 96). Parmi les variables supplmentaires, cest le niveau dinstruction qui a le
plus fort rapport de corrlation avec le second facteur (h2 = 0.247) : en remplaant
les 340 individus par les cinq barycentres des classes de niveau dinstruction, on
conserve presque le quart de linertie ! Le niveau dinstruction est donc trs li au
profil de lecture (h2 (F1, niveau dinstruction) = .157) ; calcul pour le plan, linertie
des barycentres des modalits du niveau dinstruction rapporte linertie totale
vaut : .207). Les lecteurs dont le niveau dinstruction est faible sont en moyenne en
bas droite du graphique : ils ont dj t dcrits. Ils sopposent aux enquts de
niveau dinstruction lev, situs en haut gauche. Ces derniers lisent les informations
intellectuelles et passent sans sarrter sur les pages des dcs, des accidents et des
137
F2 : 12.5 %
2 : .125
TUDIANT
info maritimes
TUDES SUPRIEURES
info trangres
CADRE SUPRIEUR
info conomiques
page 2
ZONE RSIDENTIELLE
accidents
dcs
ducation
CLIBATAIRE
spectacles
16-26 ANS
faits divers
HOMME
tl
CENTRE VILLE
sports
TUDES SECONDAIRES
F1 : 15.5 %
1 : .155
27-38 ANS
info locales
39-55 ANS
RETRAIT
info dpartementales
>55 ANS
ZONE RURALE
dcs
OUVRIER
ZUP
page 1
AGRICULTEUR
FEMME
LEGENDE
Majuscule : signaltique
Minuscule : rubrique non lue
Minuscule italique : rubrique lue
COMMERANT
TUDES PRIMAIRES
info conomiques
VEUF
138
Cette structure se retrouve aussi dans ltude de la CSP : les tudiants et les cadres
suprieurs sont des lecteurs intellectuels ; les retraits, agriculteurs, commerants et
ouvriers sont des lecteurs plus anecdotiques . Une seule variable, la zone dhabitat,
traduit une dispersion en partie orthogonale la premire bissectrice : les habitants de
la ZUP, situs en moyenne en bas gauche du ct des modalits non-lue, lisent peu
de rubriques dans le journal, beaucoup moins en tout cas que ceux du centre ville.
F4
4 = 6.3 %
4 = .063
info maritimes
annonces emploi
petites annonces
16-26 ANS
sports
TUDIANT-SCOLAIRE
EMPLOY
CLIBATAIRE
info locales
spectacles
feuilleton
lariflette
OUVRIER
spectacles
FEMME
F3
3 = 7.0 %
3 = .070
AGRICULTEUR
agriculture
CAD. SUP. PROF. LIB.
Figure 6.3 Le plan 3-4 de lanalyse des rubriques. En italiques : rubriques lues ; en haut droite,
lallure du nuage des individus.
139
6.4.2 Facteurs 3 et 4
La figure 6.3 donne la projection des points les plus caractristiques du plan 3-4 ainsi
que lallure du nuage des individus.
Le troisime facteur met en vidence une diffrence entre les profils de lecture,
indpendante de celle traduite sur le premier plan. Trois rubriques contribuent elles
seules la moiti de linertie du facteur : sports, pour vous Madame et spectacles. Ce
facteur montre une opposition entre la premire de ces rubriques et les deux autres :
les lecteurs des sports ne sont pas lecteurs de pour vous Madame et des spectacles et
rciproquement.
Les premiers sont plutt des hommes et les seconds plutt des femmes (le sexe est
la variable du signaltique la plus lie ce facteur : son rapport de corrlation atteint
0.318 !).
Le quatrime facteur particularise les lecteurs des petites annonces et annonces
pour lemploi, ces deux variables contribuant 48 % de linertie de cet axe. Ce facteur
est peu li aux variables du signaltique.
1. une typologie des individus suivant leur signaltique : deux individus sont
proches si leurs signaltiques se ressemblent (et ce, indpendamment de leurs
lectures) ;
2. une tude des liaisons entre les diffrentes variables du signaltique ;
3. avec les lments supplmentaires, une tude de la liaison entre les principaux
facteurs de variabilit du signaltique et la lecture de chaque rubrique considre
sparment.
La figure 6.4 donne les projections des modalits actives et des modalits supplmentaires les plus loignes du barycentre sur le plan 1-2. En outre, lallure du nuage des
individus est figure.
Sa valeur propre, moyenne des rapports de corrlation entre le facteur et chacune des
variables actives, vaut 0.406. Cette valeur leve indique une forte liaison globale
140
27-38 ans
gros commer.-indus.
2 enfants
suprieur
1 enfant
3 enfants et +
mari
39-55 ans
primaire suprieur
agriculture
maison propritaire
rural
commercant-artisan
employ
secondaire
dcs
appart. propri.
accidents
ouvrier
centre ville
spectacles
homme
zup
info. loc.
maison locataire
appart. locataire
rsidentiel
tudiant-scolaire
16-26 ans
femme
dcs
autre
crmonies
clibataire
1 = .406
F1 = 9.28%
1
feuilleton
agriculteur
au jour le jour
sans enfant
primaire
56-80 ans
retrait-inactif
veuf
F2
2 = .295
2 = 6.73%
Figure 6.4 Le plan 1-2 de lanalyse du signaltique. En italiques : rubriques lues ; en bas droite,
lallure du nuage des individus.
entre les variables. Lexamen de chacune des variables du signaltique montre que
toutes, sauf une, le sexe, sont trs lies ce facteur et donc trs lies entre elles.
Linterprtation gnrale de ce facteur est simple : il met en vidence les plus jeunes,
qui cumulent beaucoup de modalits qui les caractrisent bien : dans lensemble, ils
sont tudiants, de niveau dinstruction lev, clibataires, sans enfant et habitent une
zone rsidentielle ; toutes ces modalits, comme celles des CSP assez leves dans la
hirarchie sociale, sont situes du mme ct.
Le deuxime facteur
Il dtache trs nettement des autres un groupe de trois modalits souvent partages :
g, veuf, et retrait. Ces trois modalits contribuent un peu plus de la moiti de
linertie de ce deuxime facteur. Ce deuxime axe met donc en vidence les plus gs.
141
Finalement, on peut dire que ce plan est trs structur autour le la variable ge avec
laquelle varient la plupart des autres variables du signaltique. Notons au passage la
mise en vidence dune liaison non linaire entre lge et le nombre denfants : la
modalits pas denfants ( charge) est associe la fois aux plus jeunes et aux plus
gs.
Description de lchantillon
Cette analyse permet de dcrire lchantillon, ou plus exactement les liaisons entre les
variables dans lchantillon. Les rsultats ne sont pas trs originaux (que les jeunes
soient plutt clibataires et les veufs plutt gs nest pas une dcouverte !). Mais
cette banalit est un bon signe : une incohrence avec la ralit (bien connue) de la
population gnrale signalerait un biais de lchantillon par rapport la population
quil est cens reprsenter. Cette analyse attire aussi lattention sur la liaison entre
certaines variables : par exemple ici, le niveau dinstruction est trs li lge de
lenqut (il varie en sens inverse). Il faut prendre garde dans linterprtation des
rsultats ce lien sous-jacent : linflchissement avec lge des profils de lecture vers
des rubriques de moins en moins intellectuelles (mis en vidence dans la premire
analyse) traduit peut-tre essentiellement le moindre niveau dinstruction des enquts
gs.
142
143
En conclusion, que ce soit pour ltude des individus ou pour celle des variables,
dans une analyse o plusieurs groupes de variables htrognes interviennent simultanment en actifs, il est ncessaire dquilibrer leur influence.
144
variables des deux groupes (cf. Figure 6.5). Cette quatrime analyse est assez diffrente des autres en ce sens quelle est focalise sur la liaison entre les variables du
signaltique et la lecture des rubriques.
Ce tableau est structur, en ligne et en colonne, par les variables. La marge de chaque
sous-tableau dfini par lensemble des modalits dune variable du signaltique (ou
dune rubrique) est proportionnelle celle du tableau entier. Ceci implique que le
barycentre des modalits dune mme variable est, comme en ACM, situ lorigine
des axes.
Signaltique
Rubriques
Signaltique
Rubriques
Figure 6.5 Le tableau croisant signaltique et rubriques est un sous-tableau du tableau de Burt.
Les modalits les plus extrmes sont des modalits de non-lecture : celles des dcs,
des accidents et des informations locales. Ces 3 modalits, concernant des rubriques
trs anecdotiques, sont situes du mme ct que les modalits de lecture des rubriques
intellectuelles : informations trangres, politiques, conomiques et les spectacles.
Cest un axe de niveau intellectuel.
145
Du point de vue du signaltique, cest un facteur de niveau social ; du point de vue des
rubriques, cest un facteur de niveau intellectuel des rubriques. Les modalits caractrisant un niveau social lev sont lies aux modalits de lecture des rubriques les plus
intellectuelles et aux modalits de non-lecture des rubriques les plus anecdotiques (et
inversement). Sur ce facteur, on retrouve une structure assez proche de celle remarque
dans la premire analyse (non pas le long dun facteur mais le long de la deuxime
bissectrice du plan 1-2 sur laquelle stageaient notamment les 5 modalits ordonnes
du niveau dinstruction).
Le lien entre les profils de signaltique et de lecture est donc en trs grande partie
exprim par la liaison entre le niveau social des lecteurs et le niveau intellectuel des
rubriques lues.
d) Le deuxime facteur
dcs
F2 : 16.0 %
2 : .007
sports
HOMME
sports
info politiques
feuilleton
+ de 55 ANS
AGRICULTEUR
agriculture
spectacles
OUVRIER
RETRAIT-INACTIF
courrier lecteurs
accidents
38-55 ANS
dcs
au jour le jour
PRIMAIRES SUPRIEURES
VEUF
TUDES PRIMAIRES
crmonies
COMMERANT-ARTISAN
FEMME
TUDES TECHNIQUES
info conomiques
26-36 ANS
TUDES SECONDAIRES
info trangres
faits divers
spectacles
CLIBATAIRE
TUDES SUPRIEURES
accidents
Majuscules : Signaltique
Minuscules : rubrique non lue
Minuscules italiques : rubrique lue
LEGENDE
F1 : 58.5 %
1 : .025
TUDIANT
- de 26 ANS
info locales
146
6 Exemple de traitement de tableau multiple par ACM et AFC
6.8 Conclusion
147
6.8 CONCLUSION
Ces trois analyses ont permis dtudier plusieurs aspects de ces donnes.
Mais nous avons mis en vidence les limites des techniques classiques qui ne
permettent ni la comparaison globale de plusieurs groupes de variables (structures
communes et spcifiques) ni la construction des typologies des lignes et des colonnes
dans laquelle les groupes sont quilibrs.
LAFM, prsente dans le chapitre suivant, est conue spcialement pour lanalyse
de tableaux comportant plusieurs groupes de variables. Elle ne prsente pas ces limites
et permet une comparaison systmatique des groupes travers lensemble de points
de vue trs divers que la richesse de la structure de groupes de variables suggre.
Chapitre 7
Ce chapitre prsente une mthode factorielle adapte au traitement de tableaux dans lesquels un ensemble dindividus est dcrit par plusieurs groupes de variables : lAnalyse
Factorielle Multiple (AFM). Cette prsentation sarticule autour de deux exemples.
Le premier rassemble des apprciations sensorielles fournies par un ensemble
de dgustateurs sur un ensemble de vins. Les diffrents rsultats de lAFM sont
comments de faon mettre en vidence les problmes auxquels ils apportent
des solutions. Les premiers rsultats prsents sont trs proches de ceux des
mthodes classiques ; les rsultats sans quivalents dans lACP ou lACM sont
introduits progressivement.
Le second est lenqute Ouest-France tudie par les mthodes classiques dans
le chapitre prcdent.
150
variables
1
29 31
vins
xik
21
Figure 7.1 Tableau analys. Pour les 29 premires variables, xik est la moyenne des apprciations
des 36 juges sur le vin i propos de la variable k. Pour les deux dernires variables, xik est le
numro de la modalit du vin i pour la variable k.
partir de ces donnes, un fichier plus petit a t construit (cf. Figure 7.1) : pour
chaque vin et chaque variable de la fiche, on a calcul la moyenne des apprciations
de lensemble des juges. Lorsquune donne est manquante, elle nintervient pas dans
la moyenne.
ce fichier de 29 variables numriques, on ajoute deux variables qualitatives qui
caractrisent lorigine des vins : laire dappellation (Saumur, Bourgueil, Chinon) et
le type de sol (squence de rfrence, milieu 2, milieu 3 et milieu 4 ; la squence
de rfrence est, selon lhypothse des chercheurs, le type de sol qui possde les
meilleures potentialits viticoles).
Le tableau obtenu nest pas homogne puisquil prsente la fois des variables
quantitatives et qualitatives. Dans la suite, les variables qualitatives apparaissent au travers de leurs modalits : lors de linterprtation, on parle peu de la variable appellation
mais surtout de la modalit Saumur, de la modalit Bourgueil, etc.
151
dimensions. Dans cette optique, une ACP semble bien adapte au tableau. Dans cette
ACP, comme dans lAFM par la suite, les variables sont normes pour quelles aient
la mme influence a priori.
Toutefois, lexamen de la fiche de dgustation montre que les variables sont structures en groupes. Tout dabord, les variables qui caractrisent lorigine des vins jouent
un rle bien part : elles ne doivent pas participer la construction des principaux
facteurs de variabilit mais simplement intervenir titre illustratif. Cela tant, mme
parmi les variables sensorielles, on distingue :
5 variables relatives lolfaction au repos ; intensit olfactive, qualit aromatique, note fruite, note florale, note pice ;
3 variables relatives la vision ; intensit visuelle, nuance (orang/violet), impression de surface (larmes) ;
10 variables relatives lolfaction aprs agitation : intensit olfactive, qualit
olfactive, note fruite, note florale, note pice, note vgtale, note phnolique,
intensit aromatique de bouche, persistance aromatique de bouche, qualit aromatique de bouche ;
9 variables relatives la gustation : intensit dattaque, acidit, astringence,
alcool, quilibre acidit-astringence-alcool, velout, amertume, intensit de fin
de bouche, harmonie ;
2 variables relatives un jugement densemble ; qualit densemble, typicit.
Le dernier groupe comporte deux variables synthtiques : nous dcidons de leur faire
jouer un rle illustratif.
Les variables sur lesquelles nous appuyons principalement lanalyse sont donc
structures en quatre groupes : olfaction au repos, vision, olfaction aprs agitation,
gustation. Lexistence de cette structure pose dabord un problme technique : une
ACP globale ne risque-t-elle pas dtre influence de faon prpondrante par un seul
groupe ? Auquel cas, la prise en compte simultane des quatre groupes serait illusoire.
Ainsi, le premier problme pos par le traitement simultan de plusieurs groupes de
variables est la pondration de ces groupes. Dans un premier temps, lAFM peut tre
vue comme une analyse factorielle (ici une ACP) dans laquelle linfluence des groupes
de variables est quilibre. Cest dans cet esprit que nous effectuons une premire
prsentation des rsultats de lexemple dans la section 1.4. Laspect technique de la
pondration est prsent dans la section 1.3.
En outre, la prise en compte de la structure en groupes dun ensemble de variables
enrichit la problmatique de ltude. De mme que lon cherche comparer des
vins (en termes de ressemblances) ou des variables (en termes de liaisons), on peut
chercher comparer globalement les groupes de variables. On dira que deux groupes
de variables se ressemblent si deux vins proches pour lun des deux groupes (par
exemple, laspect visuel) sont aussi proches pour lautre (par exemple, le got). On
152
tente donc de mettre en vidence une typologie des groupes, cest--dire, dans notre
exemple, des aspects sensoriels mis en jeu dans la dgustation. LAFM fournit une
telle typologie : son application lexemple est dcrite aux sections 1.6 et 1.7.
Lexistence de groupes de variables conduit vouloir dcrire les vins, non seulement
au travers de lensemble des variables mais aussi au travers de chacun des groupes.
Pour cela, il est toujours possible de raliser des analyses spares des groupes. Toutefois leurs rsultats, tant obtenus indpendamment, sont difficilement comparables
entre eux : par exemple, une ressemblance, mme forte, entre sous-espaces factoriels peut tre masque par des rotations. Pour comparer les reprsentations des vins
vus par chacun des groupes, il est ncessaire de les situer dans un rfrentiel commun. LAFM rpond ce problme en fournissant une reprsentation factorielle
dans laquelle figurent les reprsentations des vins dcrits par chacun des groupes de
variables considr sparment. Son application lexemple est dcrite section 1.5.
En rsum, la prise en compte dune structure en groupes dun ensemble de
variables pose un problme technique (la pondration des groupes) et enrichit la
problmatique dune tude (comparaison des groupes ; comparaison des typologies
des vins dfinies par chaque groupe). LAFM propose une solution technique (la pondration dcrite dans la section suivante) au problme technique (quilibrer linfluence
des groupes) et fournit des reprsentations adaptes aux diffrents aspects de lobjectif.
153
Tableau 7.1 Inerties des ACP spares des quatre groupes actifs.
Groupe
totale
1 olfaction au repos
5
2 vision
3
3 olfaction aprs agitation 10
4 gustation
9
Inerties
axe 1 axe 2
2,24 1,52
2,83 0,15
4,70 2,48
5,64 1,79
axe 3
0,82
0,01
1,05
0,67
Pourcentages
axe 1 axe 2 axe 3
44,84 30,33 16,31
94,49 5,03
0,48
47,01 24,83 10,46
62,69 19,90 7,49
154
Tableau 7.2 Dcomposition de linertie des trois premires composantes principales de lAFM
selon les quatre groupes.
inertie totale
1 olfaction au repos
2 vision
3 olfaction aprs agitation
4 gustation
1e composante
3.46
.78
.85
.92
.90
2e composante
1.37
.62
.04
.47
.24
3e composante
.62
.37
.01
.18
.05
La figure 7.2 montre que les variables les plus corrles au premier facteur sont, pour
chacun des groupes :
Olfaction au repos : qualit globale des armes, fruit.
Vision : impression de surface, intensit, nuance (violace).
Olfaction aprs agitation : persistance aromatique, intensit olfactive rtronasale, qualit globale des armes.
Gustation : intensit fin de bouche, harmonie, intensit dattaque, velout.
Jugement densemble : qualit globale, typicit.
Ce premier axe recouvre des notions classiquement (dans le monde du vin) regroupes
dans les mots puissance et harmonie qui possdent des connotations nettement
positives. Ces deux termes ne sont absolument pas synonymes en gnral, mais sont,
pour la population de vins tudis ici, trs lis.
155
F1 : 49.4 %
0.6
olfaction au repos
vision
olfaction aprs agitation
gustation
jugement d'ensemble
arme vgtal
0.4
0.2
F2 : 19.5 %
0
-1
-0.8
-0.4
-0.6
0.2
-0.2
0.6
0.4
arme pic
floral
-0.2
arme pic
amertume
intensit olfactive
-0.6
intensit olfactive
intensit d'attaque
nuance
intensit visuelle
persistance aromatique
impression de surface
floral
-0.4
fruit
fruit
typicit
qualit globale
qualit globale armes
qualit globale
velout
armes
harmonie
intensit olfactive rtronasale
intensit de fin de bouche
Figure 7.2 Reprsentation des variables (par leur corrlation avec les axes) sur le premier plan
factoriel.
156
Le premier axe tant interprt comme un axe de puissance et harmonie , la coordonne dun individu sinterprte en ces termes. Ainsi, le vin 1DAM a t considr
comme le plus puissant et harmonieux . loppos, les vins 1VAU et 2ING, possdant les coordonnes les plus fortes, ont t perus comme particulirement peu
puissants et harmonieux . Ces deux derniers vins se dmarquent franchement des
autres le long de cette dimension laquelle ils contribuent pour 32.8 + 26.4 = 59.2 %.
Le deuxime axe est essentiellement d aux deux vins nots Smi4 (contribution
de ces deux vins cet axe : 29.7 % + 39.3 % = 69 %). Il sagit en fait du mme
vin prsent deux fois aux dgustateurs. On interprte donc cet axe comme le cas
particulier du vin Smi4 .
En outre, dans une question ouverte relative lolfaction, ce vin a t trs souvent
(8 fois pour lun, 9 fois pour lautre) associ sous-bois et/ou champignon, termes trs
peu cits pour les autres vins. Ces donnes renforcent linterprtation de cet axe en
tant que particularit olfactive du vin Smi4. Remarquons au passage que le fait que les
dgustateurs aient jug de la mme faon les deux chantillons provenant du mme
vin est un bon argument en faveur de la valeur des donnes.
Relation entre les deux premiers facteurs et lorigine du vin
Chaque modalit dune variable qualitative est reprsente au centre de gravit des
individus qui la possdent. chaque coordonne dune modalit sur un axe, on associe
une valeur-test (cf. 2.4.4 page 54).
Les modalits Saumur, Chinon et Bourgueil sont trs proches de lorigine des axes
(valeurs-test < 1.4) : lorigine du vin, au sens de lappellation, est sans rapport avec les
principales dimensions de variabilit de ces vins. La modalit milieu 4 est trs loigne
le long de laxe 2 (valeurs-test = 3.9) mais elle ne concerne que deux vins. La modalit
squence de rfrence est fortement loigne le long de laxe 1 (valeur-test = 2.4) ;
rappelons quelle correspond un type de sol qui, dun point de vue agronomique,
possde une excellente potentialit viticole ; cet a priori est confirm par la place de
cette modalit sur le plan.
157
F1 :
Bmi2
(2ING)
49.4 %
Cmi3
(1VAU)
Smi2
Smi3
Bmi2
milieu 2
milieu 3
Chinon
Cmi3
Bourgueil
Cmi2
Smi4
milieu 4
Smi4
Bref
Smi2
Smi2
F2 : 19.5 %
Saumur
Smi3
Bref
Smi3
Bmi2
Bref
Cref
Squence de rfrence
Sref
(1POY)
Sref
Sref (1DAM)
Figure 7.3 Reprsentation du nuage des vins vus par lensemble des variables. Lemplacement
dun vin est repr par linitiale de lappellation [S = Saumur ; B = Bourgueil ; C = Chinon] suivi de
sa modalit de milieu [ref = squence de rfrence, mi2 = milieu 2, etc.]. Quatre vins, comments
en dtail par la suite, ont un nom particulier [1DAM, 1POY, 1VAU et 2ING]. En outre, le point
moyen de chaque modalit est reprsent.
158
variables des
autres groupes
R 27
1DAM-g
1DAM-m
1DAM-1
R5
variables du
premier groupe
Figure 7.4 Individu global, partiel et moyen. La reprsentation du vin 1DAM du point de vue du
seul groupe 1 (individu partiel 1DAM-1) est obtenue en projetant le point global (1DAM-g R 27
engendr par toutes les variables) sur le sous-espace (not R 5 ) engendr par les 5 variables du
groupe 1. Le point moyen 1DAM-m est obtenu partir de 1DAM-g par une homothtie de rapport
1/J = 1/4.
des points plus ou moins forts. Cette question peut tre pose, non plus en termes de
variables mais de groupes de variables : la puissance du vin sexprime-t-elle de faon
gale ou ingale dans son aspect visuel, ses parfums, son got ?
La perception de chaque aspect nest pas lisible facilement sur les donnes puisque
chacun est mesur par un groupe de variables. Il est donc utile de disposer dun outil
qui synthtise la perception des vins non plus du point de vue de lensemble des
variables mais du point de vue de chacun des groupes de variables. Pour cela, en AFM,
on sappuie sur la reprsentation gomtrique suivante.
Remarquons tout dabord que, dans lACP dun seul groupe de variables, on dfinit
un nuage qui reprsente lensemble des vins peru laide de ce seul groupe. On
dispose ainsi de quatre nuages des vins, dits nuages partiels, correspondant chacun
un groupe actif (lexpos thorique de lAFM, chapitre 8, montre pourquoi on se
limite ici aux groupes actifs).
Ces quatre nuages partiels peuvent tre construits dans lespace de dimension 27
(not R 27 ) engendr par toutes les variables actives. Le nuage olfaction au repos est
obtenu en projetant le nuage global des vins sur le sous-espace de dimension 5
(not R 5 ) engendr par les cinq premires variables, cest--dire, puisque les variables
sont centres, en annulant toutes les coordonnes qui ne concernent pas cet aspect (cf.
Figure 7.4).
En AFM, on traite comme des lignes supplmentaires les quatre tableaux obtenus
en annulant les valeurs des variables (centres) de trois groupes sur 4. Ainsi, les
quatre nuages des vins dfinis sparment par chacun des quatre aspects mesurs,
sont projets sur les axes factoriels du nuage regroupant ces diffrents aspects. On
159
Tableau 7.3 Quelques valeurs pour les trois variables du groupe olfaction au repos les plus
corrles au premier facteur.
maximum
1DAM
1POY
moyenne
qualit globale
des armes
3.429
3.429
3.107
3.046
note
fruite
3.154
3.154
2.731
2.714
intensit
olfactive
3.708
3.607
3.071
3.111
obtient ainsi une reprsentation superposant ces quatre nuages partiels au nuage
global. En AFM, une homothtie (qui ne modifie strictement pas la forme du nuage)
est applique au nuage global pour obtenir un nuage moyen ; elle met chaque
point de ce nuage (par exemple 1DAM) au barycentre des 4 points (1DAM1, 1DAM2,
1DAM3 et 1DAM4) dcrivant ce mme vin dans ses diffrents aspects. La lecture
des graphiques en est grandement facilite : il est beaucoup plus rapide de comparer
chaque point au barycentre que de comparer les quatre points deux deux. Le chapitre
suivant montre plusieurs proprits de ces graphiques.
La figure 7.5 est un extrait de cette reprsentation superpose applique lexemple.
Elle est limite, pour des raisons de clart, 6 vins extrmes (cf. Figure 7.3) :
160
F1
3
4
2
2ING
2
1VAU
1
3
1
F2
Smi4
Smi4
2
2
3
1POY
2
4
2
1DAM
1
Figure 7.5 Reprsentation superpose limite 6 vins extrmes. Chaque vin est caractris par
chacun des quatre groupes de variables et par lensemble des groupes.
Tableau 7.4 Quelques valeurs pour les quatre variables du groupe gustation les plus corrles au
premier facteur.
velout
maximum
1POY
1DAM
moyenne
3.286
3.231
3.036
2.674
intensit fin
de bouche
3.676
3.667
3.643
3.166
harmonie
3.786
3.786
3.643
3.148
intensit
dattaque
3.519
3.519
3.464
3.156
161
Tableau 7.5 Corrlations, pour les sept premiers axes de lAFM, entre la projection du nuage
global et celle de chacun des quatre nuages partiels (i.e. associs un seul groupe).
olfaction au repos
vision
olfaction aprs agitation
gustation
axe 1
.89
.93
.97
.95
axe 2
.96
.22
.89
.87
axe 3
.89
.16
.90
.30
axe 4
.48
.22
.57
.25
axe 5
.42
.17
.66
.52
axe 6
.27
.08
.49
.56
axe 7
.42
.21
.46
.42
162
F2
terroir
0.8
6
0.6
1
3
0.4
5
0.2
appellation
0
0
0.2
0.4
0.6
0.8
1 F1
Les quatre groupes actifs ont des coordonnes voisines le long du premier axe : ils
contibuent galement au premier facteur (puissance et harmonie). Les coordonnes
des groupes le long du deuxime axe montrent que le deuxime facteur est d principalement lolfaction (groupes 1 et 3) et lgrement la gustation (groupe 4).
b) Liaison entre les composantes principales de lAFM et les groupes
La coordonne dun groupe sur un axe peut tre considre comme une mesure de
la liaison entre le groupe et le facteur correspondant : si cette coordonne est proche
de 0, les variables du groupe ne sont pas corrles au facteur ; si elle est proche de
1, le facteur correspond une direction dinertie importante (voisine du maximum)
pour le groupe de variables. Ainsi, le premier facteur est une direction dinertie trs
importante pour les quatre groupes actifs et, en ce sens, leur est trs li. Le deuxime
facteur a une importance presque aussi grande que le premier pour un seul groupe
actif : lolfaction au repos. Le sixime groupe (origine des vins), trait en illustratif,
est beaucoup plus li au deuxime facteur quau premier.
Linterprtation de ce graphique en terme de liaisons lui vaut le nom de carr des
liaisons. Il a dj t vu en ACM (cf. 4.3.7) ce qui suggre de reprsenter aussi les deux
variables du groupes 6 sparment (par le carr de leurs rapports de corrlation) : on
visualise ainsi lindpendance entre lappellation et les deux premires composantes
163
164
F1
G3F1
G4F1
G2F1
G5F1
G3F2
G2F2
G5F2
-.5
G4F2
G1F2
F2
G1F1
-1
Figure 7.7 Reprsentation des deux premires composantes principales de chaque groupe par
leur corrlation avec les deux premires composantes de lAFM. G1 F2 = deuxime composante du
groupe 1.
165
Compte tenu des commentaires des analyses classiques de cette enqute (cf. Chapitre 6), la question principale est la suivante : quy a-t-il de commun ou de spcifique
entre la lecture du journal et le profil signaltique global ? Nous portons donc notre
attention, facteur par facteur, sur les indices de comparaison des groupes. Enfin, en
harmonie avec les ACM du chapitre 6, les modalits correspondant aux donnes manquantes sont laisses telles quelles (remarquons au passage que les quatre possibilits
de gestion des donnes manquantes voques en ACM valent en AFM).
166
R2
R1
F2
S2
F1 : 9.1 %
F1
S1
F2 :
5.8 %
Figure 7.8 Reprsentation des deux premiers facteurs des analyses spares de chaque groupe
sur le cercle des corrlations du premier plan de lAFM. R1 : premier facteur de lanalyse des
Rubriques. S1 : premier facteur de lanalyse du Signaltique. gauche, allure du nuage des
individus.
167
du premier facteur du tableau crois qui permet danalyser leur liaison (cf. section 6.7
page 143).
168
premier facteur. La plupart des individus sont reprsents par deux points trs proches
ainsi que lindique le rapport [inertieinter/inertietotale] dont la valeur pour ce facteur
est 0.837. Ce rapport se rfre au nuage des individus vu par chacun des deux groupes
(680 = 340 2 points), partitionn en 340 groupes (1 groupe = 1 enqut) de 2
points chacun (le mme enqut caractris par chacun des deux groupes) : il vaut 1
si les 2 images de chaque enqut concident entre elles et donc avec leur centre de
gravit. Comme nous ne nous intressons pas chaque individu mais plutt ce quil
reprsente, nous tudions seulement les reprsentations superposes des barycentres
des classes dfinies par les modalits de toutes les variables. La figure 7.9 donne un
extrait de cette reprsentation superpose en rappelant linterprtation gnrale de ce
facteur et la projection des 5 niveaux dinstruction. De cette interprtation on dduit
deux cas de figure.
F2 : 5.8 %
L
Statut social lev,
lectures intellectuelles
info politiques
L
L
S
TUDES
PRIMAIRES
PRIMAIRES
SUPRIEURES
tl
TUDES
TECHNIQUES
AGRICULTEUR
F1 : 9.1 %
TUDES SECONDAIRES
S
L
TUDIANT
L
S
feuilleton
CADRES SUP.
TUDES SUPRIEURES
info politiques
S
Statut social peu lev,
lectures anecdotiques
L
LEGENDE
S : classe caractrise par son signaltique
L : classe caractrise par sa lecture
Majuscule : signaltique
Minuscule : rubrique non lue
Minuscule italique : rubrique lue
Un individu dont le profil de lecture est situ sensiblement plus droite que son
signaltique a un profil de lecture plus intellectuel que ne le laisse prsager
son signaltique ou, ce qui est quivalent, un statut social moins lev que ne le
laisse prsager sa lecture du journal.
Inversement, un individu dont le profil de lecture est situ sensiblement plus
gauche que son signaltique a un profil de lecture moins intellectuel que ne
le laisse prsager son signaltique ou, ce qui est quivalent, un statut social plus
lev que ne le laisse prsager sa lecture du journal.
Pour les barycentres linterprtation est analogue. De la grande proximit entre les deux
points reprsentant un mme individu, dcoule une grande proximit entre les deux
169
Chapitre 8
laide de deux exemples, le chapitre prcdent dcrit les grandes lignes de la problmatique de ltude des tableaux multiples ainsi que les principaux rsultats de
lAFM. Dans cette premire prsentation, les considrations thoriques et techniques
sont rduites au minimum. Nous reprenons ici lexpos de lAFM en faisant toujours
rfrence lexemple des vins pour illustrer les objectifs mais en dtaillant les calculs
ainsi que leurs justifications.
Dans un premier temps, nous adoptons successivement comme cadre les trois
espaces dans lesquels lAFM peut tre prsente :
R K , dans lequel sont situs les nuages des individus ;
R I , dans lequel est situ le nuage des variables ;
2
R I , dans lequel est situ le nuage des groupes de variables.
Dans un second temps, nous fournissons des complments qui concernent :
une autre prsentation de la mthode : lestimation des paramtres du modle
INDSCAL ;
le cas des variables qualitatives ;
la mise en uvre.
172
Kj
KJ
X1
Xj
XJ
individus
173
Dans lanalyse densemble, ainsi que cela a t prsent dans lexemple des vins,
les poids initiaux des variables sont modifis. Le poids initial de chaque variable
du groupe j est divis par l1j (en notant l1j la premire valeur propre de lanalyse
factorielle spare du groupe j).
Nous gardons la mme notation m k pour le poids de la variable k quel que soit le
stade de lanalyse : pratiquement, du fait du contexte, il nen rsulte aucune ambigut.
De mme, nous gardons une seule notation lsj pour la valeur propre de rang s associe
lACP de X j avant ou aprs la pondration (l1j vaut 1 aprs la pondration).
Cette pondration a pour but dquilibrer le rle des groupes dans tous les aspects de
lanalyse. Elle est interprte dans tous les espaces dans lesquels lAFM est prsente.
174
jJ kK j
jJ
Dans la distance entre deux lments du nuage N I , linfluence des diffrents groupes
nest quilibre que si les distances dans les diffrents nuages N Ij sont du mme ordre
de grandeur. Multiplier les poids initiaux des variables du groupe j par un coefficient
a j est un moyen dquilibrer linfluence des groupes puisque la distance scrit alors :
d 2 (i, l) =
a j d 2 (i j , l j )
jJ
Kj
175
RK
Kj
j
~
Xj =
NI
0
Xj
Figure 8.2 Les nuages N Ij dans R K . N Ij appartient au sous-espace R K j (de R K ) engendr par les
variables du seul groupe j.
a) Problmatique
176
Il nest pas possible de comparer les positions dun mme point dans les diffrents
nuages si ces reprsentations sont, dans lensemble, trs diffrentes. En particulier,
des symtries, rotations ou homothties, peuvent masquer compltement de fortes
ressemblances entre les nuages. Pour assurer cette condition, il faut que les points
homologues (reprsentant le mme individu) soient le plus proche possible les uns des
autres.
Le nuage N IJ a t partitionn jusquici en J nuages (contenant chacun I points et
nots N Ij ) reprsentant chacun lensemble des individus vus au travers dun groupe
de variables. Introduisons maintenant une autre partition de N IJ : I nuages (contenant
chacun J points et nots NiJ ) reprsentant chacun le mme individu i vu au travers de
chaque groupe de variables (cf. Figure 8.3).
Le centre de gravit de NiJ est i . Selon le thorme de Huygens appliqu cette
nouvelle partition, linertie totale de N IJ se dcompose en inertie intra (inertie des NiJ
autour des i ) et inertie inter (inertie de N I ). Pour que les points associs au mme
individu i soient proches entre eux, on cherche minimiser linertie projete de chaque
NiJ donc linertie intra de N IJ .
Compromis entre (C1) et (C2)
Kh
R
ij
177
Kj
R
R
Kh
Ni
ih
i
NI
NI
Kj
ij
i*
NI
ih
h
NI
NI
NI
i
i*
NI
N I*
178
K
ij
sj
Kj
u sj
us
Elle se mesure de manire classique par le rapport entre linertie projete et linertie
totale du nuage. Cette qualit de reprsentation est toujours trs faible puisque le
vecteur u s de R K , sur lequel N Ij est projet, nappartient pas au sous-espace R K j dans
lequel ce nuage est situ. Ce vecteur u s fait, avec sa projection u sj sur ce sous-espace
R K j , un angle dj not usj . Do :
Qualit de reprsentation de N Ij sur u s =(cos usj )2 (qualit de reprsentation sur u sj )
179
Les termes cos2 usj sont en gnral petits : ils sont en nombre J et leur somme
vaut 1. Cette mesure de la qualit de reprsentation de N Ij est donc systmatiquement
beaucoup plus faible que celle que lon obtient dans lACP du seul nuage N Ij , mme
si u sj est une composante principale de N Ij .
En dautres termes, lindicateur [inertie projete / inertie totale] appliqu N Ij rend
compte de faon pessimiste de la qualit de reprsentation en ce sens que la forme
du nuage peut tre bien respecte mme si ce rapport est faible. Pour cette raison, cet
indicateur nest pas utilis en pratique ; pour valuer la qualit de reprsentation dun
groupe, on utilise plutt le nuage des variables (cf. section 8.3.5).
Ressemblance entre les reprsentations des diffrents nuages N Ij
Lanalyse cherche rendre petite linertie intra du nuage N IJ pour que les points i j
reprsentant le mme individu i soient proches entre eux. Il est naturel de prendre
comme mesure de ressemblance entre les projections des nuages N Ij sur un axe cette
inertie intra. Mais cette valeur na de signification que compare linertie totale. On
calcule donc, pour chaque axe, le rapport : [inertie inter / inertie totale].
Ce rapport, ntant pas la quantit minimise, ne dcrot pas forcment avec lordre
des axes. Mais il constitue un indicateur de lutilit globale de la reprsentation superpose des nuages N Ij . Lobjet de cette reprsentation est, rappelons-le, une analyse
dtaille des diffrences de forme entre les nuages N Ij . Si ce rapport est proche de 1,
tous les nuages N Ij ont suffisamment de caractres communs pour autoriser une tude
fine de leurs diffrences.
180
RI
Ej
NK
NK
vk
l
NK
Chaque groupe de variables K j est reprsent par un nuage N Kj (cf. Figure 8.5).
La pondration des groupes, divisant le poids de chaque variable du groupe j par
l1j , rend gale 1 linertie de la premire composante principale de chaque nuage N Kj .
La figure 8.6 illustre cette pondration dans un cas simple.
En AFM, la pondration des variables dun groupe tient compte la fois du nombre
de variables et de leurs liaisons. Remarquons quune pondration qui ne tiendrait pas
compte des liaisons entre les variables (par exemple, en galisant les inerties totales
(1)
(1/4)
(1/4)
(1/4)
(1/4)
Groupe 1
(1)
Groupe 2
Figure 8.6 Illustration de la pondration de lAFM dans un cas simple. Les vecteurs reprsentent
les variables dans R I . Les nombres entre parenthses sont les poids associs aux variables dans
lAFM. Les variables du premier groupe sont pratiquement identiques : chacune est affecte dun
poids tel que lensemble du groupe a un poids pratiquement gal 1. Les variables du second
groupe sont non corrles : chacune est affecte dun poids gal 1.
181
des N Kj ) rendrait faible (relativement) linertie, dans chaque direction, dun groupe
compos de beaucoup de variables indpendantes. En revanche, une telle pondration
rendrait forte (relativement) linertie dans une direction dun groupe compos dune
seule variable.
182
Ainsi, pour comparer les composantes principales des groupes, il suffit de les
introduire en lments supplmentaires dans lanalyse du tableau complet. On peut
calculer en outre, situation paradoxale pour un lment supplmentaire, la contribution
(via lindicateur usuel) dune composante dun groupe la construction des axes.
On peut aussi adopter la dmarche inverse : ACP des composantes principales avec
les variables en supplmentaire.
Le principe de cette analyse est de chercher dabord des variables lies lensemble
des groupes. Ces variables, qui rsument les tendances gnrales des groupes, sont
appeles variables gnrales. Puis, une variable gnrale tant obtenue, on cherche
dans chaque groupe une combinaison linaire des variables lie cette variable gnrale. Ces combinaisons linaires, qui sont en quelque sorte les reprsentations de la
variable gnrale dans les groupes, sont appeles variables canoniques.
Lun des avantages de cette approche est quil nest pas ncessaire de dfinir une
mesure de liaison entre deux groupes de variables mais entre une variable et un groupe.
Celle utilise par Carroll est le carr du coefficient de corrlation multiple.
Par dfinition, le coefficient de corrlation multiple entre une variable z et un
groupe de variables K j est le coefficient de corrlation entre z et la combinaison
linaire des variables du groupe j la plus corrle z. Gomtriquement, dans R I ,
cette combinaison linaire est la projection orthogonale P j (z) de z sur le sous-espace
183
E j engendr par les variables du groupe j (cf. Figure 8.7). Ainsi, le coefficient de
corrlation multiple est le cosinus de langle u j entre z et sa projection sur E j .
Ej
Pj (z)
Si z est une variable norme, on a (en notant u, v le produit scalaire entre les
vecteurs u et v) :
cos2 u j = z, P j (z)
Dans lanalyse multicanonique de CARROLL, on recherche une suite de variables
gnrales z s qui rendent maximum la somme des carrs des coefficients de corrlation
multiple entre z s et les J groupes K j (avec la contrainte dorthogonalit : z s z t si
s = t). Cette quantit scrit :
cos2 u j =
z s , P j (z s ) =z s ,
P j (z s )
184
Mais la mesure de liaison utilise, le coefficient de corrlation multiple, nest pas sans
inconvnient dans le cas o les variables du groupe sont corrles entre elles. Lorsque
les variables du groupe K j sont lies, le sous-espace E j est instable (cest--dire
sensible de petites variations des variables) et lon peut se trouver confront des
situations paradoxales (cf. Figure 8.8).
Ej
Pj(z)
v1
v2
Figure 8.8 Inadaptation du coefficient de corrlation multiple dans le cas de variables lies. La
variable z est presque orthogonale chacune des variables v1 et v2 du groupe K j . Or, son
coefficient de corrlation multiple avec E j vaut presque 1.
185
k K j
kK j
Cette criture met en vidence le fait que la mesure Lg prend en compte le groupe
K j au travers de loprateur W j D et non pas P j comme le fait le coefficient de
corrlation multiple (cf. section b). Cet oprateur caractrise bien le groupe K j (sa diagonalisation permet de reconstituer la forme du nuage N Ij , cf. section 5.4.5 page 120) ;
il est moins sensible que P j de petites variations des donnes.
d) LAFM vue comme une analyse multicanonique particulire
Variables gnrales
Il est souhaitable que les variables gnrales expriment des directions communes
significatives , cest--dire soient proches de directions dinertie importante des
nuages de variables N Kj . Nous cherchons donc une premire variable gnrale z 1 telle
que la somme des liaisons (au sens du paragraphe prcdent) entre z 1 et les J groupes
K j soit maximum. Cette expression scrit :
Lg (z 1 , K j ) =
inertie de la projection de vk sur z 1
jJ
kK
186
= X j (X j D X j ) 1 X j D
x r lr
alors :
W j D(z) = W j D P j (z) =
r
lr xr lr
187
On retrouve ici lexpression de la rgression PLS, une composante, exprimant z en fonction des vk . La convergence entre les deux approches, AFM et
rgression PLS, est remarquable : par rapport aux mthodes de rfrence, analyse canonique et rgression usuelle, dans les deux cas on prend en compte les
variables du groupe K j non pas au travers du seul espace quelles engendrent
mais de leur rpartition dans cet espace.
188
Loptique analyse canonique suggre, quant elle, dvaluer le degr de ressemblance entre Fs et chaque Fsj au moyen du coefficient de corrlation entre Fs et Fsj .
Ce coefficient peut avoir une valeur leve pour lensemble des groupes, pour certains
dentre eux ou mme pour un seul. En ce sens, lAFM permet de mettre en vidence les
facteurs communs lensemble des groupes, les facteurs communs certains groupes
et les facteurs spcifiques dun groupe (cf. exemple section 7.1.6 page 159). Lors de
linterprtation, on distingue :
1. le coefficient de corrlation entre Fs et Fsj , qui indique dans quelle mesure le
facteur commun Fs est effectivement prsent dans le groupe K j ;
2. la mesure de liaison Lg (z s , K j ), qui indique limportance relative dans le groupe
K j du facteur commun de rang s.
ces aides spcifiques, sajoutent les aides linterprtation usuelles : qualit de
reprsentation dune variable par un axe et contribution dune variable la construction
dun axe.
Dans ltude de plusieurs groupes de variables, lun des objectifs est de comparer
globalement les groupes. Dans lexemple des vins, la parent entre les deux olfactions a
pu tre mise en vidence laide dun graphique sur lequel les groupes sont reprsents
chacun par un point.
2
Nous introduisons ici lespace R I , base de cette reprsentation qui peut apparatre
comme une aide linterprtation de lACP du tableau complet X (cest ainsi quelle
a t introduite dans lexemple des vins) mais qui possde sa propre optimalit.
i
189
W j D =
(lsj )2
s
2
La pondration des variables du groupe j par 1/l1j se traduit dans R I par une homothtie des vecteurs reprsentant les groupes. Aprs cette pondration, la norme du
vecteur W j D reprsentant le groupe j nest pas gale 1 mais dpend de la structure
du groupe : cette norme est dautant plus grande que cette structure est multidimensionnelle (cest--dire quil existe de nombreux facteurs dimportance comparable
celle du premier dentre eux). Ainsi, elle constitue un indicateur de dimensionalit
dun nuage.
strictement parler, la dimensionalit dun nuage est gale au nombre de directions
orthogonales dinertie non nulle, soit le nombre de valeurs propres non nulles. En
pratique, il ny a pas lieu de distinguer une valeur propre trs faible dune valeur
propre nulle. Cest ce que ralise, sa manire, la norme de W j D aprs pondration
par lAFM. Cet indicateur, not alors N2g , peut donc finalement scrire, en faisant
apparatre explicitement la pondration de lAFM :
2
lsj
2
N2g (K j ) = W j D =
l1j
s
La pondration par 1/l1j donne le poids 1 une variable centre rduite qui constitue
2
elle seule un groupe. ce groupe dune seule variable, correspond un lment de R I
dit lment de rang 1 (il est associ une matrice symtrique de rang 1). Lcriture
suivante fait apparatre, dans le cas gnral, W j en tant que somme dlments de rang
1 (en notant vk une variable, de poids m k , du groupe j) :
vk m k vk
Wj =
k
190
pi pi z(i)z(i )v(i)v(i ) =
i
2
pi z(i)v(i)
= Lg (z, K 2 )
On retrouve ici la mesure de liaison Lg entre une variable et un groupe de variables
(cf. section c). Cette concidence fait que les choix, de Lg dune part et de la mtrique
2
dans R I dautre part, se renforcent mutuellement.
c) Les deux groupes sont multidimensionnels
m k Lg (vk , K 1 )
Cette quantit vaut 0 lorsque toutes les variables dun groupe sont orthogonales
toutes les variables de lautre groupe. Elle est dautant plus grande que chacune des
variables dun groupe est plus lie lensemble des variables de lautre groupe. Elle
constitue un indice de liaison gnral entre groupes de variables, qui exprime en
quelque sorte le nombre de dimensions communes (aux deux groupes) dinertie
comparable linertie axiale maximum dun groupe . Do lide de gnraliser la
191
W1 D W2 D
, 2
l11
l1
d) Lg et RV
W1 D
W2 D
,
W1 D W2 D
Cette dfinition fait bien apparatre les W j D norms au sens usuel (de longueur 1) : le
2
coefficient RV sinterprte dans R I comme un cosinus. Etant toujours positif, il varie
entre 0 et 1, valeur atteinte lorsque les nuages dindividus associs aux deux groupes
sont homothtiques (en comparaison, la mesure Lg entre deux nuages homothtiques
est dautant plus grande que ces groupes ont une dimensionalit leve). Un exemple
dinterprtation conjointe de RV et Lg se trouve en section 9.2.1 page 211.
Dans lexemple des vins, nous avons propos un graphique dans lequel :
192
NK
Wj D
coordonne
inertie projete
Espace RI
zz'D
Espace RI
Figure 8.9 La reprsentation des groupes vue comme une aide linterprtation de lACP
2
pondre. Au groupe de variables j, on associe le nuage N Kj dans R I et le vecteur W j D de R I . Au
j
I
I2
I
vecteur z de R , on associe dans R le vecteur zz D. Linertie projete de N K sur z dans R est
gale la longueur de la projection de W j D sur zz D.
Nous montrons ici que le graphique prcdent peut tre obtenu directement en cherchant une reprsentation optimale de N J .
Le produit scalaire entre W j D et Wl D est une mesure de liaison entre les groupes
de variables j et l. Pour comparer globalement les groupes, nous cherchons dcrire
les proximits entre les W j D en les projetant sur un espace de faible dimension de
2
R I . Les angles entre les W j D doivent tre bien reprsents et il ne convient pas de
centrer le nuage N J .
En exigeant uniquement une bonne qualit de reprsentation (au sens de linertie
projete) des W j D, on est conduit une projection du nuage N J sur ses axes dinertie,
analogue celle du nuage des variables de lACP. Linconvnient de ce type danalyse
est de fournir un repre constitu daxes difficilement interprtables car un axe quel2
conque de R I ne sexprime pas clairement en fonction des donnes. Cest pourquoi,
en AFM, on impose aux axes du repre dtre des lments symtriques de rang 1.
Ces lments, de la forme z s z s D, sont associs des groupes dune seule variable z s
et sinterprtent partir de z s et de ses liaisons avec les variables initiales.
2
Nous cherchons donc un repre orthonorm dans R I dont chaque composant est
de la forme zz D et qui ajuste au mieux le nuage des W j D. Nous construisons
ce repre progressivement en cherchant dabord un premier vecteur, puis un second
orthogonal au premier et ainsi de suite.
Usuellement, on utilise le critre dajustement des moindres carrs, selon lequel on
rend maximum la somme des carrs des projections des vecteurs du nuage. En AFM,
du fait de la contrainte impose aux vecteurs de base du repre, cest la somme des
projections et non de leurs carrs qui est maximise.
193
Ce critre est plus facile mettre en uvre que celui des moindres carrs (souvent
choisi pour les facilits de calcul quil implique) et possde une signification puisque
les coordonnes des W j D sur des lments de type z s z s D sont toujours positives. En
effet, la somme des projections des W j D sur z s z s D, qui scrit :
W j D, z s z s D
j
est gale linertie dans R I des variables (de tous les groupes) projetes sur z s .
La suite orthonorme dlments symtriques de rang 1 qui maximisent cette somme
est celle qui est associe aux composantes principales du tableau X , lorthonormalit
2
des z s dans R I tant quivalente celle des z s z s D dans R I . Les calculs ncessits
2
par lanalyse dans R I se dduisent directement des rsultats de lACP de X : les z s
sont les composantes principales normes de X et la coordonne de W j D sur z s z s D
est la contribution du groupe j linertie de la composante z s .
c) Interprtation de la reprsentation des groupes
La reprsentation des groupes en AFM peut tre vue la fois comme une aide
linterprtation des autres graphiques et comme une image du nuage des groupes
optimale en elle-mme. La coordonne de W j D sur laxe factoriel z s z s D sinterprte
comme :
1. linertie de la projection du nuage N Kj , dfini par le groupe j dans R I sur la
composante principale z s du tableau X ; cest la contribution (absolue, cest-dire non exprime en %) du groupe j laxe s ;
2. une mesure de liaison (Lg ) entre le groupe j et la composante z s de lAFM ;
2
194
repre (lments symtriques de rang 1), la qualit de reprsentation des W j D par ces
axes (mesure au travers du critre usuel : inertie projete/inertie totale) natteint en
gnral pas 1, mme si lon augmente le nombre daxes (qui atteint au plus I alors
que la dimension de lespace est I 2 .
AFM et mthode Statis. Le cur de la mthode Statis est une analyse factorielle
du nuage N J , les W j D tant pralablement norms au sens usuel. Elle fournit une
reprsentation (gnralement) plane des W j D, optimale du point de vue de linertie
projete mais dont les dimensions, ntant pas des lments de rang 1, ne sont pas
interprtables.
Enfin, la reprsentation de N J fournie par lAFM peut aussi tre interprte dans le
cadre du modle INDSCAL (cf. 8.6).
S
s=1
Remarquons enfin que, dans ce modle, tous les individus ont le mme poids. Mme
si lAFM suggre une gnralisation en affectant des poids quelconques aux individus,
nous restons conformes ici au modle original.
195
Fsj = qsj Fs
Lestimation des paramtres du modle est oriente principalement sur le facteur
commun Fs . Cette dmarche est celle de lanalyse multicanonique au sens de Carroll.
s
196
Wj
RI
z2 z'2
q2j
q1j
z1 z'1
2
Soit, matriciellement :
Wj =
qsj z s z s
s
2
Cette formule, traduite dans R I , exprime que les W j sont dcomposs sur un mme
repre form dlments symtriques de rang 1. Le poids qsj est la coordonne de
W j sur llment z s z s de ce repre. Chercher des paramtres z s et qsj qui ajustent le
2
modle revient chercher dans R I une suite orthogonale de vecteurs, reprsentant
chacun une matrice symtrique de rang 1, qui ajuste le nuage des W j (cf. Figure 8.10).
197
198
Du fait de la transformation des colonnes en profils, de la mtrique dans R I (proportionnelle la mtrique identit) et des poids des lments, les modalits en ACM
possdent les proprits suivantes lorsquon les considre par rapport lorigine :
1. les modalits dune mme variable sont orthogonales entre elles ; la transformation en profil ne change pas leur direction ;
2. chaque modalit possde la mme inertie par rapport lorigine (Ik : nombre
dindividus possdant la modalit k ; xik = 0 ou 1) :
2
xik
1
Ik
I
=
Inertie de k par rapport O =
i
IJ
Ik
J
199
Considrons, dans R I , le nuage des indicatrices non centres mais divises par leur
cart-type. Si lon affecte chaque indicatrice k le poids (I Ik )/I , alors le nuage
ainsi dfini possde les mmes proprits inertielles que celui analys en ACM (cf.
paragraphe prcdent). Soit :
1. la mtrique de lespace R I est aussi la mtrique identit au facteur 1/I prs ;
2. la direction des indicatrices nest pas modifie par la division par lcart-type (de
mme quen ACM, elle nest pas modifie par la transformation en profil) ;
3. chaque indicatrice possde la mme inertie par rapport lorigine :
I Ik 1
Ik (I Ik )
Inertie de k par rapport O =
xik /
=1
i I
I
I2
c) quivalence entre les deux centrages
En ACP, le centrage des variables sinterprte dans lespace R I comme une projection
du nuage des variables sur lhyperplan orthogonal la premire bissectrice.
En ACM, vue comme une AFC applique un TDC, le nuage des indicatrices est
centr en un autre sens : lorigine est place au centre de gravit G K du nuage N K .
Or, en ACM, le nuage N K des modalits prsente les proprits suivantes :
1. le centre de gravit G K est situ sur la premire bissectrice (la marge sur les
lignes est constante) ;
De lquivalence prcdente, il rsulte que lon peut appliquer des mthodes factorielles construites pour des variables quantitatives des variables qualitatives
condition de faire intervenir ces dernires laide de leurs indicatrices pondres
de faon adquate. Dans cet esprit, lAFM peut traiter des tableaux dindicatrices
pondres : il est ainsi possible dtendre aux variables qualitatives la mthodologie
lie aux groupes de variables propose initialement pour les variables quantitatives.
200
201
Remarquons que, dans une ACP norme des indicatrices, les projections des colonnes
sont les corrlations entre les indicatrices et les facteurs sur I . Elles ne reprsentent
pas, comme en ACM, les centres de gravit des classes dindividus dfinies par les
modalits.
Cette dernire reprsentation tant essentielle dans les interprtations, il est ncessaire de lajouter. En pratique, seule cette reprsentation des modalits, en tant que
centre de gravit dindividus, est utilise, parce quelle est habituelle (cf. ACM) mais
aussi parce quelle sintgre dans la reprsentation superpose. En effet on peut calculer le centre de gravit dun ensemble dindividus vus par lensemble des variables
mais aussi par chacun des groupes (cf. Figure 7.9 page 168).
Cette dernire reprsentation est trs importante car elle permet lAFM daborder des fichiers denqute assez volumineux dans lesquels les individus ne sont pas
intressants en eux-mmes mais uniquement au travers des modalits quils possdent.
La projection de ces centres de gravit est accompagne des aides linterprtation
usuelles en particulier la contribution linertie de chaque facteur. La somme de ces
contributions, pour les modalits dune mme variable, est gale au carr du rapport
de corrlation entre la variable et le facteur Fs .
c) Donnes manquantes et modalits de faible poids
En ACM, les modalits de trs faible effectif sont souvent une source de perturbation
des rsultats. En outre, le problme des donnes manquantes se pose, l comme dans
tout traitement de donnes. En effet, la construction dune modalit supplmentaire
202
203
rsultats de lanalyse. La plupart des calculs (mais pas tous) effectus sur les groupes
principaux sappliquent un groupe supplmentaire :
1. normalisation du nuage N Kj : pour comparer aux autres nuages le nuage associ
un groupe supplmentaire, il faut le normaliser de la mme faon en surpondrant les variables du groupe par linverse de la premire valeur propre de son
analyse spare ;
2. projection des composantes principales du groupe : elle permet de comparer la
forme gnrale du nuage N Kj avec celle du nuage moyen N K et celles des nuages
associs aux autres groupes de variables ;
204
La seconde tape est une ACP de lensemble des variables de tous les groupes pondrs ; en pratique, on ralise cette analyse partir des facteurs des analyses spares.
En effet, il est quivalent de considrer un tableau du point de vue de ses donnes
brutes ou du point de vue de ses facteurs. On se limite aux facteurs associs une
valeur propre non nulle, ce qui rduit la dimension de la matrice diagonaliser. Dans
la perspective du traitement de trs grands tableaux, on peut aussi ne pas prendre en
compte les facteurs associs des petites valeurs propres, ce qui conduit une analyse
approche, la qualit de lapproximation tant lie au seuil en dessous duquel on carte
les valeurs propres.
Chapitre 9
Mthodologie de lAFM
Ce chapitre regroupe dabord plusieurs aspects utiles dans la mise en uvre de lAFM.
Ils sarticulent autour de deux thmes : tactique mthodologique et aides linterprtation. Le chapitre se termine par une prsentation synthtique dune extension de
lAFM, lAFM hirarchique (AFMH), ddie aux tableaux dans lesquels les variables
sont structures selon plusieurs partitions embotes.
9 Mthodologie de lAFM
206
Pour fixer les ides, nous considrons le cas dune suite de J tableaux, dans lesquels
les mmes K g variables quantitatives sont mesures sur les mmes I individus, indice
par le temps. LACP usuelle offre deux voies pour dcrire lvolution des donnes (cf.
Figure 9.1).
1
Kg 1
1
Xm
Kg
X1
Kg
Xj
Kg
XJ
I
1
X1
I
1
Xj
I
1
XJ
I
Figure 9.1 Les deux juxtapositions dun ensemble de tableaux doublement apparis. La
juxtaposition A (resp. B) en ligne (resp. colonne) est possible du fait de lhomologie entre les lignes
(resp. colonnes) des tableaux. K g : nombre de variables par groupe ; X m : tableau moyen.
LACP des J tableaux juxtaposs en ligne (A) fournit une reprsentation des individus, chacun considr du point de vue de lensemble des J dates. Elle fournit une
reprsentation des variables dans laquelle chacune donne lieu un point par date.
Elle permet ainsi de suivre lvolution des K g variables au cours du temps. Dans
cette approche, lhomologie entre les variables nest pas utilise dans les calculs mais
seulement lors de linterprtation (en reliant sur les plans factoriels, par exemple, les
points relatifs une mme variable). En revanche, lobservation des mmes individus
au cours du temps est ici essentielle.
LACP des J tableaux juxtaposs en colonne (B) permet de suivre lvolution des
individus au cours du temps puisquune ligne correspond un individu une date
donne. On peut centrer chaque tableau avant la juxtaposition si lon souhaite ne pas
faire apparatre lvolution globale des individus. Dans cette analyse, lhomologie
entre les variables est utilise. En revanche, le fait que ce sont toujours les mmes
individus qui ont t observs au cours du temps nest pas ncessaire dans cette ACP.
207
LACP usuelle offre ainsi la possibilit dtudier lvolution des individus et celle
des variables. Chaque volution est dcrite dans un cadre diffrent puisque issu dun
traitement diffrent. Cette mthodologie est, juste titre, trs utilise (on retrouve cette
dmarche, pour les tableaux de frquence, au chapitre 10). Par rapport cette mthodologie, lAFM des J tableaux juxtaposs en ligne (dans laquelle chaque ensemble des
mesures une date donne constitue un groupe de variables) offre les caractristiques
intressantes suivantes :
1. les groupes de variables tant pondrs, linfluence des diffrentes dates de
mesure est quilibre ;
2. grce la reprsentation superpose, on dispose dune visualisation de lvolution des individus et des variables au sein dune mme analyse ;
3. du fait de la pondration et de la prise en compte explicite de la structure en
groupes des variables, on dispose dun large ventail daides linterprtation
(reprsentation des groupes, des facteurs des analyses spares, etc.).
LACP usuelle permet aussi dans certains cas de reprsenter lvolution des individus
et celle des variables au sein dune mme analyse. Pour cela, on construit le tableau X m ,
moyenne des tableauxX j (on prendra soin de vrifier que ce tableau des moyennes a un
sens ; en particulier, si les carts-types diffrent entre variables homologues, il peut tre
ncessaire de centrer et rduire les tableaux X j avant den faire la moyenne). LACP
peut alors tre applique au tableau X m en actif, les tableaux X j tant introduits
la fois en tant que lignes et colonnes supplmentaires. Cette mthodologie est
surtout utilise dans le cadre des tableaux de frquence (cf. chapitre 10 en particulier
figure 10.3 page 230). Elle sappuie sur lhomologie entre les variables, cest--dire
que la structure commune aux tableaux nest mise en vidence que si les variables
homologues sont corrles positivement entre elles.
Tableau 9.1 Deux cas de donnes choisies. Le premier (resp. second) groupe de variables se
limite la variable V1 (resp. V2 ). Vm : moyenne entre V1 et V2 .
Individu
A
B
C
Vm
4
-2
-2
Cas 1
V1
4
-1
-3
V2
4
-3
-1
Vm
0
1
-1
Cas 2
V1
4
-1
-3
V2
-4
3
1
Le cas de deux groupes rduits chacun une seule variable quantitative centre
est commode pour illustrer la comparaison entre AFM de groupes de variables homologues et ACP du tableau moyen (cf. Tableau 9.1 et Figure 9.2). Notons V1 et V2 ces
9 Mthodologie de lAFM
208
B
C
C1
B2
B1
C2
A1
A2
V2
V1
0
1
Vm
C1
B
C
B1
A2
C1
B2
V2
-1
A
B1
C2
A1
A2
Vm
V1
B
A1
C2
V2
V1
0
Cas 2 : "ACP" de Vm
B2
Vm
1
Figure 9.2 Axe unique de lACP du tableau moyen ou premier axe de lAFM du tableau 9.1. Pour
chaque cas, reprsentation des individus (en haut) et des variables.
deux variables et r12 leur coefficient de corrlation. Le cur de lAFM de {V1 ; V2 } est
une ACP norme des deux variables. On vrifie aisment que V1 + V2 et V1 V2 sont
vecteurs propres de la matrice des corrlations (cf. section 5.3.1 page 112) et donc que
cette ACP admet comme composantes principales la somme V1 + V2 (inertie associe :
1 + r12 ) et la diffrence V1 V2 (inertie associe : 1 r12 ).
Le signe de r12 dtermine lordre de ces deux composantes.
1. r12 > 0 : la structure commune respecte lhomologie entre les variables.
Exemple : cas 1 du tableau 9.1, dans lequel les variables V1 et V2 mettent
toutes deux en vidence la forte valeur de A. LAFM de {V1 , V2 } et lACP du
tableau moyen (i.e. de Vm ) conduisent aux mmes reprsentations. Exemple : cf.
Figure 9.2 cas 1.
2. r12 < 0 : la structure commune ne respecte pas lhomologie entre les variables.
Exemple : cas 2 du tableau 9.1, dans lequel les variables V1 et V2 mettent toutes
deux en vidence lloignement de A mais chacune dans un sens diffrent. LACP
du tableau moyen ne peut dceler cette structure : elle place le point A lorigine
209
des axes (cf. Figure 9.2 cas 2). LAFM de {V1 , V2 }, pour son premier axe, prend
en quelque sorte loppose de lune des variables avant de les superposer.
Dans lACP de Vm , qui se rduit bien sr la reprsentation de Vm , V1 et V2 tant
introduits la fois en lignes et colonnes supplmentaires, on prend en compte lhomologie entre les variables, ce qui inclut le sens de variation des V1 et V2 : ainsi, dans
le cas 2, la structure commune se limite alors des valeurs de B gnralement plus
leves que celles de C. Cest bien ce que met en vidence laxe unique de l ACP
de Vm (cf. Figure 9.2 cas 2). La reprsentation des variables initiales (V1 et V2 ), qui
dans cette mthodologie ne peuvent apparatre quen fonction de leur liaison avec la
structure commune, est ici proche de lorigine.
Dans lAFM de {V1 , V2 }, Vm tant introduite en supplmentaire, on ne prend pas
en compte lhomologie entre les variables ; la structure commune majeure est alors le
particularisme de lindividu A, ce que met bien en vidence le premier axe de lAFM
(cf. Figure 9.2). Les points partiels restituent bien les donnes : A est extrme du point
de vue des 2 groupes ; C est extrme du point de vue du groupe 1 et non du point de
vue du groupe 2. La variable moyenne Vm est non corrle laxe 1. En revanche, elle
est parfaitement corrle laxe 2 de lAFM qui correspond donc laxe 1 de lACP.
En conclusion, on rservera lACP du tableau moyen en actif au cas o lon sintresse aux seules structures communes respectant lhomologie des variables. Autrement,
lorsque toutes les structures communes sont dignes dintrt, on ralisera une AFM,
en introduisant le tableau moyen en tant que groupe supplmentaire.
Dans la plupart des cas, le regroupement des variables simpose, tout simplement parce
que la notion de groupe sinsre directement dans la problmatique et a t utilise
dans la dfinition des donnes recueillir. Lenqute Ouest-France en est un exemple
simple mais typique : la mise en relation de la lecture et de repres sociaux fait partie
des objectifs dfinis pralablement ltude, guide la rdaction du questionnaire et
apparat dont tout naturellement dans les traitements. Il en est de mme dans la plupart
des questionnaires, presque toujours structurs en thmes.
Des hsitations peuvent toutefois apparatre lorsque les thmes sont eux-mmes
structurs en sous-thmes. Il nest bien sr pas possible de donner de rgles gnrales
quant au choix des groupes dans ce cas. Il faut rappeler toutefois la possibilit dintroduire plusieurs fois les donnes dans lanalyse : on peut ainsi raliser lAFM sur les
donnes structures en thmes et introduire les donnes structures en sous-thmes en
supplmentaire et voir ainsi apparatre les sous-thmes dans le carr des liaisons.
Un exemple simple de donnes introduites deux fois dans une analyse est fourni
par les donnes vins de Loire examines au chapitre 7.
210
9 Mthodologie de lAFM
Les variables appellation et terroir ont t introduites au sein dun mme groupe,
origine des vins, mais peuvent aussi tre considres sparment. La reprsentation
de ces deux nouveaux groupes (cf. Figure 7.6 page 162) a montr que la liaison entre
lorigine des vins et les deux premiers facteurs est due au terroir et non lappellation.
Un autre exemple dans lequel plusieurs dfinitions des groupes sont possibles
est fourni par les observations rptes dun mme ensemble de variables, cas dj
voqu section 9.1.2. On peut, dans ce cas, regrouper les variables de deux faons et
la formulation de lAFM en tant que mthode de recherche de facteurs communs aide
choisir entre les deux partitions des variables.
1. Partition 1 : un groupe rassemble les variables dune mme date (cas envisag
section 9.1.2). LAFM cherche alors les facteurs communs aux structures sur les
individus dfinies par les diffrentes dates (question : quy a-t-il de commun aux
diffrentes dates ?).
2. Partition 2 : un groupe rassemble les variables de mme nature, toutes dates
confondues ; il reprsente lvolution de la variable tout au long de la priode
tudie. LAFM cherche alors les facteurs communs ces volutions (question :
quy a-t-il de commun aux volutions des diffrentes variables ?).
b) Statut des groupes
Comme dans les analyses factorielles usuelles, le statut des lments, actif ou supplmentaire, simpose dans beaucoup de cas mais mrite quelquefois une discussion.
La dmarche en AFM est identique celle des autres analyses factorielles lorsque
lon considre lAFM comme. . . une analyse factorielle. Ainsi, dans lexemple des
vins, la volont de rechercher les principaux facteurs de variabilit sensorielle conduit
demble introduire les variables appellation et terroir en supplmentaire. Le cas
des variables densemble (typicit et qualit densemble) est plus nuanc puisque
ces variables peuvent tre considres comme sensorielles, mais leur spcificit a
finalement conduit les carter des lments actifs.
Des points de vue spcifiques apparaissent lorsque lon considre lAFM comme
mthode de recherche de facteurs communs. Une illustration en est fournie par un
autre exemple, issu lui aussi du domaine des vins.
Pour un ensemble de vins, on dispose de variables :
1. physico-chimiques mesures sur la vendange ;
2. physico-chimiques mesures sur les vins ;
3. sensorielles.
On peut vouloir donner ces trois groupes le statut actif. Ce faisant, on recherche
les facteurs communs, la vendange, la physico-chimie du vin et la description
sensorielle. Cette problmatique est ambitieuse en ce sens quelle vise des facteurs
211
communs aux trois groupes. Aussi peut-on prfrer se limiter introduire seulement
deux groupes en actif. Ce qui revient chercher des facteurs communs :
1. soit la physico-chimie des vendanges et celle des vins ;
2. soit la physico-chimie des vins et la description sensorielle des vins.
Ces deux dernires problmatiques sont moins ambitieuses mais plus faciles concevoir. Aussi, pour de telles donnes, une dmarche empirique mais raisonnable consiste
commencer par une AFM avec les trois groupes actifs en sattendant conserver
comme analyse(s) finale(s) celle(s) avec deux groupes actifs.
Parmi les aides spcifiques, certaines ont dj t dfinies et commentes dans lun
et/ou lautre exemple. Soient :
1. les corrlations entre les facteurs du nuage moyen et les facteurs des nuages
partiels (cf. section 7.1.6 page 159) ;
2. les contributions des groupes de variables linertie des axes (cf. tableau 7.1 et
section 7.1.7 page 161) ;
3. le rapport [inertie inter / inertie intra] associ la reprsentation superpose (cf.
section 7.2.4 page 167).
Enfin certaines aides nont pas t illustres. Elles font lobjet des sections suivantes.
9 Mthodologie de lAFM
212
1
1.61
.55
1.05
.68
1.13
Lg
3
1.00
.70
.80
.88
1.37
.94
1.17
1.12
1.02
1.22
1
1
.44
.71
.51
.81
2
1
1
.60
.75
.80
RV
3
1
.76
.91
1
.88
Le carr de la distance entre un groupe et lorigine, somme des carrs des valeurs
propres du groupe aprs pondration de lAFM, constitue le critre de dimensionalit
du groupe not N2g . Dans lexemple des vins (cf. Tableau 9.3), cet indicateur met
213
Tableau 9.3 Exemple des vins : distance d(0, j) des groupes lorigine dans R I . d2 (0, j) = N2g
mesure le nombre de directions dinertie comparable celle de la premire direction .
groupe j
Olfaction au repos
Vision
Olfaction aprs agitation
Gustation
Apprciation densemble
Origine
d2 (0, j)
1.610
1.003
1.369
1.123
1.007
2.645
d2 (0, j) mesure, en quelque sorte, le nombre de directions dont linertie est proche
de linertie axiale maximum . Ainsi, selon ce critre, le groupe olfaction au repos est
de dimensionalit plus importante que olfaction aprs agitation du fait du deuxime
axe, dinertie plus proche de celle du premier axe dans le cas de lolfaction au repos.
Le tableau 9.4 illustre ce phnomne dans deux cas de rfrence. Le sous-espace
engendr dans le cas 1 est 3 dimensions (3 valeurs propres non nulles). Dans le cas
2, il est 6 dimensions. Malgr cela, lindicateur de dimensionalit est plus important
dans le cas 1 car il accorde une importance trs faible aux dimensions de faible inertie.
Tableau 9.4 Distance dun groupe j lorigine dans 2 cas de rfrence dcrits par leurs
pourcentages dinertie.
Cas 1
Cas 2
F1
.5
.5
% dinertie
F2 F3 F4 F5
.4 .1
0
0
.1 .1 .1 .1
F6
0
.1
d2 (0, j)
1.68
1.20
Plus prcisment :
1. la valeur 1.68 (proche de 2) traduit la prsence de 2 dimensions prpondrantes dinerties comparables ;
2. la valeur 1.20 (proche de 1) traduit la prsence dune seule dimension prpondrante.
9 Mthodologie de lAFM
214
Cette notion est dfinie clairement dans lespace des variables comme la somme des
contributions (inerties projetes) des variables dun mme groupe. Dans lespace des
groupes de variables, cet indicateur est la coordonne dun groupe (dans lespace
des groupes, la quantit maximise est la somme des coordonnes ; cf. section 8.4.4
page 191). Ces contributions (absolues) sont souvent exprims en % (contributions
relatives).
Dans lexemple des vins (cf. Tableau 9.5), ces contributions quantifient le rle
quilibr des quatre groupes dans la construction du premier axe et la prpondrance
des deux olfactions dans la construction du second et du troisime.
Tableau 9.5 Exemple des vins : contribution des groupes de variables la construction de chacun
des trois premiers axes de lAFM.
Groupe
Olfaction au repos
Vision
Olfaction aprs agitation
Gustation
Contributions absolues
F1
F2
F3
.78
.62
.37
.85
.04
.01
.92
.47
.18
.90
.24
.05
3.46 1.37
.62
Contributions relatives
F1
F2
F3
22.6 45.3
60.7
24.7
2.9
2.3
26.7 34.3
29.3
26.0 17.4
7.7
100
100
100
Cet indicateur peut aussi tre calcul pour les groupes supplmentaires, auquel cas
il ne sinterprte pas comme une contribution mais sert simplement situer les groupes
supplmentaires par rapport lensemble des groupes actifs.
c) Qualit de reprsentation dun groupe par un axe
215
Tableau 9.6 Exemple des vins : qualits de reprsentation cumules des nuages des variables de
chaque groupe, dans lAFM et dans les analyses spares.
Groupe
1 : olfaction au repos
2 : vision
3 : olfaction aprs agitation
4 : gustation
5 : jugement densemble
F1
35.1
80.8
43.5
56.4
57.2
AFM
F2
62.9
84.6
65.5
71.3
80.1
F3
79.6
86.0
74.0
74.3
81.6
ACP spares
F1
F2
F3
44.8 75.2
91.5
94.5 99.5 100.0
47.0 71.8
82.3
62.7 82.6
90.1
92.5 100.0
-
9 Mthodologie de lAFM
216
diminution de qualit de reprsentation par un plan varie entre 6.3 % et 14.9 %. Elle
quantifie le prix payer en contrepartie de la reprsentation simultane de tous les
N Kj . Dans lexemple, on peut considrer que ce prix payer nest pas exagr.
Cet indicateur peut aussi tre calcul pour les variables qualitatives auquel cas, pour
tre comparable celui dune ACM (vue comme une AFC du Tableau Disjonctif
Complet), il doit prendre en compte les modalits au travers de leurs indicatrices
(et non de leurs centres de gravit). Le tableau 9.7 rassemble ces indicateurs pour
lenqute Ouest-France.
Tableau 9.7 Enqute Ouest-France : qualits de reprsentation cumules des nuages des
variables de chaque groupe.
1 : signaltique
2 : rubriques
AFM
F1
F2
8 % 10 %
12 % 25 %
ACM spares
F1
F2
9%
16 %
15 % 28 %
217
Tableau 9.8 Exemple des vins : aides linterprtation relatives aux facteurs partiels.
Olfaction au repos
Vision
Gustation
Ensemble
F1
F2
{F1,F2}
F1
F2
{F1,F2}
F1
F2
{F1,F2}
F1
F2
{F1,F2}
{F1,F2}
Contribution
F1
F2
0.222 0.008
0.002 0.441
0.224 0.449
0.246 0.024
0.001 0.006
0.247 0.029
0.260 0.049
0.007 0.286
0.266 0.335
0.259 0.004
0.000 0.157
0.26 0.161
0.997 0.974
Qualit de reprsentation
F1
F2
{F1,F2}
0.770 0.011
0.781
0.009 0.891
0.899
0.463 0.366
0.829
0.852 0.033
0.884
0.057 0.143
0.199
0.811 0.038
0.850
0.899 0.068
0.966
0.044 0.739
0.783
0.603 0.300
0.903
0.898 0.005
0.903
0.005 0.678
0.683
0.683 0.167
0.850
0.619 0.239
0.858
9 Mthodologie de lAFM
218
2. La qualit de reprsentation montre dans quelle mesure, les premires composantes principales partielles sont, dans leur ensemble, bien reprsentes par les
premiers axes de lAFM ; ainsi, dans lexemple des vins, la qualit de reprsentation de lensemble des 2 premiers axes de toutes les analyses spares par les
2 premiers axes de lAFM vaut .858, ce qui quantifie globalement lexcellente
reprsentation (pressentie figure 7.7 page 164) de ces axes partiels dans lAFM.
Cet indicateur est particulirement prcieux dans les applications de lAFM ayant
pour objet principal la comparaison de rsultats de diffrentes analyses factorielles. Remarque : si lon conserve toutes les composantes principales de chaque
groupe, les valeurs de cet indicateur sont gales aux pourcentages dinertie de
lAFM.
Axe
[inertie inter / inertie totale]
F1
.87
F2
.58
F3
.38
F4
.14
F5
.17
F6
.14
F7
.17
Cette inertie intra peut son tour tre dcompose par individu ; ainsi, dans
lexemple des vins, les contributions (en %) des vins 1DAM et 1POY linertie intra
pour laxe 1 valent respectivement 11,4 % et 8,1 %, valeurs qui quantifient la plus
grande variabilit des coordonnes des points reprsentant 1DAM (cf. Figure 7.5
page 160).
En pratique, on trie les individus par inertie intra croissante. Les premiers individus
prsentent les ensembles dimages partielles les plus homognes du point de vue de
219
laxe : ils illustrent bien le caractre commun (aux groupes de variables) du facteur.
loppos, les derniers individus prsentent les ensembles dimages partielles les plus
htrognes du point de vue de laxe. Ainsi, dans lexemple, ce tri selon le premier
axe fait apparatre 1VAU (respectivement 2ING) comme lindividu ayant une des plus
faibles (respectivement fortes) inertie intra. On retrouve bien ce phnomne sur la
figure 7.5.
La quantification de la variabilit axe par axe des points partiels relatifs un mme
individu prsente un intrt en soi. Mais son apport le plus important rside dans le tri
qui permet, lorsque les individus sont nombreux, de slectionner les individus les plus
remarquables selon ce critre sans les examiner tous.
La part dinertie intra de chaque individu peut son tour tre dcompose selon
ses points partiels. Ainsi, la part de 1DAM1 vaut 6.5 %, ce qui montre bien le rle
important de lolfaction au repos dans lhtrognit des perceptions de 1DAM.
En pratique, on slectionne les individus partiels ayant les plus fortes inerties intra.
Cela permet de mettre en vidence des points partiels non concordants avec les
autres images associes ces mmes points.
9 Mthodologie de lAFM
220
nud sommital
nud n
partition associe au nud n
(ici 7 variables en 3 groupes)
variables
Figure 9.3 Exemple de hirarchie structurant les variables dun tableau.
221
9 Mthodologie de lAFM
222
olf. repos
vision
gustation
gustation
olf. agit.
1984
1982
olf. agit.
olf. repos
vision
Figure 9.4 Exemple de reprsentations de points partiels en AFMH. Pour chaque vin i, on
distingue son image pour chaque millsime et pour chaque phase de dgustation au sein dun
millsime.
produits des Jl associs aux L n nuds englobant le nud n, ce qui peut scrire :
l=L
n
Jl
l=1
Dans lexemple des vins, les points partiels relatifs un millsime sont dilats avec le
coefficient 2 (cas 2 millsimes) ; les points partiels relatifs une phase de dgustation
(dans un millsime) sont dilats avec le coefficient 2 4 = 8 (car 2 millsimes4
phases).
Chapitre 10
Comparaison de tableaux de
frquence binaire
10.1.1 Notations
Notons I , J , T les ensembles des modalits des trois variables (la notation T fait
rfrence au temps).
224
T
t
f.jt
f..t
f i jt = 1
f i j. = t f i jt
f i.t = j f i jt
f . jt = i f i jt
f i.. = jt f i jt
f . j. = it f i jt
f ..t = i j f i jt
i jt
f.j.
fi.t
fijt
fij.
fi..
Les donnes peuvent tre prsentes sous forme dun paralllpipde (cf.
Figure 10.1) de terme gnral not f i jt . Les f i jt , obtenus en divisant les effectifs par
leur total, peuvent tre considrs comme une mesure de probabilit sur le produit des
trois ensembles I , J et T .
Les marges binaires de ce paralllpipde sont les trois tableaux de contingence
binaire, obtenus en sommant sur lun des trois indices. Leur terme gnral est not
respectivement f i j. , f . jt et f i.t . Chacune peut tre reprsente par une face du paralllpipde. On parlera aussi des trois marges unaires, vecteurs obtenus en sommant sur
deux indices et nots f i.. , f . j. et f ..t : chacune peut tre reprsente par une arte du
paralllpipde. Larte f i.. (resp. f . j. ou f ..t ) est dite souvent marge sur I (resp. sur
J ou T ) .
On peut prsenter aussi les donnes comme une suite de tableaux binaires (cf.
Figure 10.2). Cest dailleurs ainsi quelles se prsentent concrtement. Lune des
dimensions, T par exemple, joue alors un rle diffrent des deux autres. Les T tableaux
binaires croisant I et J sont des tranches du paralllpipde. Leur somme nest
autre que la marge binaire sur ce mme produit.
10.1.2 Exemples
Dans ce chapitre, nous appliquons la plupart des mthodes exposes un tableau de
trs petite dimension issu de donnes de lINSEE ( Bilan formation-emploi 1973 ,
225
1
i
1
fij1
...
fijT
I
t=1
t=T
Tableau 10.1 lves scolariss en 1972-1973, sortis du systme ducatif en 1973 et ayant trouv
un emploi : sexe masculin.
Niveaux de diplme
sans BEPC BEP/ CAP BAC
BAC DEUG/ DUT/ SUP
Total
diplme
gnral technique ENT BTS
Agriculteur
15068 2701
5709
297
1242
322
25339
Ingnieur
337
309
917
308
4383 6254
Technicien
302 1697
2242
1969
1399
357 1943 381 10290
Ouvrier qualifi
10143 3702 30926
314
1861
337 47283
Ouvrier non qualifi 59394 8087 17862
2887
1696
323 90249
Cadre suprieur
596
298
892
1227
298
2362 318 6781 12772
Cadre moyen
2142 2801
672
6495
924
2807 2301 4030 22172
Employ qualifi
5445 7348
4719
4353
1280
614 982
24741
Employ non qualifi 4879 4987
1514
3478
886
1326
661 17731
Total
97969 31958 64845 21937 9586
7774 5866 16896 256831
Emploi occup
226
Tableau 10.2 lves scolariss en 1972-1973, sortis du systme ducatif en 1973 et ayant trouv
un emploi : sexe fminin.
Niveaux de diplme
sans BEPC BEP/ CAP BAC
BAC DEUG/ DUT/ SUP
Total
diplme
gnral technique ENT BTS
Agriculteur
5089 1212
1166
7467
Ingnieur
316
304 1033 1653
Technicien
281
320
320
283
683
1887
Ouvrier qualifi
7470 1859
4017
1752
657
285
16040
Ouvrier non qualifi 29997 4334
4538
1882
40751
Cadre suprieur
2236
595
911
569 6788 11099
Cadre moyen
1577 1806
4549
17063
875
4152 15731 3991 49744
Employ qualifi
21616 19915 32452 16137 5865
1256 3332 1286 101859
Employ non qualifi 19849 7325
6484
5111
898
294
635
40596
Total
85879 36451 53526 44817 9173
6613 21539 13098 271096
Emploi occup
anne, pour 40 entreprises, le nombre total demplois dans chacune des 10 catgories
demplois qui apparaissent dans ces entreprises.
227
Cette comparaison elle-mme recouvre des objectifs trs divers dcrits dans la
section suivante en rfrence aux exemples cits.
228
10.1.5 Conclusion
En passant du binaire au ternaire, le niveau de complexit crot considrablement.
Ltude dune liaison ternaire est vaste et il ne peut tre question, mme pour un
tableau de trs petite taille, den tudier tous les aspects. Aussi, nous navons la
prtention dans ce chapitre, ni de donner des rponses toutes les questions poses,
ni de faire un bilan exhaustif des traitements. Notre but est dorienter la rflexion
sur ce type de donnes et de proposer quelques outils que chacun peut adapter ses
problmes.
Nous voquons dabord lanalyse des marges binaires dun tableau ternaire. Puis
nous proposons trois mthodes illustres par le mme exemple. La faible dimension
de ces donnes permet de fournir les rsultats complets de chaque analyse. Lintrt de
cette tude systmatique est essentiellement pdagogique. Pour prciser ce quapporte
chacune des techniques proposes, nous mettons laccent sur les diffrences entre
leurs rsultats.
1. La premire analyse est une AFC de la somme des tableaux, avec les diffrents
tableaux en lments supplmentaires.
2. La seconde analyse est une AFC de tableaux juxtaposs complte par de multiples indices.
3. La troisime analyse, baptise analyse intra , permet dtudier des liaisons
conditionnelles.
Nous allons de la plus simple la plus complexe et il est raisonnable de respecter cet
ordre dans les applications. Pour chaque mthode, nous indiquons les grandes lignes
des techniques dinterprtation ; puis nous valuons leur efficacit pour rpondre
chacune des questions souleves concernant la comparaison des tableaux binaires.
10.3 Premire analyse : les tableaux en supplmentaire dans lAFC de leur somme 229
tudie) des catgories demplois dans chaque entreprise. Son analyse met en vidence
les diffrences de rpartition des emplois suivant les entreprises dans la priode considre et de comparer les entreprises suivant ce critre. La deuxime marge, qui cumule
les entreprises, permet dtudier lvolution de la rpartition des emplois dans lensemble du secteur auquel appartiennent les entreprises. La troisime marge croise les
annes et les entreprises en cumulant les catgories demplois ; elle donne lvolution
du nombre total demplois dans chacune des entreprises.
Cette mthodologie permet de dgager dabord les grandes tendances des donnes,
avant de sattaquer la description prcise de phnomnes plus fins. Les nuances que
lanalyse du paralllpipde complet permet de dgager nont en effet de sens qu
lintrieur de structures plus grossires, mais plus fortes, impliques par les marges.
Cette dmarche correspond la philosophie gnrale de lanalyse des donnes.
De plus, on ne le rptera jamais trop, une tude nest pas faite par une seule
squence danalyses. Chaque rsultat remet en question le tableau trait, notamment
le codage et les lments pris en compte. Si des valeurs excentres, appeles couramment aberrantes, qui apparaissent dj au niveau de lanalyse des marges ne sont pas
limines ou recodes avant une analyse fine, les rsultats de cette dernire risquent
de ne prsenter aucun intrt ou dtre mal interprts. Lanalyse de tableaux binaires
se matrise bien, les phnomnes perturbateurs se reprent aisment et on peut les
neutraliser beaucoup plus facilement que lors de lanalyse dun tableau ternaire.
10.3.1 Principe
La mthode classique consiste traiter par lAFC la somme des T tableaux, en mettant
ces T tableaux la fois en lignes et en colonnes supplmentaires (cf. Figure 10.3).
Comment cette analyse permet-elle de comparer les T tableaux ? Voyons dabord
la reprsentation gomtrique des colonnes actives et supplmentaires dans lespace
R I (cf. Figure 10.4).
Comme le montre la formule ci-aprs, la colonne j de la marge tudie, tant la
somme des T colonnes homologues ( j, t) des T tableaux, son profil f i j. / f . j. est situ
au barycentre des T profils f i jt / f . jt (chaque profil tant muni du poids affect en AFC)
puisque :
f . jt f i jt
f i j.
=
f . j. f . jt
f . j.
t
Lanalyse de la somme des T tableaux est donc lanalyse dun nuage moyen : celui
des barycentres des profils des colonnes homologues des T tableaux. Les facteurs
230
kij
kij 1
kij 2
kij 1
kij 2
RI
bacheliers (hommes)
bacheliers
bacheliers (femmes)
Figure 10.4 Le profil de la colonne j de la marge tudie est au barycentre des T profils des
colonnes [j,t] des T tableaux. Le profil demplois de la classe des bacheliers, hommes et femmes
cumuls, est au barycentre des profils demplois des bacheliers hommes et des bachelires.
mettront donc en vidence des tendances communes aux T tableaux (si elles existent).
Dans lexemple, les oppositions entre diplmes qui se retrouvent la fois chez les
hommes et chez les femmes apparaissent clairement ; par contre, les diffrences entre
les profils demplois des deux sexes, diplme gal, sont limines.
Mettre les T tableaux en colonnes supplmentaires dans lAFC de leur somme
consiste projeter les profils de leurs colonnes sur les axes dinertie de leurs barycentres. Ceci permet dtudier, sur chaque facteur, lcart entre le profil de la colonne j
de chaque tableau t et le profil moyen de ces colonnes j. Si ces carts sont tous faibles,
le facteur reprsente une tendance commune tous les tableaux. Cette projection des
profils des colonnes des diffrents tableaux sur un rfrentiel commun permet de les
comparer, au moins dans ce qui apparat dans ce rfrentiel. Mais attention, les diffrences entre profils homologues ne sont pas forcment visibles sur cette projection, soit
parce que les carts entre ces profils sont orthogonaux aux structures moyennes, soit
10.3 Premire analyse : les tableaux en supplmentaire dans lAFC de leur somme 231
Figure 10.5 Exemples dans lesquels la dispersion intra-tableaux nest pas visible dans ltude de
la dispersion inter-tableaux.
parce que ces carts sont trs faibles par rapport aux carts entre les profils diffrents
(cf. Figure 10.5). La situation est exactement identique pour les lignes.
Les deux paragraphes suivants illustrent cette technique par un commentaire dtaill
des rsultats de lanalyse des donnes croisant emplois, diplmes et sexes.
10.3.2 Interprtation
Le dpouillement des rsultats commence par ltude des lments actifs, les lignes et
les colonnes de la somme des T tableaux ; ce tableau croise 9 catgories demplois et
8 niveaux de diplme.
Le graphique des deux premiers facteurs de cette analyse (cf. Figure 10.8) montre
les ensembles de diplmes et demplois rpartis approximativement sur une courbe
de forme parabolique. Ce phnomne, assez courant en AFC, est appel communment effet Guttman . Il apparat lorsquil existe une structure dordre la fois sur
lensemble des lignes et sur celui des colonnes et que ces structures sont associes.
Plus prcisment, si lon rordonne les lignes et les colonnes dans lordre du premier
facteur, on obtient un tableau dont les lments proches de la diagonale ont de fortes
valeurs tandis que les lments loigns sont nuls ou presque nuls. Nous profitons de
cet exemple pour prsenter quelques rsultats gnraux concernant cette structure.
Le modle de leffet Guttman
Il a t dmontr que lAFC de tableaux modles, ayant tous leurs lments nuls en
dehors dune bande diagonale et constants sur cette bande, aboutit au rsultat suivant :
le deuxime facteur est une fonction polynme du second degr du premier facteur
et, sur le plan 1-2, les points sont situs exactement sur une parabole. De mme, le
troisime facteur est une fonction du troisime degr du premier et, sur le plan 1-3, les
232
F2
F3
00
F1
00
Donnes
F1
Figure 10.6 Leffet Guttman : donnes et premiers plans de lAFC. Le tableau des donnes
comporte la mme valeur sur la bande (en gris) autour de la diagonale et 0 ailleurs. Ce tableau
est appel scalogramme . Sur le plan (F1 ,Fs ) de lAFC dun tel tableau, les points (lignes et
colonnes) sont rpartis sur une courbe de degr s.
points sont situs sur une courbe qui coupe trois fois laxe 1 (cf. Figure 10.6). Plus
gnralement, le facteur de rang s est un polynme de degr s du premier.
Dans ce cas, la liaison entre les deux variables peut se rsumer la double structure
dordre mise en vidence par le premier plan. Les facteurs suivants continuent
traduire ce mme phnomne. Notons que les pourcentages dinertie extraite des
nuages par les premiers facteurs sont, dans ce cas, faibles alors que linformation sur
la structure des donnes est complte (ce nest pas le seul exemple qui illustre le fait
que, dans le choix du nombre de facteurs considrer, ces pourcentages nont quune
valeur indicative).
Lorsque lon observe ainsi une rpartition parabolique sur un plan, on interprte
globalement le plan qui traduit lassociation ordonne des lignes et des colonnes.
Deux questions se posent assez naturellement concernant lapport du deuxime facteur, puisque la double structure dordre est dj visible sur le premier facteur. La
premire est relativement thorique : pourquoi observe-t-on une rpartition parabolique et pourquoi plus gnralement y a-t-il dautres facteurs que le premier, suffisant
pour traduire lordre ? La deuxime question est plus pratique : le deuxime facteur
peut-il apporter des rsultats complmentaires concernant les donnes tudies ? Pour
rpondre la premire question, nous ne donnons pas de dmonstration1 , mais remarquons simplement quun facteur unique ne peut traduire correctement les distances
entre profils dans le cas dun effet Guttman.
En effet, sur une droite les distances sajoutent et, sur laxe 1, la distance de la
premire ligne la dernire est plus importante que sa distance nimporte quelle
ligne intermdiaire. Or, dans le nuage des profils, ceci est faux car les deux lignes
extrmes sont rapproches par un caractre commun : les zros qui apparaissent en leur
1. Lanalyse des donnes. J.-P. Benzcri et collaborateurs, Dunod, 1973, Tome 2 p.192.
10.3 Premire analyse : les tableaux en supplmentaire dans lAFC de leur somme 233
milieu. Le premier facteur donne une bonne reprsentation de lensemble des distances
entre tous les couples de points et traduit bien ainsi la structure gnrale les distances
entre lignes successives sont faibles mais traduit mal la distance entre les extrmes.
Le deuxime facteur corrige donc et affine lapproximation relativement grossire des
distances traduite par le premier facteur. Lintrt pratique du deuxime facteur est
avant tout de caractriser par la forme parabolique une situation type laquelle on
peut se rfrer pour dcrire les donnes. En outre, il permet de voir si certains points
scartent de la parabole, ce qui se produit ds que les donnes scartent un tant
soit peu du modle. Nous verrons dans le commentaire de lexemple, au niveau de la
projection des points supplmentaires, linterprtation de ces carts.
Reconstitution des donnes dans un effet Guttman
1
f i. f . j Fs (i) G s ( j)
ls
Dans le cas dun effet Guttman, le tableau dfini par le premier facteur possde une
structure trs particulire (cf. Figure 10.7). Les lments situs en haut gauche et en
bas droite sont trs fortement positifs tandis que les lments situs dans les coins
opposs sont fortement ngatifs (F1 (i)) et G 1 ( j) sont alors de signes opposs). Les
autres cases du tableau, qui correspondent aux lignes ou aux colonnes moyennes dont
les projections valent presque zro, ont des valeurs trs faibles. Dans cette reconstitution dordre 1, le profil des lignes ou des colonnes moyennes est presque proportionnel
la marge du tableau.
Le tableau dfini de la mme faon par le deuxime facteur a des termes positifs
au centre et aux quatre coins, et des termes ngatifs ailleurs. Le cumul de ces deux
tableaux sapproche de la structure en bande diagonale, caractristique de leffet
Guttman.
Interprtation du plan des deux premiers facteurs
234
+++
fij
fi . f . j
0
Donnes
Indpendance
++
++
Facteur 1
+ ...
Facteur 2
Figure 10.7 Reconstitution des donnes, partir des premiers facteurs de lAFC, dans le cas dun
effet Guttman.
Contrairement au cas modle, on constate dans notre exemple, laide des graphiques
des plans 1-3 et 1-4, que les facteurs 3 et 4 ne sont pas des fonctions polynmes du
premier. On en dduit que la liaison entre diplmes et emplois ne se rsume pas au
10.3 Premire analyse : les tableaux en supplmentaire dans lAFC de leur somme 235
ingnieur
F2 : 23.8%
2 : .224
TUDES SUPRIEURES
cadre suprieur
SANS DIPLME
H
ouvrier
non qualifi
D-H
agriculteur
E-H
F1 : 57.4 %
1 : .539
employ
non
qualifi
ouvrier qualifi
BEP-CAP
D-F
DEUG
E-F
BAC TECHNIQUE
BEPC
employ qualifi
BAC
GNRAL
LEGENDE
D-H : barycentre des diplmes-hommes
E-H : barycentre des emplois-hommes
D-F : barycentre des diplmes-femmes
E-F : barycentre des emplois-femmes
cadre moyen
technicien
F
DUT/BTS
Figure 10.8 Plan des deux premiers facteurs de lanalyse du tableau somme.
double ordre et que dautres phnomnes sy ajoutent. Leur importance est moindre
puisque linertie de ces facteurs est beaucoup plus faible. Le plan 1-2 donne une image
globale de la liaison tandis que les facteurs 3 et 4 montrent des phnomnes beaucoup
plus ponctuels, i.e. concernant peu dlments.
Le troisime facteur (cf. Figure 10.9) traduit la forte association entre les ouvriers
qualifis et le CAP/BEP. Ces deux points, chacun dans leur nuage, ont une contribution linertie du troisime facteur trs importante (40 % et 51 % respectivement cf.
Tableau 10.3). Ils dterminent donc en grande partie la direction de laxe dinertie ; le
fait quils soient situs du mme ct signifie quils sassocient trop .
Ce troisime facteur diffrencie entre eux les diplmes (resp. les emplois) de faible
qualification trs proches sur le premier plan. Il montre une nuance trs nette entre les
sans diplme et les titulaires dun diplme de faible niveau (CAP/BEP) : par rapport
lensemble de la population tudie, les premiers aboutissent beaucoup plus des
236
F4 : 4.5 %
3 : .042
BEPC
employ qualifi
BAC TECHNIQUE
BAC GNRAL
ingnieur
cadre suprieur
E-F
SANS
DIPLME
agriculteur
ouvrier non
qualifi
cadre moyen
DUT / BTS
TUDES
E-H
DEUG
SUPRIEURES
technicien
F3 : 12.6 %
3 : .119
BEP-CAP
D-H
ouvrier
qualifi
LEGENDE
D-H : barycentre des diplmes-hommes
E-H : barycentre des emplois-hommes
D-F : barycentre des diplmes-femmes
E-F : barycentre des emplois-femmes
H
emplois douvrier ou demploy non qualifi tandis que les seconds mnent beaucoup
plus frquemment des emplois douvrier qualifi.
Le quatrime facteur, schmatiquement, oppose les employs (qualifis et non
qualifis) aux ouvriers qualifis. Par rapport lensemble de la population tudie, les
premiers sont plus souvent titulaires dun BEPC et les seconds dun CAP/BEP.
10.3 Premire analyse : les tableaux en supplmentaire dans lAFC de leur somme 237
Sans diplme
BEPC
CAP/BEP
BAC gnral
BAC Technique
DEUG/ENT
DUT/BTS/Sant
tudes suprieures
E. complet
Facteur 1
Facteur 2
Facteur 3
Facteur 4
.940
1.00
29
120
27
89
146
270
247
52
21
.539
.574
.035
.139
.008
.039
.145
.353
.265
.006
.010
.224
.238
.020
.147
.061
.000
.126
.269
.310
.067
.000
.119
.126
.019
.013
.003
.403
.241
.013
.129
.158
.022
.042
.045
.008
.040
.030
.323
.040
.002
.093
.273
.255
1.00
1.00
1.00
1.00
1.00
178
36
99
83
15
61
150
378
.183
.010
.044
.071
.000
.090
.107
.494
.142
.016
.005
.149
.012
.006
.286
.384
.303
.019
.507
.013
.037
.016
.088
.017
.018
.518
.182
.074
.023
.001
.183
.000
1.00
1.00
1.00
1.00
1.00
Les deux tableaux ont t mis deux fois en supplmentaire, en colonne et en ligne (cf.
Figure 10.3 page 230). Etudions dabord la projection sur le plan 1-2 des colonnes
supplmentaires, cest--dire des profils demplois des hommes et des femmes pour
chacun des diplmes. Pour tous les diplmes, sur le premier axe, les deux points
reprsentant les hommes et les femmes sont presque confondus. Sur le deuxime axe, la
plupart dentre eux sont aussi trs proches de leur barycentre ; pour des raisons de clart
seuls les DEUG, qui font exception cette rgle, sont reprsents sur le graphique de
238
Tableau 10.4 Profils demplois des hommes et des femmes titulaires dun DEUG, rordonns
suivant le premier facteur.
Agriculteur
Ouvrier non qualifi
Ouvrier qualifi
Employ non qualifi
Employ qualifi
Technicien
Cadre moyen
Cadre suprieur
Ingnieur
Total
DEUG
Hommes Femmes
0
0
0
0
0
0
17
4
9
19
5
0
35
63
30
14
4
0
100
100
la figure 10.8. Lgalit des coordonnes des deux points DEUG-Hommes et DEUGFemmes sur le premier axe implique que, en moyenne, le niveau des emplois des
hommes et des femmes qui ont un DEUG est le mme (en loccurrence un niveau
moyen). Sur le deuxime axe, la diffrence est trs importante : la coordonne du point
DEUG-Femmes est trs fortement ngative tandis que celle du point DEUG-Hommes
est trs fortement positive. Les proprits barycentriques indiquent que les femmes
occupent plus que les hommes les emplois de coordonnes ngatives, donc les emplois
moyens. Rciproquement, les hommes occupent plus que les femmes les emplois de
coordonnes positives, cest--dire les emplois extrmes. Cette proprit, dcele sur
le graphique se retrouve dans les donnes initiales (cf. Tableau 10.4).
b) Profils de diplmes de chaque emploi, pour les hommes et pour les femmes
Ltude des projections des lignes supplmentaires permet de comparer les profils
de diplmes des hommes et des femmes emploi gal. Sur le plan 1-2, la situation
est tout fait analogue celle des profils demplois : les coordonnes des couples
de points reprsentant le mme emploi sont presque identiques sur le premier axe
et, pour la plupart dentre eux, trs proches sur le deuxime axe ; cadre moyen, qui
fait exception, est reprsent sur le graphique. En moyenne, le niveau de diplme
des cadres moyens diffre peu entre hommes et femmes, puisque leur coordonne
sur le premier axe est quasiment la mme. Par contre, dans cet emploi, la proportion
dhommes qui possdent des diplmes extrmes (sans-diplme, tudes suprieures)
est suprieure celle des femmes qui ont gnralement des diplmes moyens (cf.
Tableau 10.5).
10.3 Premire analyse : les tableaux en supplmentaire dans lAFC de leur somme 239
Tableau 10.5 Profils de diplmes des cadres moyens, rordonns suivant le premier facteur.
Sans diplme
CAP/BEP
BEPC
BAC technique
BAC gnral
DUT/BTS/Sant DEUG
tudes suprieures
Total
Cadres moyens
Hommes Femmes
10
3
3
9
13
4
4
2
29
34
10
32
13
8
100
100
10.3.4 Bilan
Rcapitulons dans quelle mesure cette premire analyse, lAFC de la somme des
tableaux avec ces tableaux en supplmentaires, rpond aux questions poses par la
comparaison des tableaux binaires.
240
t = 1 (hommes) t = 2 (femmes)
j
J 1
j
J 1
J H
241
F
I = catgories d'emplois
J = niveaux de diplme
i
k ij1
k ij2
k ij.
Figure 10.10 Structure des donnes dans lAFC des tableaux juxtaposs.
Le tableau actif est de dimensions I et JT.
242
Le nuage des emplois nest pas le mme que dans lanalyse de la somme puisque la
distance entre deux catgories demplois est induite par une rpartition en 16 modalits
et non plus en 8 modalits : les carts entre hommes et femmes jouent maintenant un
rle. Plus prcisment, on peut montrer que le carr de la distance entre deux emplois i
et l (ou entre un emploi i et le barycentre G du nuage) se dcompose en une somme de
deux termes. Le premier nest autre que le carr de leur distance dans le tableau somme,
actif dans lanalyse de la section 10.3 ; cest la part inter-diplmes de la distance. Le
second terme est aussi le carr dune distance : il exprime la part intra-diplme. Pour
dmontrer cette galit, il suffit dcrire formellement les distances entre profils :
2
2
d 2 (i, l) = dsomme
dintra
(i, l)
(i, l) +
j
j
2
d 2 (i, G) = dsomme
(i, G) +
j
d2intra j (i, G)
ingnieur
243
F2 : 24.3%
2 : .321
TUDES SUPRIEURES
cadre suprieur
H
H
ouvrier qualifi
H
H
DEUG
H
H
BAC TECHNIQUE
cadre moyen
SANS
DIPLME
BEPCAP
Technicien
agriculteur
ouvrier
non qualifi
F1 : 42.1%
1 : .558
F
BAC
GNRAL
DUT/BTS
empl.
non
qualifi
empl.
F qualifi
BEPC
F
F
Figure 10.11 Le plan des deux premiers facteurs de lAFC des tableaux juxtaposs.
Ainsi, que ce soit dans le nuage des lignes ou celui des colonnes, linertie se dcompose
en deux parts : la part inter-diplmes qui est celle de la premire analyse (celle de la
somme) et la part intra-diplme qui sy ajoute. dintra j est spcifi en 10.5.4.
Le graphique des deux premiers facteurs (cf. Figure 10.11) est assez semblable
celui obtenu dans lanalyse de la marge. Ceci na rien pour nous tonner car la double
structure dordre, qui est une structure inter-diplmes, est trs forte. Les paragraphes
suivants permettent de comparer plus prcisment les rsultats de ces deux analyses.
Notons seulement ici que, si linertie de ce premier facteur est lgrement suprieure
celle du premier facteur de la somme, le pourcentage dinertie extrait est beaucoup
plus faible, linertie totale tant plus leve.
244
245
Inertie totale
I. inter (en %)
I. intra (en %)
Sans diplme
BEPC
CAP/BEP
BAC gnral
Bac technique
DEUG
DUT/BTS
Suprieur
Espace entier
1.326
.709
.291
.057
.018
.122
.013
.015
.008
.032
.027
F1
.558
.944
.056
.013
.001
.037
.000
.003
.000
.002
.000
F2
.321
.513
.487
.105
.040
.288
.013
.021
.010
.002
.008
F3
.170
.660
.340
.050
.045
.184
.000
.036
.020
.001
.005
F4
.140
.811
.189
.070
.004
.091
.001
.001
.003
.017
.001
Dans notre exemple o le jeu de donnes est de dimension trs faible, on dcle trs
rapidement cette structure sur les graphiques. Lintrt de cet indice est de la quantifier.
Dans ltude de donnes de dimension plus importante, un tel indice peut apporter un
gain de temps prcieux : une inertie inter aussi importante montre que linterprtation
de laxe doit sappuyer uniquement sur les barycentres.
Le deuxime facteur est mixte : son inertie est pour moiti inter et pour moiti intra.
Son interprtation est plus complexe car elle ncessite de prendre en compte les deux
dispersions. Lcart entre les hommes et les femmes joue un rle important sur cet axe,
surtout au niveau des CAP/BEP et des sans-diplme. La parabole traduisant leffet
Guttman est moins rgulire que dans lAFC de la somme. Le troisime facteur est
encore mixte tandis que le quatrime est plutt inter-diplmes.
b) Contribution linertie : dcomposition en 2 sous-tableaux
246
Tableau 10.7 Linertie totale et sa dcomposition inter-sexes et intra-sexe dans lanalyse des
profils demplois.
Inertie totale
I. inter (en %)
I. intra (en %)
Hommes
Femmes
Espace entier
1.326
.172
.828
.465
.363
F1
.558
.070
.930
.544
.386
F2
.321
.506
.494
.244
.267
F3
.170
.092
.907
.313
.594
F4
.140
.001
.999
.824
.175
La diffrence entre les profils demplois des hommes et des femmes, tous diplmes
cumuls, reprsentent 17 % de linertie du nuage. Elle ninflue que sur le deuxime facteur. Le premier facteur, comme les facteurs 3 et 4, est d exclusivement lcart entre
profils demplois correspondant des diplmes diffrents, tant chez les hommes que
chez les femmes. Notons que le facteur 4 montre une dispersion beaucoup plus importante chez les hommes que chez les femmes. Sur les autres facteurs, ces dispersions
sont plus quilibres.
c) Complmentarit des deux dcompositions
D1H
D1
D1F
D2H
D2
D1H
D1F
D1F
D2F
H
D1
247
Variabilit
inter-diplmes
intra-diplme
inter-sexes
intra-sexe
D2
D2H
Figure 10.12 Deux exemples trs simples de dcomposition de linertie totale en inerties
inter-diplmes, intra-diplmes et inter-sexes. D1 H : diplme 1 pour les hommes.
Tableau 10.8 Qualit de reprsentation du nuage des 8 barycentres des profils demplois et de
deux des 8 sous-nuages.
Barycentres
CAP/BEP
Suprieur
F1
0.560
0.127
0.002
F2
0.175
0.571
0.074
F3
0.119
0.193
0.024
F4
0.121
0.079
0.005
les qualits de reprsentation des nuages dfinis par les sous-tableaux : linertie de ces
sous-nuages est calcule par rapport leur barycentre, comme dans la dcomposition
inter et intra de linertie. Les indices concernant le nuage des barycentres et chacun
des sous-nuages sutilisent de la mme manire que la qualit de reprsentation dun
point : ils permettent de reprer le ou les facteurs sur lesquels ces nuages sont bien
reprsents et, inversement, de reprer le ou les nuages qui caractrisent un facteur.
Les tableaux 10.8 et 10.9 donnent les qualits de reprsentation du nuage des
barycentres dans les deux dcompositions du nuage des 16 profils demplois et la
qualit de reprsentation de quelques sous-nuages.
Commentons dabord le tableau 10.8.
Cest sur le premier facteur que le nuage des 8 barycentres est le mieux reprsent ;
nous avons dj indiqu que ce facteur est un facteur inter-diplmes.
Par contre, cest sur le deuxime facteur que le petit sous-nuage de deux points
dfini par le niveau de diplme CAP/BEP est le mieux reprsent. Si nous voulons
prciser la diffrence entre les profils demplois des hommes et des femmes titulaires
de ce diplme, cest donc sur le deuxime facteur quil faut surtout se pencher.
248
Tableau 10.9 Qualit de reprsentation du nuage des deux barycentres hommes et femmes et
des deux sous-nuages.
Barycentres
Hommes
Femmes
F1
.174
.500
.455
F2
.724
.120
.181
F3
.069
.087
.212
F4
0
.190
.052
249
marge
marge
fi..
fijt
fi.t
fijt
I
Figure 10.13 Marges du tableau juxtapos et du sous-tableau t.
Les facteurs de tous les tableaux tant des fonctions numriques dfinies sur le mme
ensemble I , il parat naturel, pour les comparer deux deux, de calculer leurs coefficients de corrlation et par consquent de les comparer tous simultanment laide
dune ACP. Mais le calcul des corrlations fait intervenir le poids des individus (ici les
lignes i) ; or ces facteurs proviennent dAFC dans lesquelles les lignes ont des poids
imposs. Ces poids sont dfinis par la marge sur I du tableau analys ; ils interviennent
dans le calcul des facteurs et ces facteurs sont centrs pour ces poids. Or, si la marge
sur I du tableau juxtaposant les tableaux hommes et femmes est gale celle de la
somme de ces deux tableaux, les marges des tableaux pris sparment sont diffrentes
(cf. Figure 10.13). Cette diffrence de marge et par suite de poids ne fait que traduire
une diffrence plus fondamentale : les populations qui dfinissent une mme ligne i ne
sont pas les mmes (hommes et femmes par exemple). En toute rigueur, les facteurs de
ces tableaux tant dfinis sur des objets diffrents, on ne peut dfinir leur corrlation.
Cependant il est utile de disposer dindices mesurant la ressemblance entre facteurs
qui reprsentent la projection du mme ensemble de modalits.
On peut songer affecter un poids identique toutes les lignes i. Dans ce cas,
les facteurs sont recentrs lisobarycentre des points, et les barycentres pondrs,
rfrences fondamentales de la situation dindpendance, ne jouent pas leur rle ce
qui diminue considrablement lintrt des rsultats.
Il est plus logique daffecter aux lignes i les poids f i. dfinis par la population
entire. Ceci rsout le problme de la comparaison des facteurs du tableau juxtapos
et de ceux des deux tableaux somme f i j. et f i.t puisque ces tableaux ont tous deux
pour marge f i.. .
Il ne reste alors que le problme de la comparaison des facteurs des sous-tableaux.
Prenons par exemple le tableau dfini en fixant t. Sa marge sur I vaut f i.t (cf.
Figure 10.13). Pour comparer ses facteurs sur I nots Fst (i) aux facteurs dfinis
sur la population entire o la ligne i a le poids f i.. , nous allons les redresser en les
multipliant par le rapport f i.t / f i.. . Cette transformation sappuie sur trois arguments :
250
a) Ce redressement permet dobtenir des fonctions centres pour les poids f i.. :
f i.t t
f i..
F (i) =
f i.t Fst (i) = 0
f i.. s
i
b) Le facteur redress apparat comme une mise en perspective du facteur Fst (i), en
tant que terme dcart lindpendance, dans le cadre du tableau juxtapos. En effet, la
formule de reconstitution des donnes applique au tableau t de terme gnral f i jt / f ..t
fait apparatre le modle de rfrence dfini par lindpendance des deux caractres
sur la sous-population t :
1
f i jt
f i.t f . jt
Fst (i)G ts ( j)
1+
=
f ..t
f ..t f ..t
ls
s
Dans cette formule, Fst (i) apparat comme un terme de lcart au modle dindpendance. Une transformation simple de cette formule fait apparatre dune part le modle
de rfrence dfini par lindpendance sur la population entire ( f i.. f . jt ) et, dautre
part, le facteur redress :
f i jt
f i.. f . jt
f i.t 1
f i.t t
t
=
+
F (i) G s ( j)
f ..t
f ..t f ..t
f i..
ls f i.. s
s
c) On peut montrer2 que les facteurs sur I du tableau juxtapos sont les composantes
principales de lensemble des variables suivantes :
1. les facteurs redresss des T sous-tableaux ;
2. les facteurs du tableau somme f i.t .
Dans cette ACP non norme, les facteurs du sous-tableau t ont un poids gal f ..t ,
ceux du tableau somme un poids gal 1 et les individus ont un poids gal f i.. .
Lquivalence entre cette ACP et lAFC est importante. Outre le fait que les facteurs
redresss sintroduisent naturellement dans cette ACP, elle montre que les facteurs
sur I du tableau juxtapos forment le rfrentiel commun adapt la comparaison de
tous ces facteurs. Elle offre aussi une possibilit de calcul exploite dans lanalyse par
sous-tableaux (cf. Section 10.4.6 page 252).
La reprsentation des facteurs norms des sous-tableaux et du tableau somme sur le
cercle des corrlations sobtient facilement partir des rsultats de lAFC du tableau
juxtapos par de simples calculs de corrlation.
2. Cluster Analysis and Data Analysis. M. Jambu and M.O. Lebeaux, NorthHolland, 1983, p.481.
251
Tableau 10.10 Corrlations entre les facteurs de lanalyse du tableau juxtapos et ceux des autres
analyses.
Tableau
analys
Hommes
+
Femmes
Hommes
Femmes
F1
F2
F3
F4
F1
F2
F3
F4
F1
F2
F3
F4
F1
-.986
-.088
.008
.136
.949
.015
-.032
.006
.888
.080
-.067
-.142
Tableau juxtapos
F2
F3
-.158
.060
.784
.607
-.056
.182
-.557
.745
-.120 -.178
.756
.385
.014 -.355
-.284
.595
-.214
.316
.616
.614
-.471
.541
-.354
.329
F4
-.012
-.071
.969
-.139
-.036
.126
.926
.169
.063
.079
.534
-.376
b) Rsultats
Pour les facteurs, comme pour les autres indices, on peut dcomposer le mme tableau,
soit en 8 tableaux de 2 colonnes, soit en 2 tableaux de 8 colonnes. Dans la premire
dcomposition, seuls les facteurs de la marge prsentent un intrt puisque les soustableaux nont que deux colonnes et un unique facteur. Inversement, dans la deuxime
dcomposition, nous nous intressons aux facteurs des deux tableaux hommes et
femmes et ngligeons celui du tableau marge qui ne comprend que 2 colonnes.
Commentons le tableau 10.10 qui contient les corrlations entre :
1. dune part les facteurs des tableaux juxtaposs ;
2. dautre part les facteurs de la somme du tableau hommes et du tableau femmes
ainsi que les facteurs redresss des deux tableaux hommes et femmes.
On constate la grande ressemblance entre le premier facteur du tableau juxtapos, celui
de la somme ainsi que celui du tableau hommes ; le premier facteur du tableau femmes
est encore assez proche : la double structure dordre des emplois et des diplmes est
assez forte pour dterminer le premier facteur de tous ces tableaux.
Le deuxime facteur du tableau juxtapos est un compromis entre plusieurs facteurs
de chacun des tableaux et de leur somme.
La reprsentation de ces facteurs (facteurs redresss des sous-tableaux et facteurs
du tableau somme) sur le cercle des corrlations du plan 2-3 (cf. Figure 10.14) montre
les ressemblances entre les facteurs dordre 2 des sous-tableaux et du tableau somme.
252
F3
F4
f2
h3
s3
f3
s2
h2
h4
F2
f4
s4
F3
Figure 10.14 Reprsentation des facteurs des tableaux somme (s), hommes (h) et femmes (f) sur
les plans 2-3 et 3-4 de lAFC du tableau juxtapos.
Le cercle des corrlations du plan 3-4 montre que les facteurs dordre 3 et dordre 4
des tableaux hommes et femmes ne se correspondent pas.
En conclusion, la dimension principale traduite par le premier plan (double structure
dordre) est commune aux deux tableaux. Les dimensions suivantes diffrent.
253
254
Les Tableaux Disjonctifs Complets peuvent techniquement tre traits soit par lAFM
soit par une analyse par sous-tableaux qui drive de lAFC. Comme il sagit fondamentalement de tableaux de variables, la premire solution est prfrable. Notons dailleurs
255
que les commentaires concernant les diffrences entre les marges des sous-tableaux
(qui induisent la part inter de linertie) ne concernent pas les TDC qui ont une marge
constante sur I pour chaque variable.
Au sein dune AFM, on peut faire intervenir simultanment des groupes de variables
de type frquence, quantitatif et qualitatif. Les groupes de type frquence doivent
videmment avoir la mme marge sur I et cette marge impose les poids des individus pour toute lanalyse, mme si les groupes de type frquence sont introduits en
illustratifs.
Tout dpend de leur importance relative : sil existe des tendances communes trs
fortes par rapport aux carts, lAFC des tableaux juxtaposs aboutit peu prs au
256
Diplmes
Diplmes
Emplois
Emplois
Emplois
Diplmes
Hommes
Hommes
Femmes
Femmes
mme rsultat que lAFC de leur somme et la structure commune est analyse (cas du
tableau croisant, par canton, les causes de mortalits I avec les classes dge J : la
diffrence entre les causes de mortalit dune classe dge lautre est beaucoup plus
importante que dun canton lautre pour une mme classe dge). Si, au contraire,
ce sont les carts qui prdominent, cette AFC reprsente bien les diffrences et mal la
structure commune. Par son caractre mixte, cette analyse nest pas la mieux adapte,
ni ltude de la structure commune, ni celle des carts.
Comparaison des profils des lignes et des colonnes : un peu
Comme dans lAFC de la somme des tableaux, les profils des colonnes de tous les
tableaux sont reprsents sur les mmes graphiques, ce qui permet de les comparer.
Les carts entre les profils des colonnes homologues interviennent maintenant dans la
dtermination des axes ; ils seront donc a priori plus visibles dans cette analyse que
dans lAFC de la somme. Cependant, si ces carts sont faibles relativement ceux
des diffrentes colonnes dun mme tableau (comme dans lexemple des causes de
mortalit), ils sont difficiles dtecter. Les profils des lignes des diffrents tableaux
ne sont pas compars.
Mesure de limportance relative des diffrences : colonnes oui, lignes non
Les indices de contribution linertie inter et intra donnent une mesure trs satisfaisante de limportance des carts des colonnes homologues aux colonnes moyennes.
Pour lensemble des lignes, il ny a rien de semblable.
Comparaison des facteurs des analyses spares : oui
Les facteurs du nuage des colonnes du tableau juxtapos forment un rfrentiel commun bien adapt lensemble des facteurs colonnes de tous les tableaux. La projection
de ces facteurs sur ce rfrentiel permet de les comparer efficacement.
257
a) Diffrences entre les profils demplois des hommes et des femmes diplme
gal
Dans la dcomposition de linertie du nuage des colonnes du tableau juxtapos, lensemble de ces diffrences forme linertie intra-diplme. Aucune des deux premires
analyses ne permet lanalyse systmatique de ces diffrences. En effet, dans la premire (AFC de la somme des tableaux), seule la dispersion inter-diplmes intervient
dans le calcul des axes sur lesquels sont projets les profils demplois des diplms
des deux sexes. Dans la deuxime (AFC des tableaux juxtaposs), les dispersions inter
et intra interviennent conjointement et lune peut masquer lautre. Pour analyser les
diffrences, il faut une analyse dans laquelle seule la dispersion intra intervient.
Gomtriquement, la solution est simple. Pour tudier les diffrences entre les
profils demplois des hommes et des femmes diplme gal, il suffit de considrer
le nuage obtenu en recentrant lorigine tous les sous-nuages de deux points dfinis
par un diplme (cf. Figure 10.17). Dans ce nouveau nuage, le point bachelier-homme,
par exemple, reprsente la diffrence entre le profil demplois des hommes et celui de
tous les bacheliers (hommes et femmes cumuls).
Plus gnralement, pour tudier les diffrences entre les profils des colonnes homologues de T tableaux, nous proposons danalyser un nuage driv du nuage construit
dans lAFC du tableau juxtapos, en recentrant lorigine tous les sous-nuages composs des T colonnes homologues. Toute la dispersion inter du nuage initial tant
ainsi supprime, il ne reste que la part intra qui peut tre analyse quelle que soit son
importance relative. Ce qui rsout le problme, par exemple, de la comparaison des
causes de mortalit dans les diffrents cantons classe dge gale.
b) Comparaison des emplois travers la diffrence de rpartition entre
hommes et femmes diplme fix
On peut aussi chercher faire une typologie des emplois travers la diffrence de recrutement suivant les deux sexes, ceci indpendamment du diplme possd. Autrement
dit, dans la typologie cherche, deux emplois sont proches si, pour certains niveaux de
diplme, ils ont tous deux un pourcentage trop (ou pas assez) lev dhommes.
258
Cette question est la duale de la prcdente. En effet (cf. section b page 242),
linertie du nuage des lignes (emplois) construit dans lAFC des tableaux juxtaposs
se dcompose, comme celle du nuage des colonnes, en une part inter-diplmes et
une part intra-diplmes. Pour un emploi donn, caractris par les pourcentages des
diplms des deux sexes, le carr de sa distance un autre emploi est donn par la
diffrence entre leurs profils de diplmes les deux sexes tant cumuls (part inter)
et la diffrence entre les pourcentages dhommes et de femmes diplme fix (part
intra). De mme, dans lexemple du tableau croisant des entreprises (I ), des catgories
demplois (J ) et des annes (T ), les distances entre entreprises induites par la variable
croise J T se dcomposent en une part inter (induite par J , toutes annes cumules)
et une part intra (volution de la rpartition des emplois). Pour analyser les volutions,
il faut une analyse dans laquelle ne subsiste que la part intra.
La solution gomtrique consiste construire un nuage dans lequel les distances
sont ces distances intra.
c) Principe de lanalyse intra
259
de ces nuages ont pour coordonnes les diffrences entre les profils des lignes (resp.
colonnes) du tableau de donnes et du tableau modle. Les mtriques et les poids sont
identiques ceux de lAFC.
Techniquement, il est possible dobtenir les rsultats de la gnralisation de lAFC
en appliquant un programme classique dAFC aux donnes pralablement transformes : comme le programme dAFC se rfre au modle produit des marges, il faut
introduire le nouveau modle et supprimer le modle ancien. Le tableau trait
scrit alors :
donnes modle + produit des marges
Notons f i j le terme gnral du tableau de donnes et m i j celui du modle (avec
f i. = m i. et f . j = m . j ; le tableau analys a pour terme gnral :
f i j m i j + f i. f . j
Lorsque le modle nest autre que le produit des marges, on obtient lAFC classique.
Ce tableau peut comporter des termes ngatifs mais ses deux marges, tant gales aux
marges communes des donnes et du modle, sont positives et les programmes dAFC
peuvent sappliquer. Une ligne i (resp. une colonne j), dans le nuage centr dfini
dans lAFC de ce tableau (obtenu en prenant comme origine le barycentre f . j - resp.
f i. -), reprsente bien la diffrence entre son profil dans les donnes et dans le modle
puisque son terme gnral vaut :
fi j
mi j
+ f. j f. j
f i.
m i.
Les marges du tableau analys tant gales celles du modle, les poids et les
mtriques sont identiques ceux de lAFC du tableau f i j .
Contrairement lAFC classique, la formule de transition comprend des termes
ngatifs.
1 fi j m i j
Fs (i) =
G s ( j)
f i.
ls
j
Dans la reprsentation superpose des lignes et des colonnes, une ligne i est du ct
des colonnes auxquelles elle sassocie plus dans les donnes que dans le modle et
loppos de celles auxquelles elle sassocie moins que dans le modle. En effet, dans
le premier cas, le coefficient de la formule de transition est positif tandis que dans le
second cas il est ngatif. Le mme raisonnement vaut pour les colonnes.
260
(1,1)
( j,t)
(J,T)
marge
1
fijt
fi..
f
ij.
m =
f
ijt f
. jt
. j.
I
(1,1)
( j,t)
(J,T) marge
1
i
m ijt
fi..
m = f
i..
i..
m = f
. jt
. jt
m =f
ij.
ij .
I
marge
f.jt
Figure 10.16 Le tableau juxtapos et son modle dans lanalyse intra.
Il est possible de gnraliser lAFC un modle dont les marges sont diffrentes
de celles du tableau des donnes. Dans ce cas, un programme spcial est ncessaire et
linterprtation est plus dlicate. Nous nexposerons pas la technique gnrale3 .
f i j.
f . jt
f . j.
261
m i jt
f i j.
m i j.
=
=
m . jt
f . j.
m . j.
Gomtriquement, dans lespace R I , quand on passe du nuage associ au tableau
f i jt au nuage du tableau modle, on ne fait que dplacer les profils des colonnes
homologues leur barycentre sans modifier ni la mtrique ni les poids. Il ne reste donc
que la part inter de la dispersion sur le nuage des colonnes.
Appliquons au tableau modle le principe dquivalence distributionnelle (selon
lequel on ne modifie pas les distances entre les lignes dun tableau lorsque lon
regroupe des colonnes proportionnelles ; cf. section 3.4 page 68). Dans ce tableau,
les colonnes indices par le mme j sont proportionnelles entre elles, puisque toutes
proportionnelles au profil moyen f i j. / f . j. . On ne modifie donc pas les distances entre
lignes du tableau modle en regroupant les colonnes indices par le mme j. Or ce
regroupement conduit au tableau somme de terme gnral f i j. (=m i j. ) dont le profil
de la colonne j est au barycentre des colonnes {( j, t); t = 1, T } du tableau juxtapos.
Ainsi la distance entre lignes induite par le tableau modle concide avec la part inter- J
de celle induite par le tableau juxtapos.
Sous forme probabiliste, ce modle exprime lindpendance entre I et T pour la
sous-population dfinie par j :
m i jt
m i j. m . jt
=
m . j.
m . j. m . j.
Cette relation, tant vraie pour tout j, i, et t, dfinit lindpendance conditionnelle de
I et T par rapport J .
f i j. f . jt
+ f i.. f . jt
f . j.
262
RI
bacheliers (hommes)
bacheliers
bacheliers (femmes)
Figure 10.17 Dans lanalyse intra, les sousnuages de colonnes homologues sont translats pour
faire concider leur barycentre avec lorigine.
+ f i..
r. jt
f . jt
f . j.
En prenant comme origine le barycentre du nuage, cette coordonne scrit :
ri jt
f i jt
f i j.
f i.. =
r. jt
f . jt
f . j.
Le nuage des colonnes de lAFC de ri jt se dduit donc de celui considr dans lAFC
de f i jt en translatant chaque sous-nuage de colonnes {( j, t), t = 1, T } dfini par un
mme j pour faire concider son barycentre avec lorigine (cf. Figure 10.17).
Profils des lignes
Les profils des lignes sont, comme ceux des colonnes, obtenus par diffrence entre
les profils du tableau tudi et ceux du modle. Ce qui donne, pour lanalyse intra, en
prenant comme origine le barycentre :
ri jt
f i jt
f i j. f . jt
f i j. f . jt
1
f . jt =
=
f i jt
ri..
f i..
f i.. f . j.
f i..
f . j.
On peut vrifier que, dans le carr de la distance entre deux lignes, la part dtermine
par les variations inter est supprime :
2
f i jt
fl jt
fl j.
f . jt f i j.
1
2
d (i, l) =
f i..
fl..
f . j. f i..
fl..
f . jt
jt
263
2
2
f i jt
f i j.
fl jt
fl j.
1
1
d (i, l) =
f i..
fl..
f . jt
f i..
fl..
f . j.
2
jt
Dans la seconde criture, le premier terme correspond la distance (entre les profils i
et l) dans lAFC du tableau juxtapos. Le second correspond la distance dans lAFC
du tableau somme. Confronte aux quations de la section b page 242, cette quation
exprime nouveau le rle exclusif des diffrences intra-diplme dans le calcul des
distances dans cette variante de lAFC. Autrement dit, la distance entre deux emplois
ne dpend pas de la rpartition des diplmes, mais seulement des diffrences entre les
pourcentages dhommes et de femmes pour chaque niveau de diplme.
Formules de transition
Dans notre exemple, le modle traduit lhypothse suivante : pour chaque diplme j,
il y a indpendance entre lemploi et le sexe. Les emplois loin de lorigine dans lAFC
de ri jt sont donc ceux qui, pour certains diplmes au moins, nattirent pas de la mme
faon les deux sexes. Par exemple, sur un axe, un emploi est situ du mme ct quun
diplme-homme si, parmi les titulaires de ce diplme, cet emploi attire trop les
hommes.
Inertie
Linertie totale du nuage des lignes et du nuage des colonnes est linertie intra-diplme.
Cette inertie est assez importante : nous avons vu (cf. Tableau 10.6) quelle reprsente
presque la moiti de linertie inter-diplmes.
Premier facteur
264
F2 : 15.4 %
2 : .060
H DUT-BTS
technicien
Diplme homme
Diplme femme
Emploi
ingnieur
H BAC GNRAL
H DEUG
H TUDES SUPRIEURES
H BAC TECHNIQUE
H-BEPC
employ qualifi
F1 : 60.9 %
1 : .235
cadre
suprieur
F BEPC
F BAC TECHNIQUE
H BEP-CAP
ouvrier qualifi
F BAC GNRAL
H SANS DIPLME
cadre moyen
F TUDES SUPRIEURES
F DUT-BTS
F DEUG
vaut 0.92 (elles sont forcment identiques puisque les deux points sont aligns avec O).
Ce facteur explique bien aussi la diffrence entre les profils demplois du BEPC et des
Bacs techniques qui sont aussi des diplmes de niveau moyen. On peut remarquer que
tous les diplmes-hommes sont situs droite tandis que tous les diplmes-femmes
sont gauche. Le premier facteur traduit donc une tendance gnrale de lcart entre
les profils demplois des hommes et des femmes, valable pour chaque diplme et
particulirement marque pour les CAP/BEP et les Bacs Techniques.
La projection des emplois permet dexpliquer cette diffrence. Du ct des femmes,
on trouve les employs qualifis (dont la contribution laxe est de 0.44) et du ct
des hommes, les techniciens, les ouvriers qualifis et dune faon gnrale les emplois
techniques : diplme gal, les hommes occupent plutt des emplois techniques. Cette
diffrence entre les profils demplois des deux sexes apparat en partie au niveau du
265
10.5.6 Bilan
Facilit de linterprtation
On pourrait craindre que linterprtation de lanalyse intra soit complexe car elle
utilise des notions de conditionnement qui aboutissent des concepts difficiles. Or,
lexprience montre que linterprtation de ses rsultats ne pose aucun problme
particulier un utilisateur ayant une pratique de lAFC. Elle sappuie, comme elle,
sur les formules de transition et sur les indices classiques daide linterprtation : la
qualit de reprsentation et la contribution linertie des lignes et des colonnes. La
diffrence essentielle avec lAFC classique, la situation modle laquelle on se rfre,
sintgre sans difficult.
On peut aussi voir lanalyse intra comme une analyse cumule de tous les soustableaux. Prenons lexemple des causes de mortalit dans les diffrents cantons suivant
chaque classe dge. Il est assez naturel dtudier sparment chacune des T classes
dge qui dfinissent T nuages de cantons et T nuages de causes de mortalit. Dans
lanalyse de chacun des sous-tableaux, les nuages des cantons sont centrs alors
que, dans lanalyse du tableau juxtapos [dcs(cantonsclasses dge)], les sousnuages dfinis par une classe dge ne le sont pas. Dans lanalyse intra, le nuage
classes dgecantons est lunion de ces T nuages centrs ; et dualement, le nuage
des causes de mortalit est un nuage dans lequel les distances au carr sont les sommes
des carrs des distances dfinies par chaque classe dge. Ainsi, une diffrence de
mortalit entre deux cantons pour une certaine cause j, peu significative lorsque lon
tudie les classes dge sparment (du fait des faibles effectifs), peut devenir notable
dans lanalyse intra si elle apparat dans lensemble des classes dge.
Classification intra
266
suivant les proximits dfinies dans lanalyse intra ; ce rsultat est quelquefois le
principal objectif dune telle analyse.
Complments daide linterprtation
En ce qui concerne les rponses apportes aux questions poses par la comparaison
des tableaux, le bilan est rapide car nous en avons soulign les diffrents aspects tout
le long de ce texte. Lanalyse intra permet dtudier :
1. la liaison entre deux variables en conditionnant par une troisime ;
2. les diffrences entre les profils des colonnes homologues de tous les tableaux ;
3. les diffrences entre les volutions dun tableau lautre des profils des
lignes.
10.6 CONCLUSION
Il est assez tonnant de voir le nombre de traitements diffrents, et par-l mme de
regards diffrents, que lon peut porter sur ces deux petits tableaux.
10.6 Conclusion
267
3. Six analyses intra puisque dans lanalyse intra les trois variables sont traites
diffremment : lune est traite sparment (lensemble I des lignes dans notre
exemple) et lon peut alors conditionner par rapport lune ou lautre des deux
autres variables. De ces analyses intra drivent aussi six analyses inter de la
dispersion intra.
4. Lanalyse du tableau de Burt obtenu en juxtaposant les tableaux croisant les
variables deux deux. Cette analyse est la seule qui fait jouer exactement le
mme rle aux trois variables. Elle prsente peu dintrt pour trois variables
seulement (nous ne la citons que pour mmoire) pour deux raisons : dune part,
elle ne traite quune trs faible part de linformation puisquelle ne retient du
tableau ternaire que les trois marges binaires ; dautre part, comme nous lavons
dj dit au dbut de ce chapitre, lorsque lon prsente les donnes sous forme
de tableau ternaire ou de suite de tableaux binaires, les problmes ne se posent
jamais en termes symtriques en I , J , T . Si lon reprend lexemple comment, il
est clair que lanalyse du tableau de Burt, qui nest autre que lanalyse conjointe
des liaisons binaires entre Emplois et Diplmes, entre Emplois et Sexes et entre
Diplmes et Sexes ne prsente gure dintrt.
Pour clore ce chapitre, voquons le caractre spcifique de la dimension temporelle.
Les tableaux ternaires sont souvent dfinis par une suite de tableaux binaires indics par
le temps. Le problme pos au statisticien sexprime alors trs souvent sous la forme
du souhait de faire entrer la notion de temps dans lanalyse . Aucune technique ne
permet dintgrer rellement cette notion ; on considre tout au plus lordre induit par
cette dimension. Cet ordre nintervient mme pas dans les calculs fondamentaux des
techniques prsentes. Il est possible cependant de le faire apparatre au moment de
linterprtation des rsultats. Pour le matrialiser sur les graphiques de projection des
nuages, on relie dans lordre les points qui reprsentent le mme objet.
Chapitre 11
11.1 PROLGOMNES
Depuis toujours, ou presque, le terme interprter est utilis propos de ltude
de rsultats statistiques. LAnalyse Factorielle nchappe pas cette rgle : les plans
factoriels ne sont pas tudis, ils sont interprts. Ce terme recouvre plusieurs sens
et, avant de proposer une dmarche dinterprtation, il est utile au pralable den
dlimiter le champ. Pour cela, nous postulons que ce nest pas par hasard si le terme
interprter a t dabord choisi puis surtout consacr par lusage. Nous avons donc
utilis un bon dictionnaire (le Robert !) pour explorer le champ smantique de ce terme
si employ. lissue de cette exploration, nous indiquons dans quelle mesure on peut
proposer une dmarche gnrale dinterprtation.
270
directement, on le lit en traduisant les rsultats factoriels. Lintrt de lanalyse factorielle est alors de slectionner, par ordre dimportance dcroissante, les structures
les plus marquantes du tableau. Cette tape est une description des faits statistiques
indiscutables.
11.1 Prolgomnes
271
Les termes dart et dartisanat sont souvent employs propos de lAnalyse des
Donnes. Mme si ces termes sont trs galvauds, il est rare de les voir employs avec
autant de rgularit dans un domaine scientifique, en particulier par certains de ceux
qui se rclament de ce domaine (les connotations dartiste et dartisan ne sont pas
toutes positives). En tout cas, un examen mme superficiel de quelques applications
danalyse factorielle offre des lments qui ne sont pas sans rappeler linterprtation
dune pice de musique.
Le caractre personnel dune interprtation rside surtout dans le mode de prsentation des rsultats. Cette prsentation peut se limiter quelques phrases qui rsument
les principales tendances observes dans les donnes. En particulier, les noms que
lon donne aux facteurs (par exemple puissance du vin ) facilitent beaucoup ce
type de synthse. Elle peut contenir ou non des graphiques reprsentant les plans
factoriels et leur commentaire. Elle peut contenir ou non des tableaux issus plus ou
moins directement des donnes. Elle peut aussi dcrire les donnes en indiquant et
expliquant les regroupements de lignes ou de colonnes sur les diffrents graphiques.
Dans tous les cas, cette prsentation ne peut expliciter lintgralit de la richesse des
donnes. On est ainsi conduit choisir les faits les plus saillants, les plus intressants.
Ce choix, dans lequel lanalyste simplique, peut diffrer dun analyste lautre.
Cela alarme quelquefois les dbutants qui prouvent des difficults sparer ce qui
est automatique (qualifi aussi dobjectif) et ce qui est personnel (qualifi aussi de
subjectif) dans une interprtation.
Est automatique le tri des faits statistiques prsents dans un tableau par importance dcroissante. Limportance est ici mesure par un critre statistique fond
sur le concept dinertie.
Est personnelle, la rvaluation de ces faits la lumire des connaissances de
lanalyste sur le problme tudi qui sont extrieures au tableau de donnes. Il
en rsulte un nouveau poids des informations, dterminant dans la prsentation
des rsultats.
Par exemple, le regroupement de lignes et/ou de colonnes sur un graphique prsente
un aspect objectif (la proximit des points sur le plan) et un aspect subjectif (un
nuage de points ralise gnralement un continuum que lon scinde en un ensemble
de groupes de points dont les frontires ne simposent pas). Lorsque plusieurs possibilits sont galement raisonnables du point de vue des proximits, on regroupe plutt
des lments qui ont un caractre commun, souvent extrieur aux donnes traites,
mais cependant connu et considr comme important (voire explicatif) par celui qui
dpouille les rsultats. On obtient ainsi des groupes, homognes la fois du point
de vue des variables actives et dautres critres jugs importants, prsentant un fort
pouvoir vocateur.
272
Une interprtation est aussi personnalise du fait de certains choix caractre plus
ou moins technique. On peut jouer, par exemple, sur le ressort de la dualit : dans
une ACP par exemple, il peut tre plus clair de parler des principales dimensions
de variabilit (on privilgie alors les variables) ou de tendances reprsentes par
des classes dindividus que lon dcrit. Une autre alternative importante est : faut-il
commenter les axes ou les plans ? On est souvent tent dorienter un commentaire de
plan selon dautres directions pas forcment orthogonales que les axes factoriels
(cas dune bissectrice dans un plan issu de lenqute Ouest-France du chapitre 6
page 127).
Les rsultats issus dune Analyse Factorielle posent le problme de la dmarche
dinterprtation, cest--dire de lordre chronologique dans lequel ces diffrents rsultats doivent tre examins. Dans les sections suivantes, nous proposons une dmarche
dinterprtation pour chacune des mthodes factorielles tudies dans cet ouvrage.
La premire prsentation se rfre lACP : elle est la plus dtaille en ce sens
quelle introduit les aspects gnraux communs toutes les mthodes.
Les autres prsentations sappuient sur ce premier schma, en dveloppant uniquement les points sur lesquels la dmarche dinterprtation diffre, entre la
mthode examine et lACP.
Enfin, en guise de conclusion, une dernire section rcapitule quelques types de
facteurs auxquels peut conduire linterprtation.
273
a) Valeurs propres
Rappelons que la premire valeur propre est toujours comprise entre 1 et le nombre
de variables K . Elle vaut 1 lorsque les variables sont toutes non corrles deux deux.
Elle est gale K lorsquil existe une liaison linaire parfaite entre toutes les variables.
Dans le cas limite dune premire valeur propre proche de 1, on est conduit deux
attitudes diffrentes selon lobjectif de lanalyse :
274
Le pourcentage dinertie extrait par un facteur est le rapport entre linertie associe au
facteur (i.e. la valeur propre) et linertie totale du nuage tudi ; il mesure limportance
relative du facteur dans le tableau. Il est souvent utilis sous la forme cumule qui
indique le pourcentage dinertie extrait par les S premiers facteurs.
Il ne faut pas oublier de juger ces pourcentages en fonction de la taille du tableau :
10 % est une valeur faible si le tableau comporte 10 variables (elle est gale la
moyenne et correspond la valeur propre 1) ; cest une valeur forte dans le cas de
100 variables.
c) Quel nombre de facteurs retenir ?
275
Lintrt dun facteur dpend en grande partie du nombre dindividus quil concerne.
On ralise une premire approche de ce nombre en consultant la liste des contributions
des individus aux facteurs pour reprer si un seul individu ou un trs petit nombre
dindividus ont une contribution trs suprieure la moyenne. On peut calculer aussi le
nombre minimum dindividus totalisant, eux tous, un pourcentage dinertie projete
fix lavance (par exemple 50 %). Cet indicateur value le degr de gnralit dun
facteur au sens du nombre dindividus participant ce facteur.
Le premier stade de linterprtation dun facteur qui apparemment ne concerne que
trs peu dindividus est en gnral simple : on identifie rapidement ces individus et
leur particularisme. La signification de ce particularisme est plus ou moins immdiate ;
elle peut remettre en cause le champ de lanalyse, savoir lensemble des individus
tudis.
Envisageons le cas extrme dun facteur induit par un seul individu. Deux cas
peuvent tre distingus.
Si ce facteur est lun des premiers, lindividu concern est ncessairement trs
diffrent des autres. Un tel cas particulier est dune part facilement mis en vidence sans lanalyse et, dautre part, gne ltude du reste de la population. Il faut
alors envisager de refaire une analyse en supprimant cet individu des lments
actifs, ce qui modifie le champ de ltude. Cette nouvelle analyse peut ne diffrer
que de trs peu de la premire. En effet, on peut montrer que si linertie sur
laxe s de lindividu supprim est infrieure la diffrence entre ls et ls+1 , les
facteurs de la nouvelle analyse sont trs corrls ceux de lancienne ; lindividu
est certes trs diffrent des autres, mais comme cette diffrence sinscrit dans une
tendance gnrale il ne perturbe pas les rsultats.
276
Si lon observe un tel facteur aprs quelques facteurs gnraux prenant en compte
beaucoup dindividus, lanalyse nest pas ncessairement remise en cause : il
est naturel, aprs avoir extrait des tendances gnrales, que des phnomnes
ponctuels apparaissent.
Attention : il ne peut tre question dexclure des individus dune analyse en se fondant
uniquement sur des critres dinertie car cette exclusion implique une modification
des objectifs. Un exemple fictif illustrera cette situation. Supposons que ltude porte
sur les 120 exploitations agricoles orientes vers llevage laitier dune rgion et
que le premier axe mette en vidence le caractre exceptionnel de lexploitation 27.
Renseignements pris, on saperoit que cette exploitation est rattache une Ecole
dAgronomie bien connue, alors que les autres sont de structure familiale classique.
Exclure cette exploitation revient modifier le thme de ltude qui devient ltude
des exploitations familiales orientes vers llevage laitier.
Remarquons enfin quen ACP norme, ce problme dlments exceptionnels ne
concerne que les individus. En effet, les variables possdent chacune la mme inertie.
b) Coordonnes des variables actives
Il est naturel de commencer lexamen dtaill des graphiques par ce que lon connat
le mieux. Gnralement, les variables sont moins nombreuses et plus charges de sens
que les individus.
Par ailleurs, il est logique de privilgier, au moins dans un premier temps, les
lments actifs : linterprtation dun facteur doit se fonder dabord sur les donnes
qui ont particip directement sa construction.
Rappelons que, en ACP norme, les variables ayant le mme poids et tant quidistantes de lorigine, le carr de leur coordonne sur un axe se confond avec leur qualit
de reprsentation et est proportionnelle leur contribution. Aussi, on limite gnralement ltude des variables celle de leurs coordonnes. ce niveau, linterprtation
sappuie essentiellement sur la rgle suivante : la coordonne de la variable k le long
de laxe factoriel s est le coefficient de corrlation entre cette variable k et le facteur s.
Interprtation axe par axe
On recense les variables actives les plus lies chaque axe. Deux situations typiques
peuvent se produire.
Toutes les variables trs lies au facteur sont situes dun mme ct de laxe
(cas de lexemple des vins du chapitre 7 page 149). Le facteur apparat alors
comme une synthse entre ces variables. Leffet taille (cit section 1.6) dans
lequel toutes les variables sont situes dun mme ct de laxe peut tre rattach
cette situation typique.
277
Les variables trs lies au facteur prsentent une coordonne positive pour les
unes et ngative pour les autres. Il faut alors rechercher un dnominateur commun
qui, la fois, relie les variables situes du mme ct et oppose les variables
situes de part et dautre de lorigine. Par exemple, supposons que les variables
soient des notes dans diffrentes matires : un facteur peut traduire lopposition entre matires scientifiques et matires littraires. Cette phase permet dj
dobtenir la signification gnrale de certains axes.
Interprtation par plan
Comparativement ltape prcdente, le plan factoriel apporte le pouvoir synthtique du graphique, plus suggestif quune liste de coordonnes, et la prise en compte
simultane de deux dimensions qui donne une image plus fidle des donnes et peut
aussi suggrer dinterprter dautres directions que les axes factoriels. Il est utile de
reprsenter en plus des points (variables) :
278
et/ou peut suggrer de rexaminer un facteur dlaiss sur la seule vue des variables
actives. Ce dernier point, qui donne une certaine prminence aux variables supplmentaires, est important. Lexistence de variables supplmentaires trs lies un facteur,
en tant que validation a posteriori, fournit une forte prsomption selon laquelle ce
facteur est charg de sens.
d) Coordonnes et aides linterprtation des individus actifs
Plutt que ltude des coordonnes, fastidieuse si les individus sont nombreux, on
examine le plan pour trois raisons essentielles.
tudier lallure gnrale de la rpartition de lensemble des individus. Toute
plage de trs faible densit ou de trs forte concentration doit tre dcele.
Aider le choix dindividus types qui permettent de concrtiser les dimensions
de variabilit. Dans le choix dindividus types, il est bon de consulter les qualits de reprsentation pour slectionner de prfrence des individus qui ne sont
caractristiques que du ou des facteurs tudis et sont donc moyens pour les
autres facteurs. Par lintermdiaire de ces individus, il est commode de relier les
facteurs aux donnes initiales.
Faire apparatre une typologie des individus, en dlimitant des domaines
connexes communment appels patatodes . Par rapport un rsultat de
classification, ces typologies prsentent deux caractristiques. La premire est
de se fonder sur un plan, cest--dire seulement deux axes (il est ainsi possible
dobtenir plusieurs typologies diffrentes, correspondant chacune un plan
donc un aspect des donnes) : ceci limite leur valeur statistique au sens du
rapport inertie inter / inertie totale mais leur forte adquation un plan est un
avantage si ce dernier est prpondrant dans les interprtations. La deuxime est
quelles peuvent tenir compte dinformations extrieures aux variables actives
en favorisant le regroupement dindividus possdant des caractres communs.
Sans perdre ncessairement beaucoup de valeur statistique du point de vue des
variables actives, on facilite ainsi grandement linterprtation des classes.
Il est souvent ncessaire de regarder la rpartition des individus appartenant une
mme sous-population. On peut identifier sur les graphiques les individus par leur
modalit pour une variable qualitative (dans lexemple des vins du chapitre 7 page 149,
ceux-ci sont reprsents par un signe indiquant leur origine). Cette pratique est une
faon trs fine de faire intervenir dans une ACP des variables qualitatives en tant
qulments supplmentaires.
On peut aussi reprsenter les barycentres de ces populations en introduisant en lignes
supplmentaires les moyennes des individus appartenant la mme sous-population.
Certains logiciels permettent mme de reprsenter les axes dinertie des projections des
sous-nuages ce qui permet de voir lallure gnrale du sous-nuage sur le plan. Cela est
279
Cest un peu par principe que ltude des individus supplmentaires ne vient quaprs
celle des individus actifs. Cet ordre sapplique bien aux individus mis en supplmentaires parce quils scartent des autres. En revanche, il sapplique moins bien lorsquil
sagit dun individu supplmentaire servant de point de repre ou reprsentant le centre
de gravit dune classe. Ces derniers individus supplmentaires, finalement plus chargs de sens que les actifs, sont gnralement moins nombreux et peuvent intervenir,
dans le dpouillement, juste aprs lexamen de la rpartition des individus actifs.
Valeurs propres
Les variables tant munies de poids, le premier axe factoriel peut parfaitement tre d
une seule variable. Il sensuit que lon examinera en premier lieu non seulement les
contributions des individus mais aussi celles des variables pour dtecter dventuels
lments prpondrants.
Coordonnes des variables
Cest seulement si lon a effectivement ralis une ACP norme de variables pondres, et non une ACP non norme, que les coordonnes des variables actives sinterprtent encore comme des coefficients de corrlation. Le carr de cette coordonne
280
mesure alors la qualit de reprsentation mais nest plus proportionnel la contribution. Finalement, en ACP non norme, les deux reprsentations des variables (par leurs
corrlations et par leurs covariances) sont utiles.
281
La tactique, prsente propos de lACP, qui consiste tudier dabord les axes au vu
des listes de coordonnes puis des plans sapplique ici. Naturellement, il ny a aucune
raison, en AFC, pour toujours commencer linterprtation par ltude des lignes ou des
colonnes. Nanmoins, il semble y avoir quelque avantage dans lattitude systmatique
qui consiste interprter un axe dabord en fonction dun ensemble puis de lautre, les
associations entre lignes et colonnes ntant exploites que dans un second temps.
Dans le cas gnral, en AFC, les lments ont des poids diffrents. Aussi, la coordonne dun point, sa qualit de reprsentation et sa contribution linertie constituent des
informations diffrentes. Pour interprter un facteur, on sappuie de faon privilgie
sur les lments types qui prsentent :
une forte contribution ; leur importance provient de ce que leur suppression de
lensemble des lments actifs risque dentraner la disparition du facteur ;
une coordonne extrme jointe une forte qualit de reprsentation ; ces lments
sont les plus commodes pour qualifier un facteur : ils sont trs diffrents du profil
moyen (leur coordonne est extrme) et cette diffrence est presque entirement
traduite par le facteur (ils ont une bonne qualit de reprsentation) ;
une coordonne extrme jointe une qualit de reprsentation moyenne ; ils
prsentent un fort niveau les caractristiques associes au facteur, ce qui leur
donne une grande valeur. Mais ces caractristiques sadditionnent dautres, ce
qui les rend plus difficiles mettre clairement en vidence.
282
La somme des valeurs propres est gale (K /J )1, rapport entre le nombre de modalits et le nombre de variables, le tout diminu de 1. Comme en ACP, et la diffrence
de lAFC simple, elle ne dpend pas de la structure des donnes.
En pratique, on observe que les valeurs propres sont faiblement et rgulirement
dcroissantes : lallure gnrale de lhistogramme des valeurs propres est rarement
suggestive en ACM.
La valeur propre associe un facteur est gale la moyenne des rapports de
corrlation entre le facteur et chaque variable (cf. section 4.3.6 page 96). Elle vaut 1
si tous les rapports de corrlation sont gaux 1 donc si pour chaque variable tous
les individus prsentant la mme modalit sont situs au mme point. Cette situation
constitue un extrme dont on est toujours trs loin en pratique : il sensuit que les
valeurs propres sont souvent trs faibles en ACM.
283
Pourcentages dinertie
La reprsentation des modalits, en ACM, peut indiffremment tre obtenue par une
AFC sur le Tableau Disjonctif Complet ou sur le tableau de Burt. Or, dune analyse
lautre, le mme facteur nest pas associ la mme valeur propre. Cette remarque,
ainsi que les considrations prcdentes, expliquent que les valeurs propres et les
pourcentages dinertie ont peu dinfluence sur linterprtation dune ACM.
284
il peut tre intressant de raliser des graphiques dans lesquels les variables ont
pour coordonne sur laxe s leur contribution au facteur de rang s (cf. figure 4.6
page 98). Ce graphique facilite la slection prcdemment cite et fournit une
visualisation des proximits entre variables.
Linterprtation de linertie projete des variables en tant que rapport de corrlation fait
quil est intressant de calculer cette quantit aussi pour les variables supplmentaires.
285
286
compltes de chaque groupe, de les faire aprs lAFM. Nous proposons dtudier les
indices concernant les liens entre les groupes et les facteurs dans lordre suivant.
Corrlations entre les facteurs communs et leurs reprsentants dans les
groupes
Lorsque les corrlations entre un facteur de lensemble des groupes et ses reprsentants
dans tous les groupes sont proches de 1, il sagit dun facteur commun aux groupes (cf.
section 8.3.5 page 187). Comme les groupes que lon tudie simultanment sont gnralement lis entre eux (ce qui est conforme lintuition de lanalyste qui les tudie
simultanment), il y a au moins un facteur pour lequel plusieurs de ces corrlations
sont assez leves.
On dit quun facteur est commun aux groupes pour lesquels ces corrlations sont
fortes (cest--dire que la tendance quil traduit apparat dans ces groupes) et quun
facteur nexiste pas dans les groupes pour lesquels ces corrlations sont faibles.
Il peut arriver quun seul groupe ait une corrlation importante avec un facteur
donn. Le facteur est alors une dimension spcifique du groupe.
Il peut arriver aussi quun groupe nait de corrlations leves quavec des facteurs
qui lui sont spcifiques. On en dduit alors labsence de liaisons linaires entre ce
groupe et les autres. Il est gnralement judicieux de recommencer alors lanalyse en
supprimant (des groupes actifs tout au moins) ce groupe.
Pour dcider si une corrlation est faible ou leve, il ny a pas de limite bien
dfinie. Cela dpend du nombre dindividus et du nombre de groupes. Lorsquelles ne
sont trs proches ni de 1 ni de 0, on raisonne -comme toujours dailleurs- en termes
de comparaison. On regarde pour un facteur donn si les corrlations associes
chaque groupe sont, ou non, du mme ordre de grandeur ; on ordonne les groupes
par corrlation dcroissante. Inversement, pour un groupe donn, on examine et on
ordonne les corrlations associes aux diffrents facteurs pour reprer les facteurs
proches de directions de dispersion de ce groupe. On regarde aussi de quels autres
groupes ces facteurs sont proches.
Rapport [inertie inter / inertie totale]
287
Les coordonnes des axes des analyses spares ne sont autres que les corrlations
entre les facteurs des analyses spares et ceux de lanalyse globale. Elles permettent
de relier lanalyse globale aux analyses spares en rpondant aux questions suivantes :
le facteur global dordre s est-il proche dun des facteurs de chaque groupe ? Sur quels
facteurs globaux les premiers facteurs des groupes sont-ils bien reprsents ?
Conclusion
288
289
individus caractriss par chacun des groupes, les variables sont centres sur cet
ensemble rpt dindividus, alors quen AFM elles le sont sur chaque groupe (comme
dans lACP juxtaposant les variables).
290
lments aberrants nont fait que mettre en vidence un facteur non-rponse qui
serait peut-tre pass inaperu sans eux, car alors affect dun rang lev.
291
292
En revanche, cela conduit ngliger les facteurs suivants qui sont des fonctions polynmes du premier. Leffet Guttman est plus ou moins net selon lintensit, dans les
donnes, du phnomne quil met en vidence. Si le premier plan factoriel fait apparatre un nuage de points dont la forme parabolique est floue, il est possible que
linfluence du premier facteur ne se fasse sentir que sur quelques axes seulement : il
est alors possible de trouver des facteurs de rang moyennement lev (e.g. 3, 4 ou 5)
sinterprtant indpendamment du premier (cf. section b page 234). Il est donc prudent
de sassurer dun effet Guttman au del des deux premiers facteurs.
En ACM, on observe ce phnomne surtout lorsque les modalits de chacune des
variables sont ordonnes a priori. Par exemple, si des variables qualitatives proviennent
du recodage dun ensemble de variables quantitatives dont lACP produit comme
premier facteur un effet taille, lACM de ces variables qualitatives conduit presque
automatiquement un effet Guttman, le premier axe supportant la mme interprtation
globale dans les deux analyses. En ce sens, lACM est susceptible de mettre en
vidence un effet taille ; cet effet se traduit par plusieurs facteurs (au maximum r 1
si les variables possdent chacune r modalits), alors quil se traduit par un facteur
unique en ACP.
293
Chapitre 12
Fiches techniques
Souvent les poids sont tels que i pi =1 ce qui allge lcriture : x = i pi xi
Sur laxe de reprsentation du nuage, le point dabscisse x est le barycentre
des points xi muni des poids pi . Ce barycentre est la traduction gomtrique de
la notion statistique de moyenne.
12 Fiches techniques
296
Si limportance des individus est la mme pour tous, la variance dune variable x,
note sx2 , est gale :
1
(xi x)2
sx2 =
I
i
Lorsque les poids sont tels que i pi = 1 on a : = i pi (xi x)2 .
La variance mesure la dispersion des valeurs autour de la moyenne. Le fait de
considrer les carrs des carts et non les valeurs absolues des carts facilite les calculs
et permet des dcompositions suivant le thorme de Pythagore et celui de Huygens
rappel plus loin. Lcart-type sx est la racine carre de la variance.
La notion statistique de variance correspond la notion mcanique dinertie
dun nuage de points par rapport son barycentre.
En effet, linertie dun point i de poids pi par rapport un point A de coordonne
xa est, par dfinition, le produit du poids de i par le carr de sa distance A soit :
pi (xi xa )2 .
Linertie dun nuage de points est la somme des inerties des points du nuage.
Linertie dun
nuage de points reprsent sur un axe, par rapport
au point G dabscisse
2
x, est gale i pi (xi x) ; on retrouve la variance lorsque i pi = 1.
Quand on divise chaque valeur xi x de la variable centre par son cart-type sx ,
on obtient une variable de variance 1 appele variable centre-rduite.
La transformation gomtrique qui permet de passer de x x (x x)/sx est
une homothtie de centre G et de rapport gal 1/sx .
sx2
c) Thorme de Huygens
La forme la plus simple du thorme de Huygens est la relation entre linertie dun
nuage par rapport un point quelconque Z dabscisse z et son inertie par rapport
G. La premire est gale la seconde augmente de linertie, par rapport Z, de G
affect du poids total du nuage :
2
2
x z)2
pi (xi z) =
pi (xi x) +
pi (
i
297
pi (xi z)2 =
iI
j
pi (xi x j )2 +
iI j
p j (
x j z)2
Inertie totale
xj
xl
Inertie inter
In. intra Ij
In. intra Il
Figure 12.1 Thorme de Huygens pour une variable. 8 points sont rpartis en 2 sous-nuages de
4 points : I j (carrs) et Il (disques).
Le point G de coordonnes (
x , y) est le barycentre des points du nuage munis des
poids pi . Quand on retire chaque valeur xi la moyenne x et chaque valeur yi la
moyenne y, on obtient un tableau centr. La transformation gomtrique qui permet
12 Fiches techniques
298
de passer du nuage associ au tableau initial au nuage associ au tableau centr est
une translation qui fait concider lorigine O et le barycentre G.
Quand on divise les valeurs xi x par sx et les valeurs yi y par s y , on obtient un
tableau centr-rduit. La transformation gomtrique qui permet de passer du nuage
centr au nuage centr-rduit est la composition de deux homothties de centre G (la
premire, de rapport 1/sx dans la direction de x, la seconde, de rapport 1/s y dans la
direction de y). Une autre faon de voir cette transformation est de considrer que lon
adopte sx et s y comme units de mesure (cf. Figure 12.2).
Un nuage centr-rduit possde, en projection sur chaque axe, une inertie gale 1.
Figure 12.2 Nuage associ aux mmes 2 variables x et y brutes (A), centres (B) et
centres-rduites (C).
b) Thorme de Huygens
2
Le carr de la distance dun point i lorigine vaut : Oi = xi2 + yi2 . On en dduit
que :
2
inertie de i = pi Oi = pi xi2 + pi yi2
Do, pour le nuage des points i :
2
inertie totale =
pi Oi =
pi xi2 +
pi yi2
i
Linertie du nuage se dcompose donc suivant les deux axes : elle est la somme
des inerties de ses deux projections suivant les deux directions orthogonales. Si les
variables sont centres, elle est donc gale la somme des variances des deux variables.
Si les variables sont centres-rduites, linertie du nuage vaut 1 dans chaque direction
et vaut donc 2 dans le plan.
Le thorme de Huygens se gnralise sans difficult au cas de deux variables
puisque linertie dun nuage se dcompose sur chaque axe suivant le thorme de
Pythagore (cf. Figure 12.3).
G2
Inertie totale
299
G2
G1
Inertie inter-classes
G1
Inertie intra-classes
1
xi yi
I i
12 Fiches techniques
300
i
pi = 1 :
Soit u le vecteur colinaire la premire bissectrice dont toutes les composantes sont
gales 1. Ce vecteur a pour norme 1 :
u = (u 1 , . . . , u i , . . . , u I ) = (1, . . . , 1, . . . , 1)
2
pi u i2 =
pi = 1
u = u, u =
i
12.2.2 Centrage
La moyenne x dune variable x est gale la coordonne de la projection de x sur u :
pi xi =
pi xi u i = x, u
x =
i
pi xi = 0 quivaut x, u = 0
Centrer une variable cest considrer, au lieu de x, la variable centre de composantes xi x. Cette variable centre est reprsente par le vecteur x xu :
x xu = (x1 x, . . . , xi x, . . . , x I x)
= x [projection orthogonale de x sur u]
Le vecteur x xu (orthogonal u) est la projection de x sur lhyperplan orthogonal
u. Centrer x revient donc considrer sa projection sur lhyperplan orthogonal u
(cf. Figure 12.4).
12.2.3 Rduction
La variance dune variable x est gale au carr de la norme du vecteur reprsentant la
variable centre ; son cart-type sx est gal la norme de ce vecteur :
2
variance de x =
pi (xi x)2 = x xu = sx2
i
RI
301
u
xu
x
u
x xu
Le coefficient de corrlation entre deux variables x et y, not r(x, y), est gal au
cosinus de langle entre les vecteurs reprsentant les variables centres, cest--dire
au produit scalaire entre les vecteurs reprsentant les variables centres-rduites :
corrlation(x, y) = r(x, y) =
x,y
= xy
= x, y
pi (xi
x )(yi
y)
sx s y
x
x u,y
y u
x
x uy
y u
si x et y sont centres
si x et y sont centres et rduites
Plus la corrlation entre les variables est leve, plus langle entre les vecteurs est
faible. Si la corrlation entre x et y est nulle, les vecteurs sont orthogonaux ; si elle est
gale 1 ou -1, les vecteurs sont colinaires.
12 Fiches techniques
302
y
RI
1
y/sy
x
r(x, y)
x/sx
x2
y2
e2
e1
x1
y1
Figure 12.6 Distance, norme et produit scalaire dans le plan. Les vecteurs x et y se dcomposent
sur la base e1 , e2 .
La notion la plus gnrale est la notion de distance qui peut tre dfinie sur un
ensemble quelconque. Sur un espace vectoriel, une distance peut driver dune norme,
on parle alors despace norm. Une norme peut elle-mme driver dun produit scalaire.
Une norme qui drive dun produit scalaire est une norme euclidienne et la distance
qui en dcoule est une distance euclidienne. On appelle espace euclidien un espace
303
vectoriel rel de dimension finie sur lequel est dfini un produit scalaire. Dans la suite,
nous parlerons uniquement de lespace R n , seul espace utilis en analyse factorielle (n
dsigne la dimension de lespace). Nous parlons aussi de mtrique euclidienne pour
dsigner la structure dfinie sur R n par un produit scalaire.
12.3.2 Distance
Une distance sur un ensemble E est une application du produit de E par lui-mme
dans R + : tout couple de points (x, y) est associ un nombre positif, la distance entre
x et y note d(x, y).
Cette application vrifie certaines proprits quels que soient x et y appartenant
E:
d(x, y) = 0 si et seulement si x = y
d(x, y) = d(y, x)
d(x, y) d(x, z) + d(z, y) (ingalit triangulaire)
La distance usuelle (ou canonique) de R 2 scrit, en notant xi et yi les coordonnes
des points x et y sur la base usuelle (ou canonique) :
d2 (x, y) = (x1 y1 )2 + (x2 y2 )2
Plus gnralement la distance usuelle de R n scrit :
d 2 (x, y) =
n
(xi yi )2
i=1
12.3.3 Norme
Une norme sur R n est une application de R n dans R + : tout vecteur x est associ un
nombre positif, la norme de x, note x.
Cette application vrifie certaines proprits (O = origine des axes) :
x = 0 si et seulement si x = O
ax = |a| x pour tout x de R n et tout a de R
x + y x + y pour tous x et y de R n
Toute norme induit une distance par la relation : d(x, y) = x y. Ainsi, lorsquune distance drive dune norme :
12 Fiches techniques
304
1. la distance dun point lorigine O des axes est la norme (ou longueur) du
vecteur qui le joint O ;
2. la distance entre deux points x et y est la longueur du vecteur qui joint ces deux
points (cf. Figure 12.3).
Une distance qui drive dune norme a des proprits spcifiques.
2
La distance usuelle de R 2 drive de la norme : x = x12 + x22
Plus gnralement, la distance usuelle de R n drive de la norme :
2
x =
n
(xi )2
i=1
x, x
x, y
ax + by, z
z, ax + by
=
=
=
=
0 si et seulement si x = 0
y, x(symtrie)
ax, z + by, z (bilinarit)
az, x + bz, y (bilinarit)
x = x, x
Le produit scalaire usuel (ou canonique) de R 2 scrit, en notant xi et yi les composantes des vecteurs x et y sur la base usuelle (ou canonique) :
x, y = x1 y1 + x2 y2
Plus gnralement le produit scalaire usuel de R n scrit :
x, y =
n
xi yi
i=1
305
12.3.5 Angles
Un produit scalaire induit, en plus de la notion de norme, la notion dangle. Langle
u entre deux vecteurs x et y est dfini par son cosinus qui, par dfinition, est gal au
produit scalaire de ces deux vecteurs divis par le produit de leurs normes :
cos u =
x, y
x y
Le cosinus est compris entre -1 et 1. Sil vaut 1, les vecteurs sont colinaires et de
mme sens ; sil vaut -1, ils sont colinaires de sens oppos.
12 Fiches techniques
306
La structure de la matrice M est souvent utilise pour qualifier une mtrique. Ainsi,
on parle de mtrique diagonale si M est diagonale. De mme, la distance euclidienne
usuelle tant associe la matrice identit, on la nomme souvent mtrique identit .
Cest le cas des mtriques utilises en analyse factorielle. La diffrence entre ces
mtriques "diagonales" et la mtrique habituelle est que chaque vecteur de base a un
"poids", qui sexprime en particulier dans la distance :
m ii (xi yi )2
d2 (x, y) =
i
Si le produit scalaire nest pas le produit scalaire usuel, la distance induite ne correspond pas la vision habituelle. Pour obtenir une reprsentation des distances
directement perceptible loeil, il faut se ramener au produit usuel. Pour cela il suffit
dexprimer et de reprsenter les points dans une base orthonorme pour le produit
scalaire considr. Cest ce qui est fait en analyse factorielle.
Dans le cas dune mtrique diagonale, une base orthonorme se dduit de la base
canonique en divisant les vecteurs de base par leur norme, ce qui revient multiplier
les coordonnes correspondantes par cette norme.
Prcisons cela en prenant lexemple de R 2 muni de la mtrique diagonale valant 4
pour le premier vecteur de base et 1/9 pour le second. Pour travailler avec la mtrique
habituelle, il suffit de faire la transformation qui tout point x de coordonnes (x1 , x2 )
associe le point de coordonnes (2x1 , x2 /3). Le poids de la premire coordonne tant
suprieur 1, cette coordonne est dilate tandis que la seconde est contracte.
Soit {A, B, C, D} un nuage de 4 points reprsents dans R 2 muni de la base
{u 1 , u 2 } et de la mtrique diagonale {4, 1/9} (cf. Figure 12.7.A). La matrice des
distances inter-individuelles est donne figure 12.7. Dans cet espace, la base {e1 , e2 }
est orthonorme.
R2 e
2
307
Mtrique
2
u1 u2
u1 4 0
u2 0 1/9
Distances inter-points
A B C D
u2
e 1 u1
R2
A
B
C
0
1
0
2
Mtrique
e1 e2
e1 1
e2 0
0
1
e2
e1
Figure 12.7 Nuage de 4 points {A, B, C, D} reprsent dans le plan R 2 muni dune mtrique
diagonale (A) et dans une base orthonorme de ce mme plan (B).
Index systmatique
= Analyse Factorielle. Terme gnrique pour dsigner lune des mthodes danalyse factorielle (ACP, AFC, ACM, etc.) ou le principe commun ces mthodes :
projeter un nuage de points sur une suite daxes orthogonaux deux deux
dinertie maximum (5.2).
310
Index systmatique
axe
dinertie ou axe factoriel : en analyse factorielle, les nuages sont projets sur
des axes : en ACP (1.5 et 1.6), en AFC (3.6), en gnral (5.2) ; ces axes sont les
axes dinertie dun nuage : ils sont orthogonaux entre eux ; linertie du nuage
projet est maximum sur le premier axe, puis le second, etc. ; ils sont vecteurs
propres dune matrice (5.2.4 et 5.2.5) ; axe principal dinertie dun nuage = axe
dinertie calcul en prenant comme origine le barycentre ; relation entre les
axes et les facteurs (5.4.1).
Index systmatique
311
312
Index systmatique
disjonctif cf.TDC.
distance euclidienne (12.3) ; distance entre individus en ACP (1.1) ; entre individus et
entre modalits en ACM (4.3.2 et 4.3.3) ; distance du khi2 (x2 ) en AFC (3.4) ;
entre groupes de variables en AFM (7.1.7 et 8.4.4) ; tableau de distances (5.5.5
et 8.5.5).
dualit en analyse factorielle = relations entre ltude des lignes et des colonnes dun
mme tableau ; en ACP (1.7), en AFC (3.7), en gnral (5.4) ; le schma de
dualit (5.4.2) synthtise lensemble de ces relations.
effet Guttman en AFC (10.3.2.1), en ACM (11.6.7).
effet taille en ACP (dfinition en 1.6 et 9.6.6 ; exemple en 2.2).
quivalence distributionnelle : proprit de la distance du khi2 (x2 ) (3.4).
euclidien : espace euclidien, distance euclidienne (12.3).
facteur = ensemble des coordonnes des projections dun nuage de points sur un axe
dinertie de ce nuage ; cf. axe, cf. inertie ; relations entre les facteurs dfinis
sur les lignes et les facteurs dfinis sur les colonnes, cf. relations de transition ;
interprtation des facteurs : voir les exemples comments aux chapitres 2, 7
et 10 et le chapitre 11 ; facteurs communs ( plusieurs groupes de variables
en AFM) (7.1.6 et 8.3.4) ; facteurs partiels en AFM = facteurs des analyses
spares des groupes de variables (proprits en 8.3.3 ; exemples en 7.1.8, 7.2.1
et 9.2.4).
Huygens : thorme ou principe de Huygens, cf. inertie (12.1).
illustratif cf. supplmentaire.
indpendance entre deux variables qualitatives (3.1) ; cf. modle et liaison.
indicatrice = variable indicatrice dune classe ou dune modalit (4.1.3) ; les
colonnes dun TDC sont des indicatrices (4.1.3) ; inertie des indicatrices en
ACM (4.3.3 et 8.6.1).
INDSCAL : modle pour lanalyse de plusieurs matrices de distances entre les
mmes individus (8.5).
inertie dun lment M de poids p par rapport un point O = produit du poids p par
le carr de la distance entre M et O ; inertie dun nuage de points = somme des
inerties des lments qui le composent ; quivalence entre inertie et variance
(12.1) ; en ACP norme, linertie des nuages est gale au nombre de variables
(1.7.1) ; en AFC, elle est proportionnelle au khi2 (3.7.1) ; en ACM, elle est
gale au nombre moyen de modalits par variable diminu de 1 (4.3.3) ; en
analyse factorielle, linertie du nuage des lignes est gale linertie du nuage
des colonnes, dans lespace complet et le long de chaque axe factoriel : en ACP
Index systmatique
313
(1.7), en AFC (3.7.1), dmonstration gnrale (5.4) ; inertie dun lment sur un
axe = inertie de la projection de llment sur cet axe ; inertie dun axe ou dun
facteur = inertie du nuage projet sur laxe (cf. valeur propre) ; interprtation
de linertie dun axe : en AFC (3.7.3 et 11.3.1), en ACP (11.2.1), en ACM
(11.4.1) ; dcomposition de linertie sur des axes orthogonaux en AFC (3.7.3) ;
inertie inter et inertie intra (dcomposition de linertie suivant le principe de
Huygens) : principe (12.1), en ACM (4.3.6), en AFM (7.2.4), en AFC (10.4.2.1
et 10.4.2.2), en CAH (2.2.3 et 2.5.2) ; dcomposition de linertie point par
point (cf. contribution linertie) ; pourcentage dinertie extrait (cf. qualit
de reprsentation) ; axe dinertie ou axe factoriel (cf. axe).
inter et intra cf. inertie, Huygens, rapport de corrlation.
inversion en CAH (2.3.4).
khi2 = x2 : distance en AFC (3.4) ; statistique ou indice du khi2 (3.7.1) ; lAFC
dcompose le khi2 (11.3.1).
liaison entre deux variables numriques (1.1 ; cf. corrlation) ; entre deux variables
qualitatives (3.1), cf. khi2 ; entre une variable numrique et une variable qualitative (4.3.6) ; entre une variable numrique et un groupe de variables (8.3.4.2
et 8.3.4.3) ; entre deux groupes de variables (8.4.3 ; exemples en 9.2.1) ; lACP
est une tude des liaisons linaires entre plusieurs variables numriques (5.3.1),
lAFC une tude de la liaison entre deux variables qualitatives, lACM une
tude des liaisons entre plusieurs variables qualitatives. Pour trois variables
qualitatives, voir chapitre 10. LAFM est une tude des liaisons entre plusieurs
groupes de variables numriques et (ou) qualitatives.
manquante : donnes manquantes, rponses manquantes en ACM (6.3 et 8.6.2.3).
Dunod La photocopie non autorise est un dlit
marge dun tableau binaire (3.1) ; marges binaires dun tableau ternaire (10.1.1).
modalit dune variable qualitative (3.1 et 4.1.1) ; relation entre classe, modalit et
indicatrice (4.1.1 et 4.2.3).
modle : modle correspondant lhypothse dindpendance (3.1) ; lAFC est une
analyse de lcart entre un tableau de donnes et ce modle ; elle se gnralise
dautres modles (10.5.2) ; le modle de lanalyse intra correspond lhypothse
dindpendance conditionnelle (10.5.3) ; modle de leffet Guttman (10.3.2.1) ;
modle INDSCAL (8.5).
nuage de points = ensemble de points munis de poids dans un espace euclidien ; on
tudie un nuage dindividus en ACP (1.3), en ACM (4.3.2) et en AFM (8.2),
un nuage de variables en ACP (1.4) et en AFM (8.3), un nuage de modalits
en ACM (4.3.3) et en AFM (8.6.2.2), de profils-lignes et de profils-colonnes en
314
Index systmatique
Index systmatique
315
transition : relations ou formules de transition = relations entre les facteurs sur les
lignes et les facteurs sur les colonnes ; en ACP (1.7) ; en AFC = relations barycentriques (3.7.2) ; en ACM (4.3.4) ; en analyse intra (10.5.4) ; dmonstration
gnrale (5.4).
valeur propre (cf. inertie) : en analyse factorielle, on appelle souvent valeur propre
linertie dun axe (ou dun facteur) cause de la proprit qui sert les calculer (5.2.6) ; histogramme ou diagramme des valeurs propres = reprsentation
graphique de la dcroissance des inerties de la suite des facteurs ; interprtation
(11.2.1.1).
valeur-test ; indicateur de caractrisation dune classe dindividus (2.4.2).
variable v. continue = v. numrique = v. quantitative (1.1) ; v. qualitative = v. nominale
(4.1.1) ; v. indicatrice (cf. modalit) ; v. illustrative = v. supplmentaire) ; v.
canonique (8.4.3.1).
Ward ; algorithme de CAH (2.3).
Bibliographie
[1] BENZECRI J.-P. et coll. (1973) Lanalyse des donnes. Tome 1 : La taxinomie.
Tome2 : Lanalyse des correspondances. Dunod.
[2] BENZECRI J.-P. et F. (1980) Pratique de lanalyse des donnes. Tome 1 : analyse
des correspondances, expos lmentaire. Dunod.
[3] BENZECRI J.-P, BASTIN Ch., BOURGARIT Ch., CAZES P. (1980) Pratique de
lanalyse des donnes. Tome 2 : Abrg thorique, tude de cas modles. Dunod.
[4] BENZECRI J.-P. et coll. (1984) Pratique de lanalyse des donnes. Tome 3 :
Linguistique et Lexicologie. Dunod.
[5] BENZECRI J.-P. (1972) La place de la priori. in Encyclopdia Universalis.
[6] BENZECRI J.-P.et coll. (1984) Pratique de lanalyse des donnes en conomie.
Dunod.
[7] BOUROCHE J.-M. et SAPORTA G. (1980) Lanalyse des donnes. PUF Collection Que Sais-je ?
[8] CAILLEZ F. et PAGES J.-P. (1976) Introduction lanalyse des donnes. Smash.
[9] CEHESSAT R. (1981) Exercices comments de statistique et dinformatique
appliques. 2 dition. Dunod.
[10] GOVAERT G. (1989) Classification automatique des donnes. Dunod.
[11] ESCOFIER B. (2003) Analyse des correspondances. Presses Universitaires de
Rennes.
[12] ESCOFIER B. et PAGES J. (1997) Initiation aux traitements statistiques :
mthodes, mthodologie. Presses Universitaires de Rennes.
[13] FENELON J.-P. (1982) Quest-ce que lanalyse des donnes ? Lefonen.
318
Bibliographie
LOGICIEL
Toutes les mthodes dcrites dans ce livre sont intgres dans FactoMineR, logiciel
libre (en R) danalyse des donnes. FactoMineR est dvelopp par le laboratoire de
Mathmatiques appliques dAgroCampus.
sciences sup
Brigitte Escofier
Jrme Pags
4e dition
Analyses factorielles
simples et multiples
Objectifs, mthodes et interprtation
Cet ouvrage est destin aux tudiants en Masters de mathmatiques
appliques, dconomie ou dconomtrie, ainsi quaux lves
ingnieurs. Il aborde les mthodes danalyse des donnes qui ont
dmontr leur efficacit dans ltude des grandes masses complexes
dinformations. Ces mthodes sont maintenant appliques dans tous
les domaines o lon accumule dimportants fichiers de donnes,
et sont largement utilises hors de leurs champs traditionnels.
Pour cette quatrime dition, le texte a t rvis et augment
notamment sur deux points qui correspondent une demande
croissante des utilisateurs :
une prsentation de lanalyse factorielle sur donnes mixtes
(AFDM);
une prsentation de lAnalyse Factorielle Multiple Hirarchique
(AFMH), prolongement naturel de lAFM.
Le cours est illustr par de nombreuses tudes de cas.
Brigitte Escofier
a t professeur
lUniversit de Rennes
et lIUT de Vannes.
Elle tait lune des
fondatrices de lcole
franaise danalyse
des donnes.
Jrme Pags
est ingnieur
agronome, professeur
lAgrocampus de Rennes.
mathmatiques
physique
chimie
sciences de lingnieur
informatique
sciences de la vie
sciences de la terre
licence
master
doctorat
1 2 3 4 5 6 7 8
ISBN 978-2-10-053809-6
www.dunod.com