Académique Documents
Professionnel Documents
Culture Documents
Christian RALAIVAO
28 juillet 2011
Table des matires
1 Introduction 1
2 Interprtation gomtrique des nuages N(I) et N(J) 3
3 Analyse factorielle de N(I) 4
4 Analyse factorielle de N(J) et relation de dualit 5
5 Interprtation 6
6 Interprtation des rsultats dune AFC 7
7 Formes classiques des nuages 8
1 Introduction
LAFC est particulirement adapte ltude des tableaux de contingence laquelle
elle fournit un outil danalyse puissant. Elle peut tre ainsi appliqu dautre tableau.
On dnit une correspondance entre deux ensembles nis I et J par la donne dune
loi de proba
IJ
sur le I J. Dans une application pratique on ne dispose pas de
IJ
mais seulement la distribution des frquences empiriques f
IJ
observe sur une population
concrte E.
Considrons dans une population deectifs k rpartie selon les 2 caractres qualitatifs
I et J, possdant respectivement N et K modalits (N et K nis). Nous noterons k
IJ
le
tableau de contingence qui donne la ventilation de E selon le croisement I J des deux
caractres. Cest un tableau N lignes et K colonnes de termes courants k
IJ
.
Nous noterons f
IJ
le tableau des frquences empiriques calcule partir de k
IJ
par
la relation :
_
'
f
ij
=
k
ij
k
Notations :
_
f
i.
=
j
f
ij
f
.j
=
i
f
ij
f
i
j
=
f
ij
f
i.
f
j
i
=
f
ij
f
.j
f
J
= {f
.j
/i J} f
I
= {f
i.
/j I}
1
_
'
i
f
i.
=
j
f
.j
= 1
La somme du tableau est gale 1.
On peut associer ce tableau 2 nuages de points N(I) et N(J) dni ainsi :
N(I) est compose de N points X
i
situs dans lespace R
k
dot chacun de la masse
f
i.
et de coordonnes courantes x
ij
= f
i
j
. On utilise dans N(I) la mtrique de
chi
2
centre sur f
J
de sorte que
_
`
d
2
(X
i
, X
i
) =
j
1
f
.j
(f
i
j
f
i
j
)
2
N(J) est compose de K points Y
j
situs dans lespace R
N
dot chacun de masse
f
.j
. On utilise dans N(J) l amtrique de
2
centre sur f
I
de sorte que
_
`
d
2
(Y
j
, Y
j
) =
j
1
f
i.
(f
j
i
f
j
i
)
2
Pour distinguer les 2 nuages de N(I) et N(J), il est convenu dappeler lun des deux
nuages "Nuage direct", et lautre est alors appel "Nuage dual". On distingue ga-
lement les analyses factorielles en parlant danalyse directe et danalyse duale.
Il est possible dtablir lensemble des rsultats de lAFC partir des nuages ainsi
construits. Cependant, on a vu que lorsquon procde lanalyse factorielle dun nuage
situ dans une espace o lon utilise une mtrique euclidienne quelconque, il est possible
de se ramener lusage de la mtrique euclidienne canonique. On a donc le choix :
ou bien on continue travailler avec les nuages tels quils sont dnis ci-dessus (et
avec la mtrique de
2
associe chaque nuage) ;
ou bien on modie les coordonnes des points de tel sorte que lon puisse utiliser
le mtrique euclidienne canonique.
Cest ce dernier cas qui nous intresse ici : la "simplication" de la mtrique est paye
par une "complication" des coordonnes.
Lavantage est que nous pourrions utiliser directement les rsultats de lAF dun
nuage de points quelconque :
N(I) est compos de N points X
I
, situ dans R
k
dot chacun de la masse f
i.
de
coordonnes courantes :
_
'
x
ij
=
1
_
f
.j
f
i
j
On dit que X
i
reprsente dans N(I) la distribution f
J
N(J) est compos de K points Y
j
, situ dans R
N
, dot chacun de masse f
.j
de
coordonnes courantes :
_
'
y
ij
=
1
f
i.
f
j
i
RQ : Avec les coordonnes ainsi dnies en utilisant le mtrique euclidienne cano-
nique, on retrouve bien les mme expressions quauparavant pour les distances d
2
(X
i
, X
i
)
et d
2
(Y
j
, Y
j
) : les produits scalaires, les distances, les inerties sont changs selon que
lon prend lune ou lautre des 2 prsentations.
2
2 Interprtation gomtrique des nuages N(I) et N(J)
Le centre de gravit de N(I) est G tel que :
_
'
G =
i
f
i.
X
i
_
g
j
=
i
f
i.
1
_
f
.j
f
i
j
=
i
f
ij
_
f
.j
=
f
ij
_
f
.j
g
j
=
_
f
.j
G reprsente dans lespace la distribution f
J
(de mme que X
i
reprsente la distri-
bution f
i
J
). On remarque que
t
GG = OG
2
= 1.
Linertie totale de N(I) est :
_
'
I
n
(I) =
i
f
i.
_
_
X
i
G
_
_
2
On sait que :
_
_
X
i
G
_
_
2
=
j
(x
ij
g
j
)
2
(1)
=
j
_
f
ij
f
i.
_
f
.j
)
_
2
(2)
=
j
f
.j
_
f
ij
f
i.
f
.j
f
i.
f
.j
)
_
2
(3)
do
_
`
I
n
(I) =
ij
_
f
ij
f
i.
f
.j
f
i.
f
.j
_
2
Linertie de N(I) est donc gale la distance entre f
IJ
et f
I.
f
.J
calcule selon la
mtrique de
2
centre sur la distribution f
I
f
J
.
Le centre de gravit de N(J) est le point de coordonnes courantes h
i
=
f
i.
.
Lexpression de I
n
(I) donne un rle symtrique aux lettre i et j donc I
n
(I) = I
n
(J).
RQ :
t
GX
i
=
j
g
j
x
ij
(4)
=
j
f
i
j
_
f
.j
_
f
.j
(5)
=1 (6)
3
N(J) se trouve dans le simplexe dni par les quations :
_
_
_
j
x
j
_
f
.j
= 1
x
j
0
Ce simplexe fait partie dun espace ane k 1 dimensions orthogonale au vecteur
G et tangente en G la sphre de centre O et de rayon 1. Dans le cas o k = 3 la
conguration est la suivante :
La distance entre 2 points X
i
et X
i
J
calcule selon le mtrique de chi
2
centre sur f
J
. On peut donc interprter cette
distance comme une distance entre distribution (ou distance entre structure).
3 Analyse factorielle de N(I)
La matrice dinertie de N(I) par rapport son centre de gravit G est la matrice
(k, k) V de terme gnrale :
v
jj
=
i
f
i.
(x
ij
g
j
)(x
ij
g
j
)
Considrons la matrice (k, k) S de terme gnrale
s
jj
=
i
f
i.
x
ij
x
ij
i
f
i.
f
i
j
_
f
.j
f
i
j
_
f
.j
i
1
f
i.
f
ij
f
ij
_
f
.j
f
.j
f
i.
f
.j
= x
ij
f
i.
.
4 Analyse factorielle de N(J) et relation de dualit
Par permutation du rle des lettres i et j on peut crire le terme gnrale de la matrice
(N, N) quil faut diagonaliser pour raliser lAF de N(J), dont le terme gnral est le
suivant :
ii
=
j
1
f
.j
f
ij
f
i
f
i.
f
i
.
En diagonalisant , on trouvera dabord le vecteur propre trivial H associ la valeur
propre 1. On peut crire = B
t
B.
S et ont les mmes valeurs propres non nulles avec le mme ordre de multiplicit.
Si N < k, mise sous sa forme diagonale, la matrice scrit :
=
_
_
_
_
_
1 0 . . . 0
0
1
.
.
.
0
0 0
.
.
.
0
0 0 . . .
N1
_
_
_
_
_
O 1 est la valeur propre triviale associe au vecteur propre trivial H.
Mise sous sa forme diagonale, S scrira :
S =
_
_
_
_
_
_
_
_
_
_
_
1 0 . . . 0 . . . 0
0
1
.
.
.
0
.
.
.
0
0 0
.
.
.
0
.
.
.
0
0 0
.
.
.
N1
. . . 0
0 0
.
.
.
0
.
.
.
0
0 0 . . . 0 . . . 0
_
_
_
_
_
_
_
_
_
_
_
Les vecteurs propres U
de S et W
=
1
t
BW
(7)
W
=
1
BU
(8)
5
On peut tablir partir de ces 2 formules, les relations barycentriques ou formules
de transition qui joue un rle important dans linterprtation de lAFC.
W
i
=
1
j
b
ij
U
j
Comme b
ij
= x
ij
f
i.
alors W
i
=
_
f
i.
j
x
ij
U
j
Soit en notant F
(i) la coordonne de X
i
sur laxe U
i
= F
(i)
_
f
i.
; U
j
= G
(j)
_
f
.j
.
Remarquons que :
_
`
W
2
i
=
f
i.
F
(i)
2
= CTR
(i)
U
2
j
=
f
.j
G
(j)
2
= CTR
(j)
5 Interprtation
La contribution du point X
i
linertie explique par laxe de rang est gale au
carr de la i
me
coordonne de laxe de rang dans lanalyse duale (et rciproquement
en intervertissant les lettres i et j)
Enn comme :
G
j
=
i
W
i
y
ij
=
i
_
F
(i)
_
f
i.
_
f
ij
f
.j
f
i.
On trouve :
_
`
(j) =
1
i
f
ij
f
.j
F
(i)
Par symtrie :
_
`
(i) =
1
j
f
ij
f
i.
G
(j)
6
_
j
f
ij
f
i.
G
1
_
(i)
_
(j) max
i
F
(i)
do
G
(j)
_
max
j
G
(j)
et comme
1
Comme S et ont les mme valeurs propres non nuls avec les mme ordre de multi-
plicait, et en tenant compte de lexistence de la valeur propre triviale gale lunit,
on dduit de
1 que avec :
Tr
a
(S) = 1 +
On a
Tr(S) = Tr() inf{N, k}
a. Dimunitif de Trace
6 Interprtation des rsultats dune AFC
En visualisant les deux nuages de points associs un tableau, nous les rendons
perceptibles et cette visualisation se fait avec une perte dinertie (plus prcisment une
perte dinformation dans une AFC) aussi petite que possible.
Avant dinterprter une analyse, il faut bien se remmorer ce que reprsente un
point dun nuage. Les points X
i
de N(I) reprsente en AFC la distribution condi-
tionnelle f
i
J
; le point G qui, sous le graphe, est situ lorigine du systme des
axes factoriels et qui reprsente la distribution marginale f
J
.
la distance entre deux points i et i
J
_
_
_
f
J
Entre les distributions f
i
J
et f
i
J
cette image doit tre interprt compte tenue des
eets de perspectives associes la projection.
7
Lusage des aides linterprtation est indispensable en AFC (alors que lon peut
sen dispenser en ACP lorsquon tudie les nuages de points variables, et que les
variables ont toutes le mme poids). En eet, un point X
i
est muni dune masse
f
i.
qui lui est propre ; sa contribution linertie axplique par laxe est :
CTR
(i) =
1
f
i.
F
2
(i)
Ainsi un point pour lequel |F
(i)|
est relativement faible ( et qui sous le graphe ne se distingue pas particulirement
des autres le long de laxe ) peut avoir une forte contribution si sa masse f
i.
est
forte.
Lexamen du graphe, qui ne renseigne que sur les F
relativement
N(J). On se rappelle quil faut toujours transiter par les axes pour passer dun
nuage lautre.
On peut dcrire les tapes dinterprtation dun axe factoriel en ce qui concerne
N(I) :
Reprage du sous-ensemble I
(i) ;
Sparation dans I
+
et I
(i) ;
Reprage du sosu-ensemble I
(i) ;
Reprage du sous-ensemble I
I I
(i).
Ce travail doit tre fait en utilisant les aides linterprtation, successivement sur
les ensembles I
+
, I
, I
et I
(respectivement J
+
, J
, J
et J
). Il permet en outre
de classer les lments de ces sous-ensembles selon le niveau de leur contribution
(CTR
(i).
7 Formes classiques des nuages
8