Vous êtes sur la page 1sur 8

Analyse factorielle des correspondances

Christian RALAIVAO
28 juillet 2011
Table des matires
1 Introduction 1
2 Interprtation gomtrique des nuages N(I) et N(J) 3
3 Analyse factorielle de N(I) 4
4 Analyse factorielle de N(J) et relation de dualit 5
5 Interprtation 6
6 Interprtation des rsultats dune AFC 7
7 Formes classiques des nuages 8
1 Introduction
LAFC est particulirement adapte ltude des tableaux de contingence laquelle
elle fournit un outil danalyse puissant. Elle peut tre ainsi appliqu dautre tableau.
On dnit une correspondance entre deux ensembles nis I et J par la donne dune
loi de proba
IJ
sur le I J. Dans une application pratique on ne dispose pas de
IJ
mais seulement la distribution des frquences empiriques f
IJ
observe sur une population
concrte E.
Considrons dans une population deectifs k rpartie selon les 2 caractres qualitatifs
I et J, possdant respectivement N et K modalits (N et K nis). Nous noterons k
IJ
le
tableau de contingence qui donne la ventilation de E selon le croisement I J des deux
caractres. Cest un tableau N lignes et K colonnes de termes courants k
IJ
.
Nous noterons f
IJ
le tableau des frquences empiriques calcule partir de k
IJ
par
la relation :
_
'

f
ij
=
k
ij
k
Notations :
_

f
i.
=

j
f
ij
f
.j
=

i
f
ij
f
i
j
=
f
ij
f
i.
f
j
i
=
f
ij
f
.j
f
J
= {f
.j
/i J} f
I
= {f
i.
/j I}
1
_
'

i
f
i.
=

j
f
.j
= 1
La somme du tableau est gale 1.
On peut associer ce tableau 2 nuages de points N(I) et N(J) dni ainsi :
N(I) est compose de N points X
i
situs dans lespace R
k
dot chacun de la masse
f
i.
et de coordonnes courantes x
ij
= f
i
j
. On utilise dans N(I) la mtrique de
chi
2
centre sur f
J
de sorte que
_
`

d
2
(X
i
, X
i

) =

j
1
f
.j
(f
i
j
f
i

j
)
2
N(J) est compose de K points Y
j
situs dans lespace R
N
dot chacun de masse
f
.j
. On utilise dans N(J) l amtrique de
2
centre sur f
I
de sorte que
_
`

d
2
(Y
j
, Y
j

) =

j
1
f
i.
(f
j
i
f
j

i
)
2
Pour distinguer les 2 nuages de N(I) et N(J), il est convenu dappeler lun des deux
nuages "Nuage direct", et lautre est alors appel "Nuage dual". On distingue ga-
lement les analyses factorielles en parlant danalyse directe et danalyse duale.
Il est possible dtablir lensemble des rsultats de lAFC partir des nuages ainsi
construits. Cependant, on a vu que lorsquon procde lanalyse factorielle dun nuage
situ dans une espace o lon utilise une mtrique euclidienne quelconque, il est possible
de se ramener lusage de la mtrique euclidienne canonique. On a donc le choix :
ou bien on continue travailler avec les nuages tels quils sont dnis ci-dessus (et
avec la mtrique de
2
associe chaque nuage) ;
ou bien on modie les coordonnes des points de tel sorte que lon puisse utiliser
le mtrique euclidienne canonique.
Cest ce dernier cas qui nous intresse ici : la "simplication" de la mtrique est paye
par une "complication" des coordonnes.
Lavantage est que nous pourrions utiliser directement les rsultats de lAF dun
nuage de points quelconque :
N(I) est compos de N points X
I
, situ dans R
k
dot chacun de la masse f
i.
de
coordonnes courantes :
_
'

x
ij
=
1
_
f
.j
f
i
j
On dit que X
i
reprsente dans N(I) la distribution f
J
N(J) est compos de K points Y
j
, situ dans R
N
, dot chacun de masse f
.j
de
coordonnes courantes :
_
'

y
ij
=
1

f
i.
f
j
i
RQ : Avec les coordonnes ainsi dnies en utilisant le mtrique euclidienne cano-
nique, on retrouve bien les mme expressions quauparavant pour les distances d
2
(X
i
, X
i

)
et d
2
(Y
j
, Y
j

) : les produits scalaires, les distances, les inerties sont changs selon que
lon prend lune ou lautre des 2 prsentations.
2
2 Interprtation gomtrique des nuages N(I) et N(J)
Le centre de gravit de N(I) est G tel que :
_
'

G =

i
f
i.
X
i
_

g
j
=

i
f
i.
1
_
f
.j
f
i
j
=

i
f
ij
_
f
.j
=
f
ij
_
f
.j
g
j
=
_
f
.j
G reprsente dans lespace la distribution f
J
(de mme que X
i
reprsente la distri-
bution f
i
J
). On remarque que
t
GG = OG
2
= 1.
Linertie totale de N(I) est :
_
'

I
n
(I) =

i
f
i.
_
_
X
i
G
_
_
2
On sait que :
_
_
X
i
G
_
_
2
=

j
(x
ij
g
j
)
2
(1)
=

j
_
f
ij
f
i.
_
f
.j
)
_
2
(2)
=

j
f
.j
_
f
ij
f
i.
f
.j
f
i.
f
.j
)
_
2
(3)
do
_
`

I
n
(I) =

ij
_
f
ij
f
i.
f
.j
f
i.
f
.j
_
2
Linertie de N(I) est donc gale la distance entre f
IJ
et f
I.
f
.J
calcule selon la
mtrique de
2
centre sur la distribution f
I
f
J
.
Le centre de gravit de N(J) est le point de coordonnes courantes h
i
=

f
i.
.
Lexpression de I
n
(I) donne un rle symtrique aux lettre i et j donc I
n
(I) = I
n
(J).
RQ :
t
GX
i
=

j
g
j
x
ij
(4)
=

j
f
i
j
_
f
.j
_
f
.j
(5)
=1 (6)
3
N(J) se trouve dans le simplexe dni par les quations :
_
_
_

j
x
j
_
f
.j
= 1
x
j
0
Ce simplexe fait partie dun espace ane k 1 dimensions orthogonale au vecteur
G et tangente en G la sphre de centre O et de rayon 1. Dans le cas o k = 3 la
conguration est la suivante :
La distance entre 2 points X
i
et X
i

de N(I) est la distance entre 2 distributions f


i
J
et f
i

J
calcule selon le mtrique de chi
2
centre sur f
J
. On peut donc interprter cette
distance comme une distance entre distribution (ou distance entre structure).
3 Analyse factorielle de N(I)
La matrice dinertie de N(I) par rapport son centre de gravit G est la matrice
(k, k) V de terme gnrale :
v
jj
=

i
f
i.
(x
ij
g
j
)(x
ij
g
j
)
Considrons la matrice (k, k) S de terme gnrale
s
jj
=

i
f
i.
x
ij
x
ij

On peut tablir les rsultats suivants :


x V G = 0
y SG = G
z si
t
UG = 0 alors V U = SU
Il dcoule des ces relations que G est un vecteur propre de V associ la valeur
propre 0 et de S associ la valeur propre 1, et que les matrices V et S ont les mme
vecteurs propres orthogonaux G, et correspondant aux mme valeurs propres.
Nous tablirons plus loin quen AFC, les valeurs propres sont toutes infrieures 1.
Si lon diagonalise S, on retrouve donc successivement :
A le vecteur G, associ la valeur propre 1 appel vecteur propre trivial car il nap-
porte rien pour lAF de N(I).
A u
i
est le i
me
vecteur propre associ
i
4
Il est possible, pour faire lAF, de travailler avec la matrice S dont lexpression est
plus simple que celle de V . Il sut de se rappeler quil ne faut pas tenir compte du
vecteur propre trivial G. Le terme gnral de S est :
s
jj
=

i
f
i.
f
i
j
_
f
.j
f
i
j

_
f
.j

i
1
f
i.
f
ij
f
ij

_
f
.j
f
.j

Remarquons quon peut crire S =


t
BB o B est la matrice (N, k) de terme gnral
b
ij
=
f
ij

f
i.
f
.j
= x
ij

f
i.
.
4 Analyse factorielle de N(J) et relation de dualit
Par permutation du rle des lettres i et j on peut crire le terme gnrale de la matrice
(N, N) quil faut diagonaliser pour raliser lAF de N(J), dont le terme gnral est le
suivant :

ii
=

j
1
f
.j
f
ij
f
i

f
i.
f
i

.
En diagonalisant , on trouvera dabord le vecteur propre trivial H associ la valeur
propre 1. On peut crire = B
t
B.
S et ont les mmes valeurs propres non nulles avec le mme ordre de multiplicit.
Si N < k, mise sous sa forme diagonale, la matrice scrit :
=
_
_
_
_
_
1 0 . . . 0
0
1
.
.
.
0
0 0
.
.
.
0
0 0 . . .
N1
_
_
_
_
_
O 1 est la valeur propre triviale associe au vecteur propre trivial H.
Mise sous sa forme diagonale, S scrira :
S =
_
_
_
_
_
_
_
_
_
_
_
1 0 . . . 0 . . . 0
0
1
.
.
.
0
.
.
.
0
0 0
.
.
.
0
.
.
.
0
0 0
.
.
.

N1
. . . 0
0 0
.
.
.
0
.
.
.
0
0 0 . . . 0 . . . 0
_
_
_
_
_
_
_
_
_
_
_
Les vecteurs propres U

de S et W

de , associs tous les deux la valeur propre

= 0, sont relis par les relations.


U

=
1

t
BW

(7)
W

=
1

BU

(8)
5
On peut tablir partir de ces 2 formules, les relations barycentriques ou formules
de transition qui joue un rle important dans linterprtation de lAFC.
W

i
=
1

j
b
ij
U

j
Comme b
ij
= x
ij

f
i.
alors W

i
=
_
f
i.

j
x
ij
U

j
Soit en notant F

(i) la coordonne de X
i
sur laxe U

i
= F

(i)
_
f
i.

; U

j
= G

(j)
_
f
.j

(j) tant la coordonne de Y


j
sur laxe W

.
Remarquons que :
_
`

W
2

i
=
f
i.
F

(i)
2

= CTR

(i)
U
2

j
=
f
.j
G

(j)
2

= CTR

(j)
5 Interprtation
La contribution du point X
i
linertie explique par laxe de rang est gale au
carr de la i
me
coordonne de laxe de rang dans lanalyse duale (et rciproquement
en intervertissant les lettres i et j)
Enn comme :
G

j
=

i
W

i
y
ij
=

i
_
F

(i)
_
f
i.

_
f
ij
f
.j

f
i.
On trouve :
_
`

(j) =
1

i
f
ij
f
.j
F

(i)
Par symtrie :
_
`

(i) =
1

j
f
ij
f
i.
G

(j)
6
_

Ce sont les Formules de transition.


Elles jouent un rle important dans linterprtation des rsultats de lAFC.
Le terme

j
f
ij
f
i.
G

(j) est labscisse sur laxe du barycentre de Y


j
pondr par
les coecients f
i
j
=
f
ij
f
i.
. On passe du barycentre des Y
j
(pondr par les f
i
j
) au point
coordonn F

(i) par des anits de rapport


1

le long de chaque axe factoriel. On peut


tablir que

1, il sagit donc dune dilatation du nuage des barycentres. Dilatation


dautant plus forte que

est petit i.e que laxe est de rang plus lev.


_

Exercice : Dmontrer que

1
_

(j) est barycentre des F

(i) pondre par f


i
j
donc :
j min
i
F

(i)
_

(j) max
i
F

(i)
do
G

(j)
_

max
j
G

(j)
et comme

1
Comme S et ont les mme valeurs propres non nuls avec les mme ordre de multi-
plicait, et en tenant compte de lexistence de la valeur propre triviale gale lunit,
on dduit de

1 que avec :
Tr
a
(S) = 1 +

On a
Tr(S) = Tr() inf{N, k}
a. Dimunitif de Trace
6 Interprtation des rsultats dune AFC
En visualisant les deux nuages de points associs un tableau, nous les rendons
perceptibles et cette visualisation se fait avec une perte dinertie (plus prcisment une
perte dinformation dans une AFC) aussi petite que possible.
Avant dinterprter une analyse, il faut bien se remmorer ce que reprsente un
point dun nuage. Les points X
i
de N(I) reprsente en AFC la distribution condi-
tionnelle f
i
J
; le point G qui, sous le graphe, est situ lorigine du systme des
axes factoriels et qui reprsente la distribution marginale f
J
.
la distance entre deux points i et i

de N(I) telle quelle apparat sur une projection


est limage par cette projection :
_
_
_f
i
J
f
i

J
_
_
_
f
J
Entre les distributions f
i
J
et f
i

J
cette image doit tre interprt compte tenue des
eets de perspectives associes la projection.
7
Lusage des aides linterprtation est indispensable en AFC (alors que lon peut
sen dispenser en ACP lorsquon tudie les nuages de points variables, et que les
variables ont toutes le mme poids). En eet, un point X
i
est muni dune masse
f
i.
qui lui est propre ; sa contribution linertie axplique par laxe est :
CTR

(i) =
1

f
i.
F
2

(i)
Ainsi un point pour lequel |F

(i)| est grand et qui apparat donc sous le graphe


comme "trs loign" sur laxe peut trs bien ne pas contribuer fortement
linertie de cet axe si sa masse f
i.
est faible ; et rciproquement un point dont |F

(i)|
est relativement faible ( et qui sous le graphe ne se distingue pas particulirement
des autres le long de laxe ) peut avoir une forte contribution si sa masse f
i.
est
forte.
Lexamen du graphe, qui ne renseigne que sur les F

(i) peut donc induire en erreur


sil nest pas accompagn apr un examen des aides linterprtation car il attire
lattention sur les points qui ont des forts |F

(i)| et non ceux qui nont pas de forte


contribution linertie de laxe.
En faite, chaque AFC comporte la ralisation de 2 AF sur les nuages N(I) et
N(J). Laxe U

sera interprt relativement N(I) et laxe W

relativement
N(J). On se rappelle quil faut toujours transiter par les axes pour passer dun
nuage lautre.
On peut dcrire les tapes dinterprtation dun axe factoriel en ce qui concerne
N(I) :
Reprage du sous-ensemble I

I correspondant aux grandes CTR

(i) ;
Sparation dans I

des deux sous-ensemble I

+
et I

selon le signe des F

(i) ;
Reprage du sosu-ensemble I

correspondant des grands cos


2

(i) ;
Reprage du sous-ensemble I

I I

correspondant des grands cos


2

(i).
Ce travail doit tre fait en utilisant les aides linterprtation, successivement sur
les ensembles I

+
, I

, I

et I

(respectivement J

+
, J

, J

et J

). Il permet en outre
de classer les lments de ces sous-ensembles selon le niveau de leur contribution
(CTR

(i)) ou de leur cos


2

(i).
7 Formes classiques des nuages
8

Vous aimerez peut-être aussi