Vous êtes sur la page 1sur 11

1

Analyse Factorielle de correspondances simple




Lanalyse factorielle des correspondances (AFC)
Lobjectif est identique LACP ; les variables exiges sont nominatives avec
des tableaux de contingences. Cette mthode complte les tris croiss et les tests
de CHI-DEUX, lorsque les variables ont un grand nombre de modalits.
PRINCIPES DE L'AFC

Analyse du nuage des profils en ligne

A partir du tableau de contingence: K, on passe au tableau: X, des profils en
ligne, c'est dire des frquences conditionnelles, obtenu en divisant chaque
lment de la ligne i, par son total k(i):
ij
ij
i
k
x
k
=
Ainsi la ligne i du tableau X, donne la rpartition en proportions selon les p
modalits du second caractre des k(i) individus qui prennent la modalit: i, du
premier caractre.
Le terme de profil fait rfrence laspect visuel des diagrammes en rectangles
frquemment utiliss pour reprsenter les distributions, ici celles de frquences
conditionnelles indiques.


Les lignes de X tant donc des frquences, ou encore des probabilits
empiriques, l'ACP du nuage de ses n lignes, lments de R
p
, est effectue non
selon la distance usuelle, mais selon la distance, dite du chi-deux, adapte la
comparaison de frquences ou de probabilits. D'autre part, pour tenir compte de
l'importance relative des diffrentes modalits en ligne, la ligne-individu i est
affecte du poids: k(i).
2

L'AFC du tableau de contingence: K, est l'ACP du tableau: X, des profils en
ligne, avec la distance du chi-deux et les poids prcdents.
Les diffrentes notions prsentes en ACP:

les taux d'inertie
les coordonnes et plans factoriels (ou principaux)
les contributions
les lments supplmentaires

se retrouvent ici; elles conservent la mme signification et s'utilisent de la mme
manire qu'en ACP.

Analyse des profils en colonne, reprsentation simultane

A l'inverse de ce qui se passe en ACP, lignes et colonnes d'un tableau de
contingence: K, jouent des rles comparables.

A l'analyse du tableau: X, des profils en ligne correspond celle du tableau: Y,
des profils en colonnes - avec la distance et les poids convenables.
Du fait de relations algbriques particulires, les deux analyses peuvent tre
menes conjointement. Elles prsentent en outre une proprit remarquable: sans
entrer dans le dtail mathmatique, il est loisible de reprsenter les deux
ensembles: I et J , simultanment sur les plans factoriels, de telle sorte que la
position d'un point de l'ensemble I (resp. J ) y est interprtable par rapport
l'ensemble de tous les points de l'ensemble J (resp. I).

Pour cette raison, la plupart des logiciels ditent la reprsentation simultane des
deux ensembles dans les plans principaux demands.
3
On retiendra imprativement que cette interprtation reste dlicate, et que la
proximit entre un point-ligne et un point-colonne considrs isolment n'a
aucune signification.


Formalisation de lAFC

LAFC, comme il a t dit, est une forme particulire de lACP applique aux
tableaux de contingence : non centre-rduite, avec pondrations, et utilisant la
mtrique dite du chi-deux (ie des inverses des frquences marginales) au lieu de
la mtrique euclidienne usuelle.

On note K le tableau de contingence, ou tableau crois, initial, de dimension n.p,
F
J /I
le tableau des profils en ligne (frquences conditionnelles, conditionnes par
les items en ligne) et F
I/J
celui des profils en colonne. D
I
dsigne la matrice
diagonale portant sur sa diagonale les totaux en ligne (ou totaux marginaux) et
D
J
celle des totaux en colonne.

Les diffrentes matrices prcdentes sont naturellement lies:
1
/ j i I
F D K

= et
1
/ i j J
F KD

=
Le produit scalaire de deux vecteurs u et v dans R
p
pour la mtrique du chi-deux
est donn par le produit matriciel: u.
1
J
D

.v , un facteur multiplicatif prs, par


suite linertie dans la direction du vecteur
1
J
D

unitaire u du nuage des profils en


ligne, pour la mtrique prcdente avec pour pondrations les totaux en ligne,
est donne, au mme facteur prs, par le produit matriciel:
1 1 1 1 1
/ /
' ' ' '
J j i I j i j J I J
u D F D F D u u D K D KD u

=
Les directions principales dinertie sont obtenues en maximisant la quantit
prcdente sous la contrainte: u.
1
J
D

.u =1 , dans des directions


1
J
D

orthogonales
4
successives. La thorie indique que la solution est la suite des vecteurs propres
1
J
D

norms u
k
associe la suite dcroissante des valeurs propres
k
de la
matrice (non symtrique):
' 1 1 1
/ /
'
j i I J I J I J
F D F D K D KD

=
Les composantes principales:
1 1 1
/ k J I J k I J k
c F D u D KD u

= =
donnent nouveau les coordonnes des profils en ligne sur les axes factoriels,
tandis que les diffrentes aides l'interprtations s'obtiennent aisment en tenant
compte de la mtrique D
J
-1
et des pondrations donnes par D
I
.

Lanalyse des profils en colonne est troitement lie la prcdente, du fait des
relations entre F
I/J
et F
J /I
. Les directions principales de cette analyse sont donnes
par les vecteurs propres D
I
-1
-norms et orthogonaux:
1/2 1
k k J k
v KD u

=
de la matrice:
' 1 1 1
/ /
'
I J J I J I J I
F D F D KD K D

=
et les composantes principales par:
' 1 1/2 '
/ / k I J I k k I J k
d F D v F c

= =

La i
me
composante: d
ki
, de d
k
est donc:
1/2 ji
ki k kj
j
i
n
d c
n

=


relation barycentrique, au facteur
1/2
k

prs, qui relie les deux analyses et justifie


la reprsentation simultane.


Exemple

5

Le chef de produit dsire cibler la clientle dune nouvelle lessive cologique. Il
voudrait notamment savoir quelle tranche dage est la tranche la plus rceptive
ce produit. Un chantillon de 391 personnes a t interrog, il a effectu un tri
crois entre les diffrentes classes dage ( six tranches) des rpondants et une
variable achats de produit cologiques comportant quatre modalits (
systmatique, la plus part du temps, occasionnellement et jamais, le test de CHI-
DEUX semple significatif et permet dtablir un lien entre les deux variables ;
mais le chef de produit souhait souhaite approfondir la nature de cette
association.
Le tableau de contingence suivant est tablit :

Age Achats des produits
cologiques
Ligne
Total
Syste
1
LPDT
2
OCCAS
3
J amais
4
1
15 19

2
20 24

6
13,3
15,4
2
2,9
5,1
6
13,3
4,3
25
35,7
17,7
24
53,3
14,3
37
52,9
22
9
20
20,9
6
8,6
14
45
11,5

70
17.9
3
25 34
5
8,9
12,8
17
30,4
12,1
25
44,6
14,9
9
16,1
20,9
56
14.3
4
35 45

12
14,8
30,8
29
35,8
20,6
37
45,7
22
3
3,7
7
81
20,7
6
5
45 59

3
3,1
7,7
45
46,9
31,9
36
37,5
21,4
12
12,5
27,9
96
24,6
6
60 et plus

11
25,6
28,2
19
44,2
13,5
9
20,9
5,4
4
9,3
9,3
43
11
Colonne
Total
39
10,0
141
36,1
168
43
43
11
391
100
LPDT =la plus part du temps
Dans chaque case du tableau il y a 3 chiffres : le 1r (en partant du haut)
reprsente le nombre dindividus prsentant les deux modalits considres ; le
chiffre du milieu correspond au % que reprsente leffectif de la case par rapport
au total de la ligne , le chiffre de la 3
me
ligne reprsente le pourcentage par
rapport au total de la colonne.

Etape 1 : Analyse des tableaux de contingence

Pour analyser le sens de la relation entre les deux variables, on compare les % en
lignes et en colonnes par rapport aux % marginaux qui leur correspondent.
Par exemple 10% des personnes interroges ont rpondu faire systmatiquement
attention acheter des produits cologiques. Si on dtaille cette colonne par
classe dage, on saperoit que les 15-19, les 35-44 et les 60 et plus sont
largement sur reprsentes, tandis que les autres classes sont sous reprsentes.
Le raisonnement se poursuit de la mme manire aussi bien pour les lignes que
pour les colonnes. On peut alors tenter de dceler une tendance dans les liens
entre les modalits des deux variables. Ce travail devient vite fastidieux : LAFC
permet de visualiser directement ces liens.

Etape 2 : Reprsentation graphique
7

Le choix du nombre de dimensions pertinentes est du ressort de lanalyse. Il est
bas sur la quantit dinformation laquelle chaque dimension contribue. Pour
LACP cette notion dinformation tait assimilable la part de la variance
initiale. Avec des variables qualitatives, la variance nest plus utilise, on utilise
une notion proche, appele inertie.

Inertie des dimensions
Dimension
1
2
3

Total
Inertie
0,06257
0,04406
0,02010

0,12673
% expliqu
0,494
0,348
0,159

1
% cumul
0,494
0,841
1


Dans le tableau ci-dessus, la dimension 3 contribue pour 16% de linertie totale,
soit moiti moins que la seconde dimension. Les deux premires dimensions
contribuent ensemble 84,1% de cette inertie totale. Il semble donc logique de
ngliger la 3
me
.

La reprsentation graphique met en relief les liens ventuels entre les modalits
des deux variables tudier. La dimension horizontale est par convention celle qui
reprsente plus dinformation.





8
Reprsentation graphique dune AFC
0,59
la plus part
du temps
0,39 45-39

60 et plus 20-24
0,04 35 44


-0,24
occas
25-34

-0,52 systema
jamais

-0,79


-1,07 15-19





-1,39 1,22 1,06 -0,89 -0,73 -0,56 -0.39 -0,23 -0,06 10 27 44


Nous constatons une nette opposition entre la modalit 60 et plus associ la
modalit systmatiquement dont les coordonnes sont ngatives, et les modalits
20-24 et jamais sur le cot positif de laxe. La seconde dimension oppose les
15-19 aux 45-59 et la plupart du temps.
La reprsentation montre donc les diffrences de comportement trs marqus
entre les classes dage extrme, lexception des 15-19 quaucune modalit de
comportement naccompagne. Les classes dage intermdiaires sont trs proches
du barycentre et contribue moins, priori, linertie du nuage.

Etape 3 : Interprtation des dimensions
Trois types dindicateurs facilitent cette opration.
1) Contributions. Elles reprsentent, en %, les parts de chaque point (chaque
modalit) dans linertie des axes. Plus ce poids est fort, et plus la modalit
lapparition de la dimension.
9

Contribution des variables Age et Achat

Age Profile
marginal
Dimensions
1 2 3
1 15-19
2 20-24
3 25-34
4 35-44
5 45-59
6 60et
plus

0,115
0,179
0,143
0,207
0,246
0,110
0,009
0,173
0,016
0,088
0,084
0,631

1,00
0,635
0,011
0,056
0,001
0,285
0,011

1,00
0,030
0,140
0,072
0,480
0,195
0,082

1,00




Achat Profil
marginal
Dimensions
1 2 3
1 systmatiquement
2 La plus part du temps
3 occasionnellement
4 J amais
0,10
0,361
0,430
0,110


0,771
0,012
0,172
0,045

1,00
0,124
0,602
0,115
0,159

1,00
0,005
0,026
0,283
0,686

1,00

Les contributions les plus fortes laxe 1 sont les modalits 60 et plus et
systmatiquement. Par contre , contrairement ce que le graphe pouvait laisser
penser, la contribution du point 20-24 est beaucoup plus faible. La dimension
10
2, quant elle, rsulte de la contribution oppose des 15-19 et de la modalit
la plus part du temps. Les modalits 35-44 et jamais contribuent au 3
me

dimension.

Qualit de la reprsentation
Elle indique la capacit du graphique restituer linformation contenue dans la
variable initiale : un % lev traduit une perte dinformation minime.


Qualit de la reprsentation

Age Profile
marginal
Dimensions
1 2
3
Total
1 15-19
2 20-24
3 25-34
4 35-44
5 45-59
60et plus
0,115
0,179
0,143
0,207
0,246
0,110
0,020
0,765
0,198
0,363
0,241
0,949
0,960
0,035
0,508
0,004
0,578
0,011
0,020
0,200
0,294
0,633
0,181
0,040
1
1
1
1
1
1

Achat Profil
marginal
Dimensions
1 2 3
Total
1 systmatiquement
2 La plus part du temps
3 occasionnellement
4 J amais
0,10
0,361
0,430
0,110

0,897
0,026
0,501
0,119
0,101
0,955
0,235
0,297
0,002
0,019
0,264
0,584
1
1
1
1
11




Pour la variable Age, cest le point 60 et plus qui est le mieux reprsent sur
laxe 1. tandis que laxe 2 privilgie le point 15-19. Ces deux axes dage
extrme sopposent donc. Pour la variable achat cest le point systmatique
qui est le mieux reprsent sur laxe 1 et le point, la plus part du temps sur
laxe 2 ( en signe oppos comme dans le graphe). Les modalits 35_44 et
jamais sont les mieux reprsentes ( mais moyennant) sur laxe 3 ; ce qui
confirme le faible intrt de ce dernier.

Synthse : Nous avons, dans cet exemple, une opposition entre une classe dage
ge laquelle semble faire un effort systmatique dachat de produit
respectant lenvironnement et une classe dage trs jeune dont le comportement
nest pas clairement dfini, mais oppose un comportement que lon pourrait
qualifier de rgulier (la plus part du temps). Laxe 1 reprsenterait la fidlit
lachat dun produit cologique.

Vous aimerez peut-être aussi