Académique Documents
Professionnel Documents
Culture Documents
Analyse Factorielle Des Correspondances
Analyse Factorielle Des Correspondances
Pr. A. Zoglat
FSR
XI nI 1 nIj nIJ nI •
Total n•1 n•j n•J n••
Les probabilités associées à une table de contingence sont définies par fij =
nij /n. on adoptera également les notations suivantes :
J
X I
X X
fi• = fij , f•j = fij , f•• = fij = 1.
j=1 i=1 i,j
Étudier ces relations revient à comparer les effectifs observés (nij = n fij )
aux effectifs théoriques sous l’indépendance (nij = n fi• f•j ) :
Un rapide coup d’œil sur ces deux tableau permet de voir par exemple que,
dans l’échantillon observé, 13 femmes qui sont à la fois pour “both parents
work equally ” et “stay at home”. Sous l’hypothèse d’indépendance des deux
variables, on aurait observé à peu près 43 au lieu de 13. Étant donnée que
la valeur de l’effectif observé est très loin de la valeur théorique, il y a lieu
de douter de l’hypothèse d’indépendance.
Cela était plutôt attendu, puisque les réponses “both parents work equally ”
et “stay at home” sont incompatibles.
On constate également que 241 femmes sont à la fois pour “only the hus-
band works” et “stay at home”, cet effectif est largement supérieur à 149.6,
l’effectif théorique sous l’indépendance. Là encore, on pouvait s’y attendre.
En effet, les réponses“stay at home” et “only the husband works” expriment
pratiquement la même opinion. Ainsi pour une personne qui est pour ‘stay
at home”, on doit s’attendre à ce qu’elle soit pour“only the husband works”.
D’un autre coté, on a observé 573 femmes qui sont à la fois pour “only the
husband works” et ‘part-time work”. Sous l’hypothèse d’indépendance, cet
effectif devrait être autour de 591.5. Ces deux effectifs sont très voisins,
et par conséquent on pourrait conclure que ces deux réponses sont indé-
pendantes. En fait elles ne le sont pas. En réalité elles sont “légèrement”
incompatibles. Le grand effectif 573 peut être tout simplement expliqué par
le fait que les deux réponses, considérées séparément, ont des fréquences
assez grandes (respectivement 52.7% et 65.1%).
Cette statistique suit une loi de χ2(I −1)(J−1) , où I et J désignent le nombre
de lignes et de colonnes de la table de contingence.
L’hypothèse d’indépendance est rejetée pour les grandes valeur de χ2 .
A. Zoglat (FSR) AFC Automne 19 14 / 42
Indépendance et Analyse des Correspondances
fij
∀i, j = f•j .
fi•
fij
Le rapport est la probabilité conditionnelle d’avoir l’attribut j (pour la
fi•
variable colonnes) sachant qu’on a l’attribut i (pour la variable lignes). Ainsi,
on a indépendance lorsque les probabilités conditionnelles sont égales aux
probabilités marginales.
Notons que l’indépendance est une notion symétrique et par conséquent,
fij
l’expression ci-dessus est équivalente à : ∀i, j = fi• .
f•j
Dans une table de contingence les lignes et les colonnes jouent des rôles
symétriques. C’est l’une des différences majeures entre l’AFC et l’ACP où
les lignes/individus et les colonnes/variables ne sont pas analysés de la même
manière : On considère les distances entre les individus et les corrélations
entre les variables.
En AFC on construit le nuage des profils par colonne de la même manière
que pour les profils par ligne.
Alors que l’inertie de la colonne j par rapport au point GJ est donnée par :
I
X 1 fij 2
Inertie(j|GJ ) = f•j dχ22 (j, GJ ) = f•j
fi• f•j − fi•
i=1
2
I
X fij − fi• f•j
= .
fi• f•j
i=1
Remarquons que l’inertie totale des profils par ligne et égale à l’inertie totale
des profils par colonne.
A. Zoglat (FSR) AFC Automne 19 24 / 42
fij
Lorsqu’il y a indépendance ( = fi• ), alors les profils lignes sont confondus
f•j
avec leur centre de gravité, et par conséquent l’inertie du nuage est nulle.
Il en est de même pour le nuage des profils colonnes.
Plus les variables s’écartent de l’indépendance et plus les profils s’écartent
de l’origine.
I
X I
X
Inertie(NI , GI ) = Inertie(i, GI ) = fi• dχ22 (i, GI )
i=1 i=1
I J
X 1 fij
hX 2 i
= fi• − f•j
f•j fi•
i=1 j=1
2
X fij − fi• f•j
= = φ2 .
fi• f•j
i,j
De même on a Inertie(NJ , GJ ) = φ2 .
La quantité φ2 mesure l’intensité de la liaison.
Étudier l’inertie de NI revient à étudier l’écart à l’indépendance.
L’inertie porté par us est maximale et vaut λs qui est aussi la valeur propre
associée à us .
Le nuage des profils lignes est dans RJ donc il engendre un espace de di-
mension inférieure ou égale à J. On doit toutefois tenir compte des deux
faits suivants :
- “Only the husband works” plus souvent que la moyenne (84.9% alors
que la moyenne est de 52.7%.)
À l’opposé, les femmes qui ont répondu “full-time work” sont favorables à
- “Both work equally ” bien plus souvent que la moyenne (33.4% alors
que la moyenne est de 15.1%.)
Cette opposition des profils est l’aspect le plus important de l’écart à l’in-
dépendance dans la table de contingence.
Nous pouvons voir, à partir de cette projection simultanée des nuages des
profils, que les lignes et les colonnes soit étroitement liées.
- Le premier signe de cette liaison a déjà été constaté via l’égalité des
inerties totales des lignes et des colonnes. Cela indique, en particulier,
que l’étude des profils lignes et celle des profils colonnes sont
identiques.
où Fs (i) est la coordonnée du i ème profil ligne sur le s ème axe dans
RJ , et λs est la projection de l’inertie du nuage NI sur cet axe.
Notons que l’origine des axes principaux coı̈ncide avec les barycentres des
deux nuages. Ainsi, lorsque les coordonnées d’un profil ligne i sont positives,
ce dernier est généralement plus corrélé avec les profils colonne j dont les
coordonnées sont positives.