Vous êtes sur la page 1sur 42

Analyse Factorielle des Correspondances

Pr. A. Zoglat

FSR

A. Zoglat (FSR) AFC Automne 19 1 / 42


Introduction

- Au chapitre précédent nous avons étudié les liaisons contenues dans


un tableau individus×variables, où ces dernières sont quantitatives. Il
s’agissait de l’Analyse en Composantes Principales (ACP).

- Dans ce chapitre, on se propose d’étudier des liaisons contenues dans


un tableau variables×variables, où toutes les variables sont qualitatives.
Il s’agit ici d’une Analyse Factorielle des Correspondances (AFC).

A. Zoglat (FSR) AFC Automne 19 2 / 42


Introduction

But de l’AFC : Résumer et représenter les principales liaisons pouvant


exister entre les modalités de 2 variables qualitatives .

Méthode : Réduction de la dimension en effectuant la décomposition


factorielle des nuages de points associés aux profils lignes et aux profils
colonnes du tableau de contingence croisant les modalités des deux
variables (L’AFC est une double ACP sur les deux tableaux de profils).

Dans toute la suite, on considère un tableau de deux variables qualitatives


X et Y , observées simultanément sur n individus et telles que :

X a I modalités, Y a J modalités, avec I > J.


A. Zoglat (FSR) AFC Automne 19 3 / 42
Table de contingence
X \Y Y1 Yj YJ Total
X1 n11 n1j n1J n1•

Xi ni1 nij niJ ni•

XI nI 1 nIj nIJ nI •
Total n•1 n•j n•J n••

nij = Nombre d’observations ayant la modalité Xi de X et Yj de Y .


ni• = effectif marginal : Nombre d’observations ayant la modalité Xi de X .
n•j = effectif marginal :Nombre d’observations ayant la modalité Yj de Y .
A. Zoglat (FSR) AFC Automne 19 4 / 42
Introduction

Pour illustrer ce chapitre, nous allons travailler sur un tableau de données


extrait d’un sondage ancien mais remarquable. Le sondage a concerné 1724
femmes qui ont répondu à un long questionnaire qui, entre autres, contenait
des questions sur leurs attitudes à propos du travail des femmes. La fin
des années 1960 marquait un tournant dans l’accès des femmes au travail
(Jusqu’à 1965, les femmes françaises avaient besoin de l’accord de leurs
maris pour travailler.) Plusieurs études sur ce sujet ont été menées pendant
cette période.

A. Zoglat (FSR) AFC Automne 19 5 / 42


Introduction

Voici un extrait du tableau des données issues de ce sondage :

Figure – Tableau des réponses à deux questions d’opinion

Ce tableau est appelé table de contingence.

A. Zoglat (FSR) AFC Automne 19 6 / 42


Introduction

Notons nij l’effectif d’individus ayant la caractéristique i de la première va-


riable catégorielle dont les modalité sont les lignes et la caractéristique j de
la deuxième variable catégorielle dont les modalité sont les colonnes.
On utilisera les notations suivantes :
J
X I
X X
ni• = nij , n•j = nij , n = n•• = nij .
j=1 i=1 i,j

Les probabilités associées à une table de contingence sont définies par fij =
nij /n. on adoptera également les notations suivantes :
J
X I
X X
fi• = fij , f•j = fij , f•• = fij = 1.
j=1 i=1 i,j

A. Zoglat (FSR) AFC Automne 19 7 / 42


Objectifs du modèle d’indépendance Fin du cours du 24 Nov.

Dans l’exemple ci-dessus, la réponse à la question sur la famille idéale montre


clairement que les femmes (en France, en 1970) étaient généralement contre
l’idée de la femme au travail (plus de 52% ont choisi la réponse “only the
husband works”.) Notons toutefois que les femmes sont largement en faveur
de l’idée que la Femme travaille (seulement 16.47% des femmes ont choisi
la réponse “stay at home”.) Il est donc clair que le comptage des réponses
à une seule question peut induire en erreur. On devrait plutôt tenir compte
des réponses à toutes les questions.

A. Zoglat (FSR) AFC Automne 19 8 / 42


Indépendance

La principale raison derrière l’analyse d’une table de contingence est d’étu-


dier l’existence de relations entre les variables. Dans la plupart des tables
que nous considérons en analyse factorielle, de telles relations existent. Il
reste à savoir si elles sont significatives. Pour cela, on a recours au test
d’indépendance de χ2 (khi-deux).
Deux variables qualitatives sont indépendantes si

∀i, j, fij = fi• f•j .

A. Zoglat (FSR) AFC Automne 19 9 / 42


Indépendance

Étudier ces relations revient à comparer les effectifs observés (nij = n fij )
aux effectifs théoriques sous l’indépendance (nij = n fi• f•j ) :

A. Zoglat (FSR) AFC Automne 19 10 / 42


Indépendance

Un rapide coup d’œil sur ces deux tableau permet de voir par exemple que,
dans l’échantillon observé, 13 femmes qui sont à la fois pour “both parents
work equally ” et “stay at home”. Sous l’hypothèse d’indépendance des deux
variables, on aurait observé à peu près 43 au lieu de 13. Étant donnée que
la valeur de l’effectif observé est très loin de la valeur théorique, il y a lieu
de douter de l’hypothèse d’indépendance.
Cela était plutôt attendu, puisque les réponses “both parents work equally ”
et “stay at home” sont incompatibles.

A. Zoglat (FSR) AFC Automne 19 11 / 42


Indépendance

On constate également que 241 femmes sont à la fois pour “only the hus-
band works” et “stay at home”, cet effectif est largement supérieur à 149.6,
l’effectif théorique sous l’indépendance. Là encore, on pouvait s’y attendre.
En effet, les réponses“stay at home” et “only the husband works” expriment
pratiquement la même opinion. Ainsi pour une personne qui est pour ‘stay
at home”, on doit s’attendre à ce qu’elle soit pour“only the husband works”.

A. Zoglat (FSR) AFC Automne 19 12 / 42


Indépendance

D’un autre coté, on a observé 573 femmes qui sont à la fois pour “only the
husband works” et ‘part-time work”. Sous l’hypothèse d’indépendance, cet
effectif devrait être autour de 591.5. Ces deux effectifs sont très voisins,
et par conséquent on pourrait conclure que ces deux réponses sont indé-
pendantes. En fait elles ne le sont pas. En réalité elles sont “légèrement”
incompatibles. Le grand effectif 573 peut être tout simplement expliqué par
le fait que les deux réponses, considérées séparément, ont des fréquences
assez grandes (respectivement 52.7% et 65.1%).

A. Zoglat (FSR) AFC Automne 19 13 / 42


Indépendance

Le test de χ2 utilisé pour tester l’indépendance de deux variables qualitatives


est basé sur la statistique χ2 dont voici l’expression :
2
X Éffectif Observé - Éffectif Théorique
χ2 = ,
i,j
Éffectif Théorique
 2  2
X n fij − n fi• f•j X fij − fi• f•j
= =n
n fi• f•j fi• f•j
i,j i,j

Cette statistique suit une loi de χ2(I −1)(J−1) , où I et J désignent le nombre
de lignes et de colonnes de la table de contingence.
L’hypothèse d’indépendance est rejetée pour les grandes valeur de χ2 .
A. Zoglat (FSR) AFC Automne 19 14 / 42
Indépendance et Analyse des Correspondances

En analyse des correspondances on exprime l’indépendance par l’expression :

fij
∀i, j = f•j .
fi•
fij
Le rapport est la probabilité conditionnelle d’avoir l’attribut j (pour la
fi•
variable colonnes) sachant qu’on a l’attribut i (pour la variable lignes). Ainsi,
on a indépendance lorsque les probabilités conditionnelles sont égales aux
probabilités marginales.
Notons que l’indépendance est une notion symétrique et par conséquent,
fij
l’expression ci-dessus est équivalente à : ∀i, j = fi• .
f•j

A. Zoglat (FSR) AFC Automne 19 15 / 42


Indépendance et Analyse des Correspondances

L’analyse des correspondances prend en considération les deux aspects des


nf o
ij
probabilités conditionnelles en utilisant le profil par ligne ; j = 1, . . . , J ,
f•j
nf o
ij
le profil par colonne ; i = 1, . . . , I , ainsi que les profils moyens par
fi•
variable {fi• ; i = 1, . . . , I } et {f•j ; j = 1, . . . , J}.

A. Zoglat (FSR) AFC Automne 19 16 / 42


Ajustement au nuage de points

Chaque ligne i correspond à un point de RJ dont les coordonnées sont


f f fiJ 
i1 i2
, ,..., . Par analogie avec l’analyse en composante principale,
f•1 f•2 f•J
on peut supposer que les profils lignes sont les individus et les profils colonnes
sont les variables. Voici la représentation du nuage que forment ces points.

A. Zoglat (FSR) AFC Automne 19 17 / 42


Ajustement au nuage de points

Figure – Nuage des profils par ligne

A. Zoglat (FSR) AFC Automne 19 18 / 42


Ajustement au nuage de points

Le nuage de points des profils lignes possède les propriétés suivantes :

- À chaque point i on attribue un poids fi• . Le profil moyen GI est


centre de gravité du nuage.

- La distance entre deux profils i et i 0 , dite distance de χ2 , est obtenue


en pondérant la distance Euclidienne dans RJ :
J
X 1  fij fi 0 j 2
dχ22 (i, i 0 ) = − .
f•j fi• fi 0 •
j=1

A. Zoglat (FSR) AFC Automne 19 19 / 42


Inertie

La justification de cette distance réside dans la propriété suivante : Si on


attribue à i le poids fi• , alors l’inertie de i par rapport à GI est donnée par :
J
X 1  fij 2
Inertie(i|GI ) = fi• dχ22 (i, GI ) = fi• − f•j
f•j fi•
j=1
 2
J
X fij − fi• f•j
= .
fi• f•j
j=1

A. Zoglat (FSR) AFC Automne 19 20 / 42


Inertie

À un facteur multiplicatif près, c’est la contribution de la ligne i dans χ2 .


Ainsi on voit que mesurer la variabilité du nuage par rapport à son centre
de gravité GI revient à mesurer l’indépendance des lignes et des colonnes.
La quantité “Inertie(i|GI )” nous renseigne sur l’intensité de la relation entre
les deux variables de la table de contingence.

A. Zoglat (FSR) AFC Automne 19 21 / 42


Nuage des profils par colonne

Dans une table de contingence les lignes et les colonnes jouent des rôles
symétriques. C’est l’une des différences majeures entre l’AFC et l’ACP où
les lignes/individus et les colonnes/variables ne sont pas analysés de la même
manière : On considère les distances entre les individus et les corrélations
entre les variables.
En AFC on construit le nuage des profils par colonne de la même manière
que pour les profils par ligne.

A. Zoglat (FSR) AFC Automne 19 22 / 42


Nuage des profils par colonne

Figure – Nuage des profils par colonne

A. Zoglat (FSR) AFC Automne 19 23 / 42


Nuage des profils par colonne

La distance entre deux colonnes j et j 0 est donnée par :


I
X 1  fij fij 0 2
dχ22 (j, j 0 ) = − .
fi• f•j f•j 0
i=1

Alors que l’inertie de la colonne j par rapport au point GJ est donnée par :
I
X 1 fij 2
Inertie(j|GJ ) = f•j dχ22 (j, GJ ) = f•j
fi• f•j − fi•
i=1
 2
I
X fij − fi• f•j
= .
fi• f•j
i=1

Remarquons que l’inertie totale des profils par ligne et égale à l’inertie totale
des profils par colonne.
A. Zoglat (FSR) AFC Automne 19 24 / 42
fij
Lorsqu’il y a indépendance ( = fi• ), alors les profils lignes sont confondus
f•j
avec leur centre de gravité, et par conséquent l’inertie du nuage est nulle.
Il en est de même pour le nuage des profils colonnes.
Plus les variables s’écartent de l’indépendance et plus les profils s’écartent
de l’origine.

A. Zoglat (FSR) AFC Automne 19 25 / 42


Écart à l’indépendance et inertie

I
X I
X
Inertie(NI , GI ) = Inertie(i, GI ) = fi• dχ22 (i, GI )
i=1 i=1
I J
X 1  fij
hX 2 i
= fi• − f•j
f•j fi•
i=1 j=1
 2
X fij − fi• f•j
= = φ2 .
fi• f•j
i,j

De même on a Inertie(NJ , GJ ) = φ2 .
La quantité φ2 mesure l’intensité de la liaison.
Étudier l’inertie de NI revient à étudier l’écart à l’indépendance.

A. Zoglat (FSR) AFC Automne 19 26 / 42


Représentation du nuage NI

On cherche un repère orthonormal dans l’espace RJ , dont l’origine est GI et


qui maximise l’inertie. Ce repère est obtenu en effectuant une ACP sur les
profils lignes.
Soit us le vecteur unitaire de la s ème dimension dans RJ et soit His la
projection sur us du profile ligne i. Ainsi us maximise la quantité
I
X 2
fi• OHis = λs .
i=1

L’inertie porté par us est maximale et vaut λs qui est aussi la valeur propre
associée à us .

A. Zoglat (FSR) AFC Automne 19 27 / 42


Dimensions

Le nuage des profils lignes est dans RJ donc il engendre un espace de di-
mension inférieure ou égale à J. On doit toutefois tenir compte des deux
faits suivants :

1- La somme des coordonnées d’un point du nuage est égale à 1. Cela


implique une réduction d’une unité de la dimension.

2- Le nuage NI contient I points qui engendrent un espace de dimension


inférieure ou égale à I − 1.

Ainsi la dimension de l’espace engendré par NI est inférieure ou égale au


min(I − 1, J − 1). On aboutit à la même conclusion à partir du nuage NJ .

A. Zoglat (FSR) AFC Automne 19 28 / 42


Tables des profils

A. Zoglat (FSR) AFC Automne 19 29 / 42


Analyse des résultats de l’AFC

Les deux graphes ci-dessous proviennent de l’analyse factorielle des données


sur l’opinion des femmes à propos des femmes au travail (Tableau ci-dessus.)
Étant donnée la taille de la table de contingence (3 × 3), un plan suffira
pour représenter les nuages des profils lignes ou des profils colonnes. Nous
allons limiter notre interprétation à la première composante.

A. Zoglat (FSR) AFC Automne 19 30 / 42


Représentation des profils colonnes

Figure – Représentation des profils colonnes

A. Zoglat (FSR) AFC Automne 19 31 / 42


Interprétation

Le premier axe oppose les catégories“stay at home”à“full-time work”. Cette


opposition sur le premier axe représente également une opposition en termes
de profils.
En effet les femmes qui ont répondu “stay at home” sont également pour

- “Only the husband works” plus souvent que la moyenne (84.9% alors
que la moyenne est de 52.7%.)

- “Both work equally ” beaucoup moins souvent que la moyenne (4.6%


alors que la moyenne est de 15.1%.)

A. Zoglat (FSR) AFC Automne 19 32 / 42


Interprétation

À l’opposé, les femmes qui ont répondu “full-time work” sont favorables à

- “Only husband works” moins souvent que la moyenne (29.7% alors


que la moyenne est de 52.7%.)

- “Both work equally ” bien plus souvent que la moyenne (33.4% alors
que la moyenne est de 15.1%.)

Cette opposition des profils est l’aspect le plus important de l’écart à l’in-
dépendance dans la table de contingence.

A. Zoglat (FSR) AFC Automne 19 33 / 42


Interprétation

La catégorie“part-time work”est très proche de l’origine (centre de gravité.)


Elle correspond donc à un profil proche du profil moyen. Cela pourra aussi
interprété de la manière suivante :
Les femmes qui sont pour “part-time work” sont indistinguables des autres
femmes. La réponse à cette question ne semble donc pas être “informa-
tive”. C’ est à dire, une femme qui répond être pour “part-time work” est
imprévisible quant à sa réponse aux autre questions.
En résumé, on peut dire que la première composante ordonne les modalités
de la deuxième variable selon l’opposition vis-à-vis du travail des femmes.

A. Zoglat (FSR) AFC Automne 19 34 / 42


Représentation des profils lignes

Figure – Représentation des profils lignes

A. Zoglat (FSR) AFC Automne 19 35 / 42


Représentation des profils lignes

Ici la première composante ordonne les modalité de la variable “Attitude


envers le travail du conjoint seul” de la moins favorable à la plus favorable.
Nous pouvons là aussi appeler cette composante “Attitude envers le travail
des femmes”. Elle est orientée de l’attitude la moins opposée vers la plus
opposée au travail des femmes.

A. Zoglat (FSR) AFC Automne 19 36 / 42


Représentation des deux profils

Figure – Représentation des profils lignes et des profils colonnes

A. Zoglat (FSR) AFC Automne 19 37 / 42


Représentation des deux profils

Nous pouvons voir, à partir de cette projection simultanée des nuages des
profils, que les lignes et les colonnes soit étroitement liées.

- Le premier signe de cette liaison a déjà été constaté via l’égalité des
inerties totales des lignes et des colonnes. Cela indique, en particulier,
que l’étude des profils lignes et celle des profils colonnes sont
identiques.

A. Zoglat (FSR) AFC Automne 19 38 / 42


Représentation des deux profils

- La deuxième relation suggère que la composante de l’inertie du nuage


NI sur une axe donné est la même que celle du nuage NJ :
I J
X 2 X 2
fi• OHis = f•j OHjs = λs .
i=1 j=1

A. Zoglat (FSR) AFC Automne 19 39 / 42


Représentation des deux profils

- La troisième relation, aide à l’interprétation, place les coordonnées des


lignes et des colonnes ensembles sur le même axe principal. Ainsi
J
1 X fij
Fs (i) = √ Gs (j),
λs j=1 fi•
I
1 X fij
Gs (j) = √ Fs (i),
λs i=1 f•j

où Fs (i) est la coordonnée du i ème profil ligne sur le s ème axe dans
RJ , et λs est la projection de l’inertie du nuage NI sur cet axe.

A. Zoglat (FSR) AFC Automne 19 40 / 42


Représentation des deux profils

L’équation ci-dessus exprime que

- Le i ème profil ligne est au barycentre des colonnes, lorsque chaque


fij
colonne j est pondérée par .
fi•
- De même, le j ème profil colonne est au barycentre des lignes, lorsque
fij
chaque ligne i est pondérée par .
f•j
En d’autres termes, chaque ligne (resp. colonne) est proche des colonnes
(resp. lignes) avec lesquelles elle est en relation. Par exemple,“Stay at home”
est du même coté que“Only husband works”et s’oppose aux autres attributs
avec lesquels elle est moins corrélée.

A. Zoglat (FSR) AFC Automne 19 41 / 42


Représentation des deux profils

Notons que l’origine des axes principaux coı̈ncide avec les barycentres des
deux nuages. Ainsi, lorsque les coordonnées d’un profil ligne i sont positives,
ce dernier est généralement plus corrélé avec les profils colonne j dont les
coordonnées sont positives.

A. Zoglat (FSR) AFC Automne 19 42 / 42

Vous aimerez peut-être aussi