Vous êtes sur la page 1sur 4

Analyse de données Analyse multivariée

SECTION 4 ANALYSE FACTORIELLE DES CORRESPONDANCES

L’analyse factorielle des correspondances (AFC) ou analyse des correspondances


simples, est une méthode exploratoire d’analyse des tableaux de contingence développée
essentiellement par Jean-Paul Benzecri à l'Université Pierre-et-Marie-Curie à Paris (ISUP et
Laboratoire de statistique multidimensionnelle) durant la période 1970-1990. Elle est
particulièrement adaptée à l’étude des tableaux de contingence, à laquelle elle fournit un outil
puissant. Les tableaux de contingence sont des tableaux croisés qui ventilent les individus d’une
population selon deux caractères nominaux.

L’AFC permet de répondre à deux questions :


- Y’a-t-il un lien entre les deux caractères étudiés
- Si oui, comment se comporte un facteur par rapport à l’autre facteur ?

L’algorithme de détermination des axes factoriels s’applique au tableau des données une
fois exprimées en pourcentage en rapportant chaque effectif Kij à l’effectif total K.

Le problème de l’AFC est d’évaluer la proximité des lignes et les profils des colonnes :
c’est ainsi qu’est apprécié la liaison – la correspondance – entre les deux variables.

Il s’agit par conséquent d’analyser la forme des liaisons et non leur intensité. C’est
pourquoi l’AFC utilise pour mesurer les écarts entre profils la distance X2 (khi –deux) qui offre
de ce point de vue deux avantages importants :

- Parce qu’elle est pondérée, elle gomme les effets de taille liés aux mesures des Kij : la
détermination des axes factoriels ne subit pas (comme cela peut être le cas en ACP)
l’influence déformante des différences importantes entre les valeurs Kij ;
- Parce qu’elle présente la propriété de l’équivalence distributionnelle, elle permet de
réduire les données en regroupant les colonnes (ou lignes) qui présentent un profil
équivalent sans pour autant modifier les distances mutuelles entre les lignes (ou
colonnes).

Rappelons enfin que dans la mesure où les lignes et les colonnes ont même statut, leur
représentation graphique simultanée ne soulève en AFC aucune restriction : sont ainsi mises en
évidence non seulement les proximités de profils de lignes comme de colonnes, mais aussi les
relations privilégiées pouvant exister entre lignes et colonnes, c'est-à-dire entre les deux
variables croisées.

Pr Mohammed BEN AMAR


Analyse de données Analyse multivariée

I- Détermination des dimensions d’une AFC

On définit une correspondance entre deux ensembles finis I et J par la donnée d’une loi
de probabilité PIJ sur le produit I × J. Dans une application pratique, on ne dispose pas de PIJ
mais seulement de la distribution des fréquences empiriques fIJ observée sur une population
concrète E.

1- Généralités

Considérons donc une population E d’effectif K répartie selon les deux caractères
qualitatifs I et J, possédant respectivement N et K modalités (N et K finis). Nous noterons KIJ
le tableau de contingence qui donne la ventilation de E selon le croisement I × J des deux
caractères ; c’est un tableau à N lignes et K colonnes, de terme courant Kij.

Un tableau de contingence se présente en général comme suite :

2- Réductions des données

Il s’agit de ramener le tableau des effectifs à un tableau des fréquences. Les fréquences
sont calculées par :

𝑛𝑛𝑛𝑛𝑛𝑛 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑑𝑑𝑑𝑑 𝑙𝑙𝑙𝑙 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 (𝑖𝑖, 𝑗𝑗)


𝑓𝑓𝑓𝑓𝑓𝑓 = =
𝑛𝑛. . 𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡

3- Elaboration de la matrice de variance-covariance

L’analyse factorielle d’un tel nuage de points nécessite que l’on diagonalise la matrice
V, appelée matrice des variance-covariance.

Le tableau de valeur dont on recherche les valeurs propres et vecteurs propres est un
objet mathématiques "compliqué", qui ne possède pas de signification intuitive immédiate. De

Pr Mohammed BEN AMAR


Analyse de données Analyse multivariée

𝑓𝑓𝑓𝑓𝑓𝑓
fait, on part de la X dont le terme à l’intersection de la ligne i et de la colonne j vaut : et
�𝑓𝑓𝑓𝑓.𝑓𝑓.𝑗𝑗
on calcule des produits scalaires entre lignes (ou entre colonnes) de cette matrice.

V = X’X

X’ est la matrice transposée de X.

Reste à identifier les valeurs propres et les vecteurs propres de V, et à projeter les points Xi
sur les vecteurs propres

4- Diagonalisation

Le calcul des valeurs propres, des vecteurs propres et des vecteurs propres normés se fait
de la même manière que pour une analyse des composantes principales (voir chapitre I).

Remarque : En analyse des correspondances, le premier facteur (noté λ0) correspond au


tableau d’indépendance. Comme en général on s’intéresse aux écarts à l’indépendance, on ne
prend pas en compte ce facteur et on l’appelle facteur trivial ou facteur zéro, réservant le numéro
un pour la première approximation des écarts à l’indépendance.

Le nombre de valeurs propres produites par la recherche des facteurs principaux est égal
au minimum du nombre de colonnes du tableau de contingence. La première valeur propre est
systématiquement égale à 1 et n’est pas mentionnée dans les résultats. Les autres valeurs
propres sont des nombres positifs inférieurs à 1 et leur somme est égale à la trace de V.

5- Calcul des coordonnées des points sur les axes factoriels

- Calcul des coordonnées des points-lignes :

Pour calculer les coordonnées des points-lignes, on utilise la relation suivante :

𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑔𝑔é𝑛𝑛é𝑟𝑟𝑟𝑟𝑟𝑟 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑔𝑔é𝑛𝑛é𝑟𝑟𝑟𝑟𝑟𝑟


� 𝑓𝑓𝑓𝑓𝑓𝑓 � × � 𝑈𝑈𝑈𝑈𝑈𝑈 �
𝑓𝑓𝑓𝑓 • �𝑓𝑓 • 𝑗𝑗

Avec :
fij : Intersection de la colonne i avec la ligne i sur le tableau des données réduites à l’unité.

fi • : Total de la ligne i
Ujk : Vecteurs propres normés
f • j: Total de la colonne j

- Calcul des coordonnées des points-colonnes :

Ces coordonnées sont obtenues en multipliant chaque élément de la matrice de terme


𝑈𝑈𝑈𝑈𝑈𝑈
général par la racine carrée de la valeur propre correspondante.
�𝑓𝑓•𝑗𝑗

Pr Mohammed BEN AMAR


Analyse de données Analyse multivariée

II- Représentation graphique

Contrairement à l’analyse en composantes principales, où on effectue habituellement


des graphiques séparés pour les individus et les variables, l’AFC utilise une représentation
graphique simultanée des points lignes et des points colonnes dans un plan factoriel, elle met
en correspondance les liens éventuels entre les modalités des deux caractères étudiés.

III- Interprétation des résultats de l’AFC


1- Forme générale du nuage
L’inertie totale est un indicateur de la dispersion totale du nuage. La comparaison des
inerties de chacun des axes (c'est-à-dire des valeurs propres associées aux axes) renseigne sur
la forme du nuage de points. Si les premières valeurs propres sont proches les uns des autres, la
dispersion est relativement homogène : il n’y a pas vraiment de direction privilégiée et le nuage
de points est approximativement sphérique. Si au contraire, les valeurs propres sont nettement
différentes, cela traduit un nuage de points fortement allongée selon une (ou plusieurs)
direction.
2- Interprétation des distances
Dans une représentation graphique de l’AFC, la proximité de deux points lignes ou de
deux points colonnes traduit la similitude des profils, c'est-à-dire des distributions
conditionnelles, relatifs à ces deux lignes ou à ces deux colonnes.
En pratique, on repère en premier lieu les points lignes et les points colonnes qui ont
une forte contribution aux facteurs utilisés pour la représentation graphique et qui ont, en même
temps, une qualité de représentation satisfaisante. Pour ces points, on examine alors les
projections sur les axes et plus particulièrement le signe de ces projections, de manière à mette
en évidence les éventuelles conjonctions ou opposition.
3- Situations où il vaut mieux éviter d’utiliser l’AFC
L’AFC peut être utilisée dans des situations variées, y compris sur des données qui ne
constituent pas strictement un tableau de contingence. En revanche, il existe des situations où
il vaut mieux s’abstenir d’utiliser cette méthode :
- L’AFC mettra toujours en évidence les attractions-répulsions entre modalités lignes et
modalités colonne. Mais, lorsqu’on travaille sur un échantillon et que le X2 du tableau de
contingence n’est pas significatif, l’effet mis en évidence n’est rien d’autre que le fruit du
hasard.
- L’AFC n’a d’intérêt que si l’étude porte sur les liaisons existant entre lignes et colonnes. Au
contraire, s’il s’agit de faire un classement multicritère sur un ensemble d’objets statistiques,
la méthode ne fournit aucun résultat pertinent.
L'analyse factorielle des correspondances AFC développée par Jean-Paul Benzecri et ses
collaborateurs emploie la métrique du X2 : chaque ligne est affectée d'une masse qui est sa
somme marginale, le tableau étudié est le tableau des profils des lignes, ce qui permet de
représenter dans le même espace à la fois les deux nuages de points associés aux lignes et aux
colonnes du tableau de données ; elle est par ailleurs très agréablement complétée par des outils
de classification ascendante hiérarchique (CAH) qui permettent d'apporter des visions
complémentaires, en particulier en construisant des arbres de classification des lignes ou des
colonnes.

Pr Mohammed BEN AMAR

Vous aimerez peut-être aussi