Vous êtes sur la page 1sur 36

Analyse factorielle des correspondances (AFC)

Analyse factorielle des correspondances (AFC)


L’analyse des correspondances est une méthode statistique utilisée
pour étudier la relation entre deux variables qualitatives.
L’Analyse Factorielle des Correspondances (AFC) est une méthode
qui permet d’étudier l’association entre deux variables qualitatives.
Cette méthode est basée sur l’inertie.
Le but de l’Analyse Factorielle des Correspondances consiste à
représenter un maximum de l’inertie totale sur le premier axe
factoriel, un maximum de l’inertie résiduelle sur le second axe, et
ainsi de suite jusqu’à la dernière dimension.
Les approches de l’AFC

Les approches de l’Analyse Factorielle des Correspondances sont


proposées :
▶ Analyse Factorielle des Correspondances classique (AFC)
▶ Analyse Non Symétrique des Correspondances (ANSC)
L’Analyse Non Symétrique des Correspondances (ANSC)
proposée par Lauro et D’Ambra (1984) permet d’étudier
l’association entre les lignes et les colonnes d’un tableau de
contingence tout en introduisant la notion de dépendance
entre les lignes et les colonnes, d’où l’asymétrie.
Les approches de l’AFC

▶ Analyse Factorielle des Correspondances utilisant la


distance de Hellinger (HD)
L’analyse d’un sous-ensemble de modalités (ou catégories),
est une méthode très récemment mise au point par Greenacre
et Pardo (2006), qui permet de focaliser l’étude sur quelques
catégories uniquement, tout en prenant en compte toutes les
données du tableau de contingence grâce au maintien des
sommes marginales du tableau. Sur des tableaux de taille
importante cela permet de découper l’analyse en plusieurs
sous-analyses.
Les approches de l’AFC

▶ Analyse des Correspondances Détendancée (ACD)


L’Analyse des Correspondances Détendancée (ACD) est une
méthode proposée par Hill et Gauch (1980), principalement
utilisée sur des données écologiques. L’objectif de cette
méthode est de corriger deux inconvénients rencontrés lors de
l’utilisation de l’AFC classique : l’ ”effet d’arc” et la
compression des distances entre les points se trouvant aux
extrémités des axes.
Principe

Le principe de ces méthodes est de partir sans a priori sur les


données et de les décrire en analysant la hiérarchisation de
l’information présente dans les données. Pour ce faire, les analyses
factorielles étudient l’inertie du nuage de points ayant pour
coordonnées les valeurs présentes sur les lignes du tableau de
données.
Principe
La morphologie du nuage et la répartition des points sur chacun
de ces axes d’inertie permettent alors de rendre lisible et
hiérarchiser l’information contenue dans le tableau.
Mathématiquement, après avoir centré et réduit le tableau de
données que l’on a affecté d’un système de masse (par exemple, les
sommes marginales de chaque ligne), on calcule la matrice d’inertie
associée et on la diagonalise (la répartition de l’information selon
les différents axes est représentée par l’histogramme des valeurs
propres). On effectue alors un changement de base selon ses
vecteurs propres, c’est-à-dire selon les axes principaux d’inertie du
nuage de points. On projette alors les points figurant chaque ligne
sur les nouveaux axes. L’ensemble de l’information est conservée,
mais celle-ci est maintenant hiérarchisée, axe d’inertie par axe
d’inertie. L’histogramme des valeurs propres permet de voir le type
de répartition de l’information entre les différents axes et l’étendue
en dimension de celle-ci.
Principe

Le premier axe d’inertie oppose les points, c’est-à-dire les lignes du


tableau ayant les plus grandes distances ou différences . La
première valeur propre d’inertie, (associée à ce premier axe) mesure
la quantité d’information présente le long de cet axe, c’est-à-dire
dans cette opposition. On analyse ainsi les différents axes, en
reconstituant progressivement la totalité des données.
Plusieurs méthodes d’analyse des correspondances existent, qui
diffèrent par le type de représentation de l’information, c’est-à-dire
de métrique, ou de système de masse qu’elles utilisent.
Principe

L’analyse factorielle des correspondances AFC développée par


Jean-Paul Benzecri et ses collaborateurs emploie la métrique du
chi-deux : chaque ligne est affectée d’une masse qui est sa somme
marginale, le tableau étudié est le tableau des profils des lignes, ce
qui permet de représenter dans le même espace à la fois les deux
nuages de points associés aux lignes et aux colonnes du tableau de
données ; elle est par ailleurs très agréablement complétée par des
outils de classification ascendante hiérarchique (CAH) qui
permettent d’apporter des visions complémentaires, en particulier
en construisant des arbres de classification des lignes ou des
colonnes.
Principe

Pour chaque point représentatif des lignes ou des colonnes du


tableau de données, nouvel axe par nouvel axe, on s’intéresse à ses
nouvelles coordonnées, au cosinus carré de l’angle avec l’axe (ce
qui est équivalent à un coefficient de corrélation), ainsi qu’à sa
contribution à l’inertie expliquée par l’axe (c’est-à-dire à sa
contribution à la création de l’axe).
Principe

Deux contraintes particulières sur les données sont à signaler :


d’une part, les tableaux ne peuvent comporter de cases vides et
d’autre part, seules des valeurs positives sont permises. De plus,
compte tenu de la métrique du chi-deux employée par l’AFC, cette
méthode accorde une importance plus grande aux lignes de somme
marginale élevée. Si nous utilisons des tableaux quantitatifs et
souhaitons équilibrer la contribution de chaque ligne au calcul de
l’inertie, nous devons transformer le tableau pour assurer à chaque
ligne une somme marginale égale. Pour ce faire, on peut dédoubler
chaque ligne, en lui adjoignant un tableau de complément.
Principe

Par l’AFC, il est tout autant possible d’analyser des tableaux


contenant des mesures quantitatives que des indications
qualitatives, (par exemple une donnée couleur ), ces deux types ne
pouvant être mélangés. Un cas particulier de la deuxième catégorie
de tableau est constituée par les tableaux disjonctifs ; plusieurs
variables constituent les colonnes : elles sont toutes découpées en
plusieurs modalités, dont une et une seule est vraie par individu.
Lors d’une analyse factorielle, on peut rajouter des données
supplémentaires , c’est-à-dire que l’on ne fait pas intervenir dans le
calcul de l’inertie, mais que l’on projette sur les axes.
Résultats de l’AFC

▶ Tableau de contingence : le tableau de contingence est


affiché. Le diagramme en bâtons en 3 dimensions en est la
représentation graphique. Inertie par case : le tableau des
inerties par case est affiché. La somme des inerties est égale à
la statistique du khi² divisée par la fréquence totale (somme
des cellules du tableau de contingence).
Résultats de l’AFC

▶ Test d’indépendance entre les lignes et les colonnes : ce


test permet de déterminer, sur la base de la statistique du
khi², si l’on doit rejeter l’hypothèse nulle selon laquelle les
lignes et les colonnes du tableau sont indépendantes. Une
interprétation détaillée est fournie automatiquement.
▶ Valeurs propres et pourcentages d’inertie :les valeurs
propres et le graphique (scree plot) correspondant sont
affichés. Seules les valeurs propres non triviales sont affichées.
Si un filtrage a été demandé, il est appliqué aux résultats qui
suivent.
Résultats de l’AFC

▶ Remarque : la somme des valeurs propres affichées est égale


à l’inertie totale. A chaque valeur propre correspond un axe
principal représentant un pourcentage donné de l’inertie
totale. On peut ainsi mesurer le pourcentage cumulé d’inertie
totale correspondant à un nombre croissant de dimensions.
Résultats graphiques pour l’AFC

Les graphiques constituent le but ultime de l’Analyse Factorielle


des Correspondances, car ils permettent d’accélérer
considérablement l’interprétation des résultats.
Résultats graphiques pour l’AFC

▶ Graphiques symétriques : aussi appelés représentations


barycentriques, ces graphiques utilisent exclusivement les
coordonnées principales. En fonction des choix effectués dans
la boı̂te de dialogue, sont affichés, un graphique symétrique
mélangeant points-lignes et points-colonnes, un graphique des
points-lignes, et un graphique des points-colonnes. Le
pourcentage d’inertie correspondant à chacun des axes
concernés et le pourcentage d’inertie cumulée du graphique
sont affichés. La proximité entre deux modalités sur le
graphique est représentative de leur association.
Résultats graphiques pour l’AFC
▶ Graphiques asymétriques : aussi appelés représentations
pseudo-barycentriques, ces graphiques utilisent d’une part les
coordonnées principales (pour les points-lignes ou les
points-colonnes) et d’autre part les coordonnées standard
(respectivement pour les points-colonnes ou les points-lignes).
Le pourcentage d’inertie correspondant à chacun des axes
concernés et le pourcentage d’inertie cumulée du graphique
sont affichés. Le nom du graphique, par exemple graphique
asymétrique des lignes indique les points qui font l’objet
d’une interprétation : sur un graphique asymétrique des lignes
, on étudiera la façon dont les points lignes sont positionnés
par rapport aux vecteurs des modalités, ces derniers donnant
des directions. Si deux points-lignes sont dans la direction
d’un vecteur modalité, la modalité correspondant au
point-ligne qui est le plus éloigné de l’origine est celle qui est
la plus liée à la modalité correspondant au vecteur.
Résultats graphiques pour l’AFC

▶ Biplots de contribution : ces biplots, mis au point par


Greenacre, permettent d’éviter certains problèmes des
graphiques asymétriques, tout en faisant ressortir les points
contribuant le plus à la construction de l’axe (les
points-colonnes dans le cas d’un biplot de contribution sur les
lignes et vice-versa).
LES DONNÉES A MANIPULER

On considére n individus et deux variables V1 et V2.


On désigne par Xpq la modalités de la variable Vq pour l’individus
p tq : p = 1...n et q = 1,2
On cherche la laison entre V1 et V2.

individus V1 V2
ind1 X11 X12
ind2 X21 X22
.. .. ..
. . .
indp Xp1 Xp2
.. .. ..
. . .
indn Xn1 Xn2
TABLEAU DE CONTINGENCE

on note les k modalités de la 1ére variable 1 par :


m11 , m12 , ..., m1k .
on note les p modalités de la 2ème variable 2 par :
m21 , m22 , ..., m1p .
on construit alors un tableau de contingence (tableau croisée) :
TABLEAU DE CONTINGENCE

m21 m22 ... m2j ... m2p


m11 n11 n12 ... n1j ... n1p
m12 n21 n22 ... n2j ... n2p
..
. ... ... ... ... ... ...
m1i ni1 ni2 ... nij ... nip
..
. ... ... ... ... ... ...
m1k nk1 nk2 ... nkj ... nkp

nij désigne le nombre des individus posséde à la fois la modalité


m1i et la modalitéPm2
Pj .
On vois que : n= nij tq :i=1,..,k , j=1,..,p
Exemple

On s’intéresse à la relation entre la couleur des yeux et la couleur


des cheveux de 484 sujets féminins. Les données s’inspirent de
l’article de Snee (1974) Les données sont résumées dans le tableau
(tableau de contingence)

chatains Roux Blonds


Marrons 119 26 7 152
Noisettes 54 14 10 78
Verts 29 14 16 59
Bleus 84 17 94 195
286 71 127
FRÉQUENCES RELATIVES ET MARGES
▶ Comme les fréquences sont proportionnelles à la taille de
l’échantillon, il est souvent plus pertinent de travailler avec le
tableau de fréquences relatives. dans lequl :

fij = nij ÷ n••

▶ Nous aurons aussi besoin de la somme des colonnes pour


chaque ligne et de la somme des lignes pour chaque colonne,
ce qu’on appelle les marges du tableau :
p
X
fi· = fij
j=1

n
X
f·j = fij
i=1
FRÉQUENCES RELATIVES ET MARGES

Exemple: le tableau des fréquences relatives et marges de


l’exemple précédent :

chatains Roux Blonds Cm


Marrons 0.25 0.05 0.01 0.31
Noisettes 0.11 0.03 0.02 0.16
Verts 0.06 0.03 0.03 0.12
Bleus 0.17 0.04 0.19 0.4
Lm 0.59 0.15 0.25 1

on peut écrire les Fréquences relatives et les marges sous forme


matricielle
FRÉQUENCES RELATIVES ET MARGES

0.25 0.05 0.01 0.31


0.59
0.11 0.03 0.02 0.16
F= ,Cm = ,Lm = 0.15
0.06 0.03 0.03 0.12
0.25
0.17 0.04 0.19 0.4
PROFILS

Profils lignes : Li = (ni1 /ni• , ...., nip /ni• )


▶ On l’obtient en divisant chaque valeur par le total de la ligne
correspondant. En termes matriciels, on a : L = Di−1 F
tq : Di est la matrice diagonale contient les fi
Profils colonne : Cj = (n1j /n•j , ...., nnj /n•j )
▶ On l’obtient en divisant chaque valeur par le total de la
colonne correspondant. En termes matriciels, on a :
L = Dj−1 F t
tq : Dj est la matrice diagonale contient les fj
DISTANCES ENTRE LES PROFILS

On peut mesurerPp la distance entre2 deux profils-lignes par :


2 ′
d (i, i ) = j=1 (fij /fi• − fi ′ j /fi′• )
▶ cette distance ne tient pas compte de l’importance de chaque
colonne.
▶ Un choix plus judicieux consiste à prendre la distance du khi
deux, qui tientP compte de l’importance de chaque colonne.
d 2 (i, i ′ ) = pj=1 1/f•j (fij /fi• − fi ′ j /fi′• )2
Exemple :
▶ La distance euclidienne entre les lignes 1 (yeux marrons) et 2
(yeux noisettes) est de 0.02
▶ La distance du khi deux est de 0.04 .
INDÉPENDANCE

▶ On dit que deux variables aléatoires et sont indépendantes


quand :
P(x, y ) = P(x) × P(y )
▶ ou bien :
fij = fi• × f•j
▶ L’hypothèse de l’indépendance entre X et Y est souvent testée
à l’aide d’un test du KHI 2
▶ H0 :les deux variables sont indépendantes.
▶ H1 :les deux variables ne sont pas indépendantes.
TEST D’INDÉPENDANCE DE KHI 2
▶ L’indépendance de KHI 2 est testée par calculer l’écart entre
effectifs observés(nij ) et effectifs théoriques (nfi • fj •)
p
n X
X
χ2(n−1)(p−1) = (nij − nfi• f•j )2 /nfi• f•j
i=1 j=1

▶ on peut aussi écrire :


p
n X
X
χ2(n−1)(p−1) = n (fij − fi• f•j )2 /fi• f•j
i=1 j=1

où (n − 1)(p − 1) est le degres de liberte


▶ on choisit selon le problème posé ,mais on utilise souvent
α = 0.05
▶ on compare entre χ2 observée et la valeur χ2 du tableau de
loi χ2 (selon et le degrés de liberté)
▶ si χ2obs > χ2critique . on rejette l’hypothése d’indépendance(H0 ) .
TEST D’INDÉPENDANCE DE KHI 2
on utilisons l’exemple précédent :
▶ données observées (nij )

chatains Roux Blonds


Marrons 119 26 7
Noisettes 54 14 10
Verts 29 14 16
Bleus 84 17 94

▶ données théoriques (nfi• fj• )

chatains Roux Blonds


Marrons 88.52 22.51 37.51
Noisettes 45.69 11.62 19.36
Verts 34.27 8.71 14.52
Bleus 114.22 29.04 48.4
TEST D’INDÉPENDANCE DE KHI 2

Pn Pp
▶ χ2(n−1)(p−1) = i=1 j=1 (nij − nfi• f•j )2 /nfi• f•j = 97.82
▶ on compare le resultat avec la valeur du tableau de loi KHI 2
tq α = 0.05 et le degrés de liberté (n − 1)(p − 1)= 6
▶ on a : χ2obs = 97.82 > χ2critique = 12.59
on peut conclure que la couleur des yeux et des cheveux ne
sont pas indépendantes.
LES COMPOSANTES PRINCIPALES

pour trouver les composantes principales (pour les profils lignes et


colonnes),on passe par les étapes suivantes :
−1/2 −1/2
1. Calculer X tq : X = Di (F − Cm Ltm )Dj
2. Calculer S tq : S = X t X .
3. calculer les valeurs propres λs et les vecteurs propres us de S.
4. Calculer les composantes principales (pour les profils lignes) :
Es = Xus .
5. Calculer les composantes principales (pour les profils colonne)

: Gs = λs us
PRÉSENTATION GRAPHIQUE

En utilisons les composantes principales(pour ligne et colonne)on


peut présenter les données dans un graphe .
▶ pour les lignes :les composantes de ligne i sont :

x = Esi1
(1)
y = Esi2

▶ pour les colonnes :les composantes de colonne j sont :



x = Gsi1
(2)
y = Gsi2

Et on conclure d’aprés le plan.


Difference entre ACP et AFC

Ces deux analyses sont similaires car elles sont toutes deux utilisées
pour simplifier la structure d’un ensemble de variables. Toutefois,
des différences importantes sont à noter :
▶ Dans l’analyse en composantes principales, les composantes
sont calculées comme des combinaisons linéaires des variables
d’origine. Dans l’analyse factorielle, les variables d’origine sont
définies en tant que combinaisons linéaires des facteurs.
▶ L’objectif de l’analyse en composantes principales est de
représenter autant que possible la variance totale dans les
variables. L’objectif de l’analyse factorielle est de représenter
les covariances et corrélations entre les variables.
Difference entre ACP et AFC
▶ L’analyse en composantes principales permet de réduire les
données en un nombre inférieur de composantes. L’analyse
factorielle permet de comprendre les constructions
sous-jacentes aux données.
▶ Les deux analyses sont souvent effectuées sur les mêmes
données. Par exemple, vous pouvez effectuer une analyse des
composantes principales pour déterminer le nombre de
facteurs à extraire dans une étude analytique factorielle.
▶ AFC : analyse symétrique qui analyse les profils en ligne et en
colonne.
ACP : analyse dissymétrique qui analyse directement les
données ou les données transformées selon le cas.
Dans l’AFC, les points dans l’espace sont réparti selon la
distance du chi² alors que dans l’ACP il s’agit d’une distance
euclidienne classique.
Inconvénients de l’AFC

▶ les défauts de toute analyse factorielle: déformation inévitable


du nuage durant la projection et la signification ou
interprétation des axes.

Vous aimerez peut-être aussi