Analyse Factorielle-1

Analyse factorielle des correspondances (AFC)
Analyse factorielle des correspondances (AFC)

L’analyse des correspondances est une méthode statistique utilisée
pour étudier la relation entre deux variables qualitatives.
L’Analyse Factorielle des Correspondances (AFC) est une méthode
qui permet d’étudier l’association entre deux variables qualitatives.
Cette méthode est basée sur l’inertie.
Le but de l’Analyse Factorielle des Correspondances consiste à
représenter un maximum de l’inertie totale sur le premier axe
factoriel, un maximum de l’inertie résiduelle sur le second axe, et
ainsi de suite jusqu’à la dernière dimension.
Les approches de l’AFC
Les approches de l’Analyse Factorielle des Correspondances sont

proposées :
▶ Analyse Factorielle des Correspondances classique (AFC)
▶ Analyse Non Symétrique des Correspondances (ANSC)
L’Analyse Non Symétrique des Correspondances (ANSC)
proposée par Lauro et D’Ambra (1984) permet d’étudier
l’association entre les lignes et les colonnes d’un tableau de
contingence tout en introduisant la notion de dépendance
entre les lignes et les colonnes, d’où l’asymétrie.
▶ Analyse Factorielle des Correspondances utilisant la

distance de Hellinger (HD)
L’analyse d’un sous-ensemble de modalités (ou catégories),
est une méthode très récemment mise au point par Greenacre
et Pardo (2006), qui permet de focaliser l’étude sur quelques
catégories uniquement, tout en prenant en compte toutes les
données du tableau de contingence grâce au maintien des
sommes marginales du tableau. Sur des tableaux de taille
importante cela permet de découper l’analyse en plusieurs
sous-analyses.
▶ Analyse des Correspondances Détendancée (ACD)

L’Analyse des Correspondances Détendancée (ACD) est une
méthode proposée par Hill et Gauch (1980), principalement
utilisée sur des données écologiques. L’objectif de cette
méthode est de corriger deux inconvénients rencontrés lors de
l’utilisation de l’AFC classique : l’ ”effet d’arc” et la
compression des distances entre les points se trouvant aux
extrémités des axes.
Principe
Le principe de ces méthodes est de partir sans a priori sur les

données et de les décrire en analysant la hiérarchisation de
l’information présente dans les données. Pour ce faire, les analyses
factorielles étudient l’inertie du nuage de points ayant pour
coordonnées les valeurs présentes sur les lignes du tableau de
données.
Principe
La morphologie du nuage et la répartition des points sur chacun
de ces axes d’inertie permettent alors de rendre lisible et
hiérarchiser l’information contenue dans le tableau.
Mathématiquement, après avoir centré et réduit le tableau de
données que l’on a affecté d’un système de masse (par exemple, les
sommes marginales de chaque ligne), on calcule la matrice d’inertie
associée et on la diagonalise (la répartition de l’information selon
les différents axes est représentée par l’histogramme des valeurs
propres). On effectue alors un changement de base selon ses
vecteurs propres, c’est-à-dire selon les axes principaux d’inertie du
nuage de points. On projette alors les points figurant chaque ligne
sur les nouveaux axes. L’ensemble de l’information est conservée,
mais celle-ci est maintenant hiérarchisée, axe d’inertie par axe
d’inertie. L’histogramme des valeurs propres permet de voir le type
de répartition de l’information entre les différents axes et l’étendue
en dimension de celle-ci.
Principe
Le premier axe d’inertie oppose les points, c’est-à-dire les lignes du

tableau ayant les plus grandes distances ou différences . La
première valeur propre d’inertie, (associée à ce premier axe) mesure
la quantité d’information présente le long de cet axe, c’est-à-dire
dans cette opposition. On analyse ainsi les différents axes, en
reconstituant progressivement la totalité des données.
Plusieurs méthodes d’analyse des correspondances existent, qui
diffèrent par le type de représentation de l’information, c’est-à-dire
de métrique, ou de système de masse qu’elles utilisent.
Principe
L’analyse factorielle des correspondances AFC développée par

Jean-Paul Benzecri et ses collaborateurs emploie la métrique du
chi-deux : chaque ligne est affectée d’une masse qui est sa somme
marginale, le tableau étudié est le tableau des profils des lignes, ce
qui permet de représenter dans le même espace à la fois les deux
nuages de points associés aux lignes et aux colonnes du tableau de
données ; elle est par ailleurs très agréablement complétée par des
outils de classification ascendante hiérarchique (CAH) qui
permettent d’apporter des visions complémentaires, en particulier
en construisant des arbres de classification des lignes ou des
colonnes.
Principe
Pour chaque point représentatif des lignes ou des colonnes du

tableau de données, nouvel axe par nouvel axe, on s’intéresse à ses
nouvelles coordonnées, au cosinus carré de l’angle avec l’axe (ce
qui est équivalent à un coefficient de corrélation), ainsi qu’à sa
contribution à l’inertie expliquée par l’axe (c’est-à-dire à sa
contribution à la création de l’axe).
Principe
Deux contraintes particulières sur les données sont à signaler :

d’une part, les tableaux ne peuvent comporter de cases vides et
d’autre part, seules des valeurs positives sont permises. De plus,
compte tenu de la métrique du chi-deux employée par l’AFC, cette
méthode accorde une importance plus grande aux lignes de somme
marginale élevée. Si nous utilisons des tableaux quantitatifs et
souhaitons équilibrer la contribution de chaque ligne au calcul de
l’inertie, nous devons transformer le tableau pour assurer à chaque
ligne une somme marginale égale. Pour ce faire, on peut dédoubler
chaque ligne, en lui adjoignant un tableau de complément.
Principe
Par l’AFC, il est tout autant possible d’analyser des tableaux

contenant des mesures quantitatives que des indications
qualitatives, (par exemple une donnée couleur ), ces deux types ne
pouvant être mélangés. Un cas particulier de la deuxième catégorie
de tableau est constituée par les tableaux disjonctifs ; plusieurs
variables constituent les colonnes : elles sont toutes découpées en
plusieurs modalités, dont une et une seule est vraie par individu.
Lors d’une analyse factorielle, on peut rajouter des données
supplémentaires , c’est-à-dire que l’on ne fait pas intervenir dans le
calcul de l’inertie, mais que l’on projette sur les axes.
Résultats de l’AFC
▶ Tableau de contingence : le tableau de contingence est

affiché. Le diagramme en bâtons en 3 dimensions en est la
représentation graphique. Inertie par case : le tableau des
inerties par case est affiché. La somme des inerties est égale à
la statistique du khi² divisée par la fréquence totale (somme
des cellules du tableau de contingence).
▶ Test d’indépendance entre les lignes et les colonnes : ce

test permet de déterminer, sur la base de la statistique du
khi², si l’on doit rejeter l’hypothèse nulle selon laquelle les
lignes et les colonnes du tableau sont indépendantes. Une
interprétation détaillée est fournie automatiquement.
▶ Valeurs propres et pourcentages d’inertie :les valeurs
propres et le graphique (scree plot) correspondant sont
affichés. Seules les valeurs propres non triviales sont affichées.
Si un filtrage a été demandé, il est appliqué aux résultats qui
suivent.
▶ Remarque : la somme des valeurs propres affichées est égale

à l’inertie totale. A chaque valeur propre correspond un axe
principal représentant un pourcentage donné de l’inertie
totale. On peut ainsi mesurer le pourcentage cumulé d’inertie
totale correspondant à un nombre croissant de dimensions.
Résultats graphiques pour l’AFC
Les graphiques constituent le but ultime de l’Analyse Factorielle

des Correspondances, car ils permettent d’accélérer
considérablement l’interprétation des résultats.
▶ Graphiques symétriques : aussi appelés représentations

barycentriques, ces graphiques utilisent exclusivement les
coordonnées principales. En fonction des choix effectués dans
la boı̂te de dialogue, sont affichés, un graphique symétrique
mélangeant points-lignes et points-colonnes, un graphique des
points-lignes, et un graphique des points-colonnes. Le
pourcentage d’inertie correspondant à chacun des axes
concernés et le pourcentage d’inertie cumulée du graphique
sont affichés. La proximité entre deux modalités sur le
graphique est représentative de leur association.
▶ Graphiques asymétriques : aussi appelés représentations
pseudo-barycentriques, ces graphiques utilisent d’une part les
coordonnées principales (pour les points-lignes ou les
points-colonnes) et d’autre part les coordonnées standard
(respectivement pour les points-colonnes ou les points-lignes).
Le pourcentage d’inertie correspondant à chacun des axes
concernés et le pourcentage d’inertie cumulée du graphique
sont affichés. Le nom du graphique, par exemple graphique
asymétrique des lignes indique les points qui font l’objet
d’une interprétation : sur un graphique asymétrique des lignes
, on étudiera la façon dont les points lignes sont positionnés
par rapport aux vecteurs des modalités, ces derniers donnant
des directions. Si deux points-lignes sont dans la direction
d’un vecteur modalité, la modalité correspondant au
point-ligne qui est le plus éloigné de l’origine est celle qui est
la plus liée à la modalité correspondant au vecteur.
▶ Biplots de contribution : ces biplots, mis au point par

Greenacre, permettent d’éviter certains problèmes des
graphiques asymétriques, tout en faisant ressortir les points
contribuant le plus à la construction de l’axe (les
points-colonnes dans le cas d’un biplot de contribution sur les
lignes et vice-versa).
LES DONNÉES A MANIPULER
On considére n individus et deux variables V1 et V2.

On désigne par Xpq la modalités de la variable Vq pour l’individus
p tq : p = 1...n et q = 1,2
On cherche la laison entre V1 et V2.
individus V1 V2
ind1 X11 X12
ind2 X21 X22
.. .. ..
. . .
indp Xp1 Xp2
.. .. ..
. . .
indn Xn1 Xn2
TABLEAU DE CONTINGENCE
on note les k modalités de la 1ére variable 1 par :

m11 , m12 , ..., m1k .
on note les p modalités de la 2ème variable 2 par :
m21 , m22 , ..., m1p .
on construit alors un tableau de contingence (tableau croisée) :
TABLEAU DE CONTINGENCE
m21 m22 ... m2j ... m2p

m11 n11 n12 ... n1j ... n1p
m12 n21 n22 ... n2j ... n2p
..
. ... ... ... ... ... ...
m1i ni1 ni2 ... nij ... nip
..
. ... ... ... ... ... ...
m1k nk1 nk2 ... nkj ... nkp
nij désigne le nombre des individus posséde à la fois la modalité

m1i et la modalitéPm2
Pj .
On vois que : n= nij tq :i=1,..,k , j=1,..,p
Exemple
On s’intéresse à la relation entre la couleur des yeux et la couleur

des cheveux de 484 sujets féminins. Les données s’inspirent de
l’article de Snee (1974) Les données sont résumées dans le tableau
(tableau de contingence)
chatains Roux Blonds

Marrons 119 26 7 152
Noisettes 54 14 10 78
Verts 29 14 16 59
Bleus 84 17 94 195
286 71 127
FRÉQUENCES RELATIVES ET MARGES
▶ Comme les fréquences sont proportionnelles à la taille de
l’échantillon, il est souvent plus pertinent de travailler avec le
tableau de fréquences relatives. dans lequl :
fij = nij ÷ n••
▶ Nous aurons aussi besoin de la somme des colonnes pour

chaque ligne et de la somme des lignes pour chaque colonne,
ce qu’on appelle les marges du tableau :
p
X
fi· = fij
j=1
n
X
f·j = fij
i=1
Exemple: le tableau des fréquences relatives et marges de

l’exemple précédent :
chatains Roux Blonds Cm

Marrons 0.25 0.05 0.01 0.31
Noisettes 0.11 0.03 0.02 0.16
Verts 0.06 0.03 0.03 0.12
Bleus 0.17 0.04 0.19 0.4
Lm 0.59 0.15 0.25 1
on peut écrire les Fréquences relatives et les marges sous forme

matricielle
0.25 0.05 0.01 0.31

0.59
0.11 0.03 0.02 0.16
F= ,Cm = ,Lm = 0.15
0.06 0.03 0.03 0.12
0.25
0.17 0.04 0.19 0.4
PROFILS
Profils lignes : Li = (ni1 /ni• , ...., nip /ni• )

▶ On l’obtient en divisant chaque valeur par le total de la ligne
correspondant. En termes matriciels, on a : L = Di−1 F
tq : Di est la matrice diagonale contient les fi
Profils colonne : Cj = (n1j /n•j , ...., nnj /n•j )
▶ On l’obtient en divisant chaque valeur par le total de la
colonne correspondant. En termes matriciels, on a :
L = Dj−1 F t
tq : Dj est la matrice diagonale contient les fj
DISTANCES ENTRE LES PROFILS
On peut mesurerPp la distance entre2 deux profils-lignes par :

2 ′
d (i, i ) = j=1 (fij /fi• − fi ′ j /fi′• )
▶ cette distance ne tient pas compte de l’importance de chaque
colonne.
▶ Un choix plus judicieux consiste à prendre la distance du khi
deux, qui tientP compte de l’importance de chaque colonne.
d 2 (i, i ′ ) = pj=1 1/f•j (fij /fi• − fi ′ j /fi′• )2
Exemple :
▶ La distance euclidienne entre les lignes 1 (yeux marrons) et 2
(yeux noisettes) est de 0.02
▶ La distance du khi deux est de 0.04 .
INDÉPENDANCE
▶ On dit que deux variables aléatoires et sont indépendantes

quand :
P(x, y ) = P(x) × P(y )
▶ ou bien :
fij = fi• × f•j
▶ L’hypothèse de l’indépendance entre X et Y est souvent testée
à l’aide d’un test du KHI 2
▶ H0 :les deux variables sont indépendantes.
▶ H1 :les deux variables ne sont pas indépendantes.
TEST D’INDÉPENDANCE DE KHI 2
▶ L’indépendance de KHI 2 est testée par calculer l’écart entre
effectifs observés(nij ) et effectifs théoriques (nfi • fj •)
p
n X
X
χ2(n−1)(p−1) = (nij − nfi• f•j )2 /nfi• f•j
i=1 j=1
▶ on peut aussi écrire :

p
n X
X
χ2(n−1)(p−1) = n (fij − fi• f•j )2 /fi• f•j
i=1 j=1
où (n − 1)(p − 1) est le degres de liberte

▶ on choisit selon le problème posé ,mais on utilise souvent
α = 0.05
▶ on compare entre χ2 observée et la valeur χ2 du tableau de
loi χ2 (selon et le degrés de liberté)
▶ si χ2obs > χ2critique . on rejette l’hypothése d’indépendance(H0 ) .
on utilisons l’exemple précédent :
▶ données observées (nij )

Marrons 119 26 7
Noisettes 54 14 10
Verts 29 14 16
Bleus 84 17 94
▶ données théoriques (nfi• fj• )

Marrons 88.52 22.51 37.51
Noisettes 45.69 11.62 19.36
Verts 34.27 8.71 14.52
Bleus 114.22 29.04 48.4
Pn Pp
▶ χ2(n−1)(p−1) = i=1 j=1 (nij − nfi• f•j )2 /nfi• f•j = 97.82
▶ on compare le resultat avec la valeur du tableau de loi KHI 2
tq α = 0.05 et le degrés de liberté (n − 1)(p − 1)= 6
▶ on a : χ2obs = 97.82 > χ2critique = 12.59
on peut conclure que la couleur des yeux et des cheveux ne
sont pas indépendantes.
LES COMPOSANTES PRINCIPALES
pour trouver les composantes principales (pour les profils lignes et

colonnes),on passe par les étapes suivantes :
−1/2 −1/2
1. Calculer X tq : X = Di (F − Cm Ltm )Dj
2. Calculer S tq : S = X t X .
3. calculer les valeurs propres λs et les vecteurs propres us de S.
4. Calculer les composantes principales (pour les profils lignes) :
Es = Xus .
5. Calculer les composantes principales (pour les profils colonne)
√
: Gs = λs us
PRÉSENTATION GRAPHIQUE
En utilisons les composantes principales(pour ligne et colonne)on

peut présenter les données dans un graphe .
▶ pour les lignes :les composantes de ligne i sont :

x = Esi1
(1)
y = Esi2
▶ pour les colonnes :les composantes de colonne j sont :

x = Gsi1
(2)
y = Gsi2
Et on conclure d’aprés le plan.

Difference entre ACP et AFC
Ces deux analyses sont similaires car elles sont toutes deux utilisées
pour simplifier la structure d’un ensemble de variables. Toutefois,
des différences importantes sont à noter :
▶ Dans l’analyse en composantes principales, les composantes
sont calculées comme des combinaisons linéaires des variables
d’origine. Dans l’analyse factorielle, les variables d’origine sont
définies en tant que combinaisons linéaires des facteurs.
▶ L’objectif de l’analyse en composantes principales est de
représenter autant que possible la variance totale dans les
variables. L’objectif de l’analyse factorielle est de représenter
les covariances et corrélations entre les variables.
Difference entre ACP et AFC
▶ L’analyse en composantes principales permet de réduire les
données en un nombre inférieur de composantes. L’analyse
factorielle permet de comprendre les constructions
sous-jacentes aux données.
▶ Les deux analyses sont souvent effectuées sur les mêmes
données. Par exemple, vous pouvez effectuer une analyse des
composantes principales pour déterminer le nombre de
facteurs à extraire dans une étude analytique factorielle.
▶ AFC : analyse symétrique qui analyse les profils en ligne et en
colonne.
ACP : analyse dissymétrique qui analyse directement les
données ou les données transformées selon le cas.
Dans l’AFC, les points dans l’espace sont réparti selon la
distance du chi² alors que dans l’ACP il s’agit d’une distance
euclidienne classique.
Inconvénients de l’AFC
▶ les défauts de toute analyse factorielle: déformation inévitable

du nuage durant la projection et la signification ou
interprétation des axes.

Analyse Factorielle-1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Factorielle-1

Transféré par

Droits d'auteur :

Formats disponibles

Analyse factorielle des correspondances (AFC)

Analyse factorielle des correspondances (AFC)

Les approches de l’Analyse Factorielle des Correspondances sont

▶ Analyse Factorielle des Correspondances utilisant la

▶ Analyse des Correspondances Détendancée (ACD)

Le principe de ces méthodes est de partir sans a priori sur les

Le premier axe d’inertie oppose les points, c’est-à-dire les lignes du

L’analyse factorielle des correspondances AFC développée par

Pour chaque point représentatif des lignes ou des colonnes du

Deux contraintes particulières sur les données sont à signaler :

Par l’AFC, il est tout autant possible d’analyser des tableaux

▶ Tableau de contingence : le tableau de contingence est

▶ Test d’indépendance entre les lignes et les colonnes : ce

▶ Remarque : la somme des valeurs propres affichées est égale

Les graphiques constituent le but ultime de l’Analyse Factorielle

▶ Graphiques symétriques : aussi appelés représentations

▶ Biplots de contribution : ces biplots, mis au point par

On considére n individus et deux variables V1 et V2.

on note les k modalités de la 1ére variable 1 par :

m21 m22 ... m2j ... m2p

nij désigne le nombre des individus posséde à la fois la modalité

On s’intéresse à la relation entre la couleur des yeux et la couleur

chatains Roux Blonds

fij = nij ÷ n••

▶ Nous aurons aussi besoin de la somme des colonnes pour

Exemple: le tableau des fréquences relatives et marges de

chatains Roux Blonds Cm

on peut écrire les Fréquences relatives et les marges sous forme

0.25 0.05 0.01 0.31

Profils lignes : Li = (ni1 /ni• , ...., nip /ni• )

On peut mesurerPp la distance entre2 deux profils-lignes par :

▶ On dit que deux variables aléatoires et sont indépendantes

▶ on peut aussi écrire :

où (n − 1)(p − 1) est le degres de liberte

chatains Roux Blonds

▶ données théoriques (nfi• fj• )

chatains Roux Blonds

pour trouver les composantes principales (pour les profils lignes et

En utilisons les composantes principales(pour ligne et colonne)on

▶ pour les colonnes :les composantes de colonne j sont :

Et on conclure d’aprés le plan.

▶ les défauts de toute analyse factorielle: déformation inévitable

Vous aimerez peut-être aussi